Stock 板


LINE

你劃錯重點, 先不論這篇論文的可行性與實用性, 你真的劃錯重點了 算力重要嗎? 重要但是不是影響販售/採購晶片的主因, 這個年代是用軟體思考的年代, 有兩個軟體方面的主因是AI晶片的關鍵: 1. LLM 2. API/framework: CUDA, OpenCL, tensorflow, pytorch 很多人嗆我說廢話, 但是很多人卻是連廢話都不懂, LLM 全名叫做 "Large" language model, 都已經叫做Large 了, 還放在最前面以表示重要性, 所以能夠處理"Large" 模型的能力 遠比算力重要的多, 這篇文章有圖形解釋cpu vs gpu vs tpu的差別, https://www.linkedin.com/pulse/ cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/ 所以拿這三者來比較算力是很蠢的事情, 這三者的算力彼此之間個差了十倍到百倍的差距, 比方說我有一大串數字/資料要做運算, cpu 必須每個數字/資料做運算之後相加減, gpu 把數字/資料放進兩個矩陣一次就算完, tpu 直接把算法設計成硬體邏輯, 數字/資料放進tpu可以直接得到結果, 所以你看出問題了嗎? 當你的資料與模型太大 會塞不進去矩陣 (v-ram), 同樣的道理, 資料與模型太大 會塞不進去tpu裡頭 (v-ram), 現代化的AI 瓶頸已經從算力提升到模型太大, 而這就是NVDA 厲害的地方, 一顆GPU v-ram 不夠塞進資料與模型, 沒關係, NVDA 把GPU 串連起來, 數百萬顆的GPU 串連 v-ram提升數百萬倍, 總可以塞進資料與模型來運算了吧, 請參考"電池串連"原理 就可以了解我在說什麼 TPU 原本把算法設計成硬體邏輯是個優點, 但是在串連運算上面卻成了缺點, 矩陣運算可以串連串起來運算, 邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現, 所以TPU 被綁在自身v-ram 的大小限制上面, 太大的模型與資料無法放進v-ram 就無法運算, 不過還是有解決方法, 這邊就不多說了 所以算力重要嗎? 在LLM 面前 真的不是最主要的考量 2. CUDA 版上吵翻天了, 不需要多說了, 你算力就算能比NVDA快上萬倍, 你也要能夠繞過CUDA 再說, 更何況算力有沒有比較快都很難說 ※ 引述《oopFoo (3d)》之銘言: : 千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。 : 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。 : 這次AI浪潮,應該也是類似。 : N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。 : 但最近一些AI的發展,也許會發現,這些Compute是不需要的。 : Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。 : Mamba我很看好,它的作者之一也是"Flash Attention"的作者。 : 但昨天一篇新的論文,可能是真的翻天覆地的開始。 : https://arxiv.org/abs/2402.17764 : "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits" : https://news.ycombinator.com/item?id=39535800 : hn的討論。 : 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。 : 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits) : 然後本來是fp dot product的只要int add。 : 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善? : 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。 : 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1709177914.A.EF9.html
1F:推 pmes9866 : 好的 歐印TQQQ 02/29 11:40
2F:推 leochen124 : 謝謝分享 02/29 11:41
3F:推 poisonB : 何必跟一知半解的認真 02/29 11:44
4F:推 Aska0520 : 感謝分享 ALL IN NVDA 02/29 11:44
5F:推 kid1a2b3c4d : 講中文啦QQ 02/29 11:44
6F:→ aimlikenoob : 問就是買 02/29 11:45
7F:→ tctv2002 : 嗯嗯 跟我想的一樣 02/29 11:48
8F:→ fatb : 閱 02/29 11:49
9F:推 rkilo : 謝分享 02/29 11:51
10F:推 sam90205 : 何必認真看到那篇論文的產地就可以end了. 02/29 11:52
11F:推 kducky : 00757會漲嗎0.0 02/29 11:55
12F:推 roseritter : 推. 硬體受限情況下 只能從其他地方突破惹 02/29 11:55
13F:推 ab4daa : 歐印TQQQ 02/29 11:55
14F:推 a069275235 : 樓下幫我看一下這一大篇有沒有股點 02/29 11:55
GPU => NVDA vram => hbm => MU switch => AVGO 包牌 => QQQ
15F:→ roseritter : 中國的HBM不知道何時商業量產 02/29 11:55
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09
16F:推 Altair : 豪!!! 所以要歐印誰? 02/29 11:56
17F:→ kausan : 所以沒有比cuda更屌的東西你還是要舔nv 02/29 11:57
有比cuda更屌的東西, 但是掌握在七巨頭手上
18F:→ a069275235 : 感恩明牌 五星推! 02/29 11:58
19F:推 abc21086999 : 我記得原Po是在G工作的FTE 02/29 11:59
20F:推 j65p4m3 : 好窩歐印 02/29 11:59
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04
21F:推 esproject : 幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋 02/29 12:04
22F:推 leoloveivy : 但如果要tpu 一定是port一個可以的model v-ram加上 02/29 12:06
23F:→ leoloveivy : 去面積大 價錢還是比H100划算吧嗎 02/29 12:06
24F:推 lonzoball02 : 繞過去就好了 02/29 12:06
25F:推 iamjojo : 推解釋 這我看得懂 02/29 12:11
26F:推 minikai : 問就是TQQQ 02/29 12:12
27F:推 WTF55665566 : 那文就是裝逼拐個彎吹支那或成最大贏家而已 02/29 12:14
28F:→ WTF55665566 : 欠打臉 02/29 12:14
29F:推 TheObServer : 請問什麼東西比庫打還猛? 02/29 12:15
CUDA 是最底層的軟硬體介面, 提供軟體(寫程式)得到硬體加速的效果, 但是Google 的Tensorflow, 以及Meta/Facebook 的Pytorch, 是建構在CUDA 之上的python API 套件, 現在已經很少人直接寫CUDA, 大部分的人都用pytorch or tensorflow, 我個人的經驗是pytorch 比較容易, tensorflow 比較底層比較複雜, 但是相對的tensorflow 提供更強大與更自由的設計功能, 不論是Google or FB, tensorflow or pytorch, 在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速
30F:→ JKjohnwick : 中國的科技業不是只能代工跟抄襲嗎 02/29 12:16
31F:→ AndyMAX : switch ==> Nintendo 02/29 12:17
32F:→ TheObServer : 不會是量子電腦吧 02/29 12:17
33F:推 subi : 現在好像開始談LPU了 02/29 12:18
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48
34F:推 motan : 好,結論就是輝達強暴了 02/29 12:21
35F:推 ymlin0331 : 包牌是TQQQ啦 02/29 12:21
36F:推 fmp1234 : 關鍵就是要 大 02/29 12:27
37F:推 truelove356 : NV不是要搶AVGO的地盤 02/29 12:29
38F:推 csluling : 本來就是,不然一直在衝v-ram幹嘛,一堆北七一直在 02/29 12:30
39F:→ csluling : 講算力瓶頸 02/29 12:30
40F:推 zoze : AMD能分一杯羹嗎 02/29 12:30
41F:→ csluling : 出新卡建新機就是一直在關注v-ram多大才知道能跑多 02/29 12:31
42F:→ csluling : 大模型 02/29 12:31
43F:推 ppuuppu : 讚讚 02/29 12:32
44F:→ csluling : 不過pytorch不算是繞過CUDA吧,頂多說可以對硬體有 02/29 12:33
45F:→ csluling : 指哪算哪效果吧? 02/29 12:33
pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic, 就可以繞過cuda, 但是自家的那套東西不對外販售 ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:35:18
46F:推 Ashand : SOXX 02/29 12:35
47F:推 leochen124 : 所以現在新創都在做inference的加速嗎 02/29 12:36
是的, 新創 training 玩不起, 除了openai夠錢也夠名聲能夠玩training 另外, inference 尤其是 edge AI 會是下一個戰場, 只是我不知道居然來的這麼快, 我原本估計要兩三年後才會到來
48F:推 LieTo : 繞過CUDA的意思是也可以不用NV的晶片嗎? 02/29 12:36
是的, 但是目前只有七巨頭五仙女有能力繞過cuda ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:39:17
49F:→ LimYoHwan : https://i.imgur.com/GxJuHEi.jpeg 02/29 12:37
50F:推 easyman : 這篇論文其實是-1,0,1 , 其實應該很適合整合在 02/29 12:37
51F:→ easyman : flash TLC上面。 或者 三檔電壓的RAM上面。 如果 02/29 12:37
52F:→ easyman : 放在FPGA上,就是2bit 加法器。 02/29 12:37
53F:→ LimYoHwan : 快一倍走了 韭菜套滿手 割肉再進去 02/29 12:37
54F:推 leochen124 : 現在應該是還有那些國家的LLM的sever還沒被滿足,才 02/29 12:38
55F:→ leochen124 : 能確定有沒有overbooking 02/29 12:38
56F:推 cowaksor : 好的信貸加質押tqqq 02/29 12:40
57F:→ Lipraxde : Edge inference 到處都在推,簡直殺紅眼了XD 02/29 12:46
58F:推 smallcheng : AMD除了價格優勢,在技術上有什麼優勢跟著NV喝湯嗎 02/29 12:46
59F:推 Fww : 推你認真,下面那篇真的不知在幹嘛 02/29 12:47
60F:→ TsmcEE : 包牌不應該是tqqq嗎 02/29 12:50
61F:推 energyy1104 : 個人認為真正的護城河是NVLink跟NVSwitch 02/29 12:52
62F:推 pponywong : Edge side只可能做inference阿 02/29 12:52
63F:→ energyy1104 : CUDA的重要性恐怕還要排在這兩個後面 02/29 12:52
64F:→ pponywong : 另外training的成本也很大 不可能繞過去 02/29 12:53
65F:→ pponywong : 目前openai 是用富爸爸的azure data center 02/29 12:53
66F:→ s90002442 : 結論: 單押g 02/29 12:53
67F:→ pponywong : 你要搞模型 你還是要花錢買NPU(TPU)或是GPU 02/29 12:54
68F:推 william85 : 推 02/29 12:55
69F:推 Gipmydanger : 推 02/29 12:55
70F:推 pponywong : 除了谷歌的TPU 目前只有微軟說要自己做 下單給牙膏 02/29 12:56
71F:→ pponywong : 其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片 02/29 12:57
72F:推 sdbb : 拜託別刪,謝謝 02/29 12:57
73F:→ LDPC : 狗家忘了下車 嗚嗚嗚嗚 99狗家 QQ 02/29 12:58
74F:→ pponywong : 另外就原Po講的 AI model會越來越大 你圖形辨識跟 02/29 13:02
75F:→ pponywong : GPT到現在Sora的模型 不是同一個量級的增長 02/29 13:03
76F:→ pponywong : 你要進入到下一個階段的AI 你就只能繼續擴大算力 02/29 13:03
77F:→ pponywong : 可能Sora需要30萬張H100 下一個AI就需要100萬張 02/29 13:04
78F:→ pponywong : 然後這些training是沒辦法繞過的 你要進場玩 你就只 02/29 13:04
79F:→ pponywong : 能花錢 02/29 13:05
80F:→ clamperni : 基本麵吃起來 02/29 13:05
81F:→ yiefaung : TPU也有TPU pod好嗎… 02/29 13:06
82F:推 leochen124 : 請問inference就不用把整個大模型放到vram嗎 02/29 13:07
83F:→ LDPC : 樓上 用切的QQ 參照Model parallelism 02/29 13:14
84F:→ LDPC : 所以gpu之間通訊速度很重要 這是老黃的大招 02/29 13:14
85F:→ LDPC : 4090有等效A100算力 但4090多卡之間通訊太慢 02/29 13:15
86F:推 ohmypig : 請問原po 對Alphawave IP 這家的看法? 傳輸速度會 02/29 13:15
87F:→ ohmypig : 是下一個gating 嗎? 02/29 13:15
88F:推 leochen124 : 謝謝L大解說 02/29 13:16
89F:→ LDPC : https://zhuanlan.zhihu.com/p/107101727 02/29 13:17
90F:推 Samurai : 我廢物只想知道要歐印哪隻 02/29 13:21
91F:推 ProTrader : 原po說的內容外行人可能真的搞不董"大型" 02/29 13:22
92F:推 tchen4 : 看不懂 先給推 02/29 13:22
93F:推 csluling : 原po跟L大都好心人 02/29 13:23
94F:→ ProTrader : 用生活中的東西來說 台鐵高鐵都是大型 02/29 13:23
95F:→ ProTrader : 但是台鐵高鐵的速度差異很明顯 02/29 13:23
96F:推 zhi5566 : Waitrop發一篇文 我就買一些TQQQ 02/29 13:24
97F:→ ProTrader : 如果你家有超跑 跑的比高鐵快 那還是迷你型沒用 02/29 13:24
98F:推 clisan : 謝謝說明 02/29 13:24
99F:推 usb4 : TPU好像可以串連了? google上次說training用自家TPU 02/29 13:25
100F:推 xm3u4vmp6 : 超低延遲 網卡直連暫存器 這樣才能擴展 02/29 13:25
101F:→ ProTrader : 我記得在10多年前流行大數據的時候開始有"大型" 02/29 13:26
102F:→ ProTrader : 現在的大型需求真正變的火熱 02/29 13:27
103F:推 dongdong0405: NVDA真的是安心買,未來它的saas 會越賺越多 02/29 13:28
104F:推 ctes940008 : 歐印 02/29 13:29
105F:→ Alwen : 看到sora橫空出世,我只覺得老黃infiniband贏麻惹 02/29 13:31
106F:推 pponywong : GPU之間的溝通速度 就是AVGO(博通)的強項了 02/29 13:31
107F:→ Alwen : 以後都是要求串連數十萬顆起跳 02/29 13:32
108F:推 stlinman : v-ram就是關鍵啦! 串連效益/成本就NV最高,其他怎麼 02/29 13:32
109F:→ stlinman : 怎麼打? 02/29 13:32
110F:→ pponywong : 所以AI5才有AVGO 他是專門做傳輸ASIC的 02/29 13:32
111F:→ stlinman : 老黃說買越多省越多不是在騙人的! 02/29 13:32
112F:推 ProTrader : 原po說的兩點也是教主說的老黃包圍網的成敗因素 02/29 13:33
113F:→ ProTrader : 只要這兩點不突破包圍網就徒勞無功老黃繼續統霸天下 02/29 13:33
114F:→ horb : 感謝分享 02/29 13:37
115F:→ LDPC : 所以蘇媽才要跟AVGO聯手啊蘇媽就是需要個"amd link" 02/29 13:39
116F:推 pponywong : 真的怕就買台積就好 我是覺得NVDA的護城河非常深 02/29 13:39
117F:→ LDPC : 蘇媽+何國源資產+VictorPeng+陳福陽 打老黃 02/29 13:40
118F:→ LDPC : 旁邊吃瓜看戲 QQ順便可以看彼此策略攻防戰 02/29 13:41
119F:推 pponywong : AVGO的Tomahawk5 應該是市面上唯一800G 的switch ic 02/29 13:41
120F:→ Alwen : 黃董手都伸到saas惹,進度真的很快 02/29 13:44
121F:推 ejnfu : NVDA AMD QQQ全買就好 02/29 13:44
122F:推 stlinman : 老黃把供應鏈都綁樁顧好了! 其他家想追上先不考慮 02/29 13:47
123F:→ stlinman : 技術成本能不能追上,光是產能卡不卡的到都是問題! 02/29 13:48
124F:推 leoying : 推一個 解釋的很清楚 02/29 13:49
125F:推 leoying : 不太懂為什麼AMD要找avgo合作,它自己不是有Xilinx. 02/29 13:53
126F:推 s987692 : PyTorch+rocm就饒過cuda了 02/29 13:55
127F:→ donkilu : 你要每個廠商各自做自己的TPU driver compiler SDK 02/29 13:55
128F:→ donkilu : 還只能自家內部用用 這樣搞到最後有比較省嘛... 02/29 13:56
129F:→ joygo : 現在問題就是真的能讓ai 突破的是學者吧,不是工程 02/29 13:57
130F:→ joygo : 師,好用,用習慣才是重點 02/29 13:57
131F:→ donkilu : 如果是成熟準備上線的產品還好說 現在軍備競賽階段 02/29 13:57
132F:→ donkilu : 如果自家晶片研發不順 把軟體研發拖垮豈不是更慘 02/29 13:57
133F:→ donkilu : 大廠多少還是要買雙保險 02/29 13:58
我待過四五間中美科技巨頭, 這些AI伺服器我在十年前就在研發, 中美檯面上的AI伺服器很多我都有參與研發過, 當年跟這幾家公司的高層開會的時候, 就有討論過這個問題, 答案是NVDA 賣太貴了, 自研不只是為了2nd solution, 也是因為自研再怎麼花錢都比買NVDA 便宜, 然後你又搶不到足夠的NVDA GPU, 所以能夠自研能夠用asic tpu 等方式的就盡量用, 不能用的應用再買NVDA GPU, 對於search, youtube, 天貓掏寶, amazon search, facebook image/vedio等等, 需求量夠大, 自研絕對省很多
134F:推 jagger : 推 02/29 14:01
135F:推 zhi5566 : AVGO到底還可不可以買啊 02/29 14:06
136F:→ LDPC : http://tinyurl.com/2znsvsxa QQ 旁邊看戲 02/29 14:06
137F:→ LDPC : 我有買AVGO 02/29 14:06
138F:推 zhi5566 : AVGO除了技術強 CEO更強 有其他風險嗎 02/29 14:07
139F:→ zhi5566 : 是不是無腦AI5 就可以 02/29 14:09
140F:推 leoying : 我還真的只有買AI5, 連QQQ都不想買 02/29 14:13
141F:推 rebel : TQQQ王 以後可以不要隨便砍你自己的文章嗎 文章是 02/29 14:13
142F:→ rebel : 你的 但下面很多推文很有參考價值 我印像中我的推 02/29 14:13
143F:→ rebel : 文就砍了至少三次 實際上應該是更多 尊重一下推文 02/29 14:13
對不起! 因為我常常會不小心講話得罪人, 所以看到有人對我的發言很有意見感覺又得罪人了, 就乾脆刪掉免得惹麻煩, 我下次不會再刪文了, 抱歉!
144F:推 AoA1 : 好文 02/29 14:14
145F:推 kducky : 有時候是編輯文章同時推文被吃掉吧? 02/29 14:14
146F:推 zhi5566 : 50% qqq/tqqq+ 50% AI5 洗頭+局部加強? 02/29 14:15
147F:推 kis28519 : 推 02/29 14:17
148F:推 rebel : 不是 他是整個文章砍掉 02/29 14:19
149F:推 goldmouse : 看完了 所以要買那隻 02/29 14:21
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 14:41:24
150F:推 wst24365888 : 推 02/29 14:37
151F:推 LDPC : 有時真的得砍文 我也常砍 因為有時講太多業界的 02/29 14:40
152F:→ LDPC : 會讓自己也有點麻煩 像果家就在這方面抓很嚴格QQ 02/29 14:41
153F:→ roseritter : 所以我都手動備分XD 02/29 14:42
154F:→ roseritter : 關鍵有時在推文 點一下 就會有更多想法 02/29 14:42
155F:→ LDPC : TQQQ王是好人QQ 我周遭同事沒人上批踢踢講業內事情 02/29 14:42
156F:推 truelove356 : AVGO漲最少 02/29 14:45
157F:推 ru04hj4 : 看完只看到包牌 QQQ 02/29 14:45
158F:推 meaa3 : 弱弱地問七巨頭五仙女是指??? 02/29 14:49
159F:推 ProTrader : 我還以為你是手動砍文是為了低調 因為說太多 02/29 14:50
160F:→ moonshade : tpu也可以設計成可以解hierarchical問題的 02/29 14:56
161F:推 strlen : 是擔心歐美cancel culture嗎?唉 02/29 15:03
162F:推 johnlin35 : 推 02/29 15:08
163F:推 thomaspig : 推 02/29 15:11
164F:推 rebel : 好啦 我也說了文章畢竟是你發的 你還是有砍文的權 02/29 15:12
165F:→ rebel : 力 只是很多推文很有幫助 不希望回來要找找不到 折 02/29 15:12
166F:→ rebel : 衷也許你就編輯 把你的部份不適合的砍掉就好 供參 02/29 15:12
167F:推 stosto : CPU怎麼會在你比較清單上 02/29 15:16
因為前面推文有提到用CPU就可以, 我拿CPU來比較只是想說根本不可能用CPU算AI, → oopFoo : GPU做inference。普通CPU就可用了,這是關鍵。 02/29 09:44
168F:→ stosto : Tpu 的問題就是硬體已經作死了,應用面變成侷限在 02/29 15:19
169F:→ stosto : 某些問題上,超出這些問題就不能用了 02/29 15:19
170F:推 ca1123 : 推TQQQ王 02/29 15:22
171F:推 vlstone : 推分享 謝謝 02/29 15:23
172F:推 marke18 : 推~~ 02/29 15:30
173F:推 richaad : https://i.imgur.com/9n1nQ3w.jpg 02/29 15:34
174F:→ richaad : 看看cuda 這個量級,後者要追上至少5年以上 02/29 15:34
我不知道為何AMD 要推ROCm, OpenCL 是 open source, 已經累積很多的成果以及CUDA 轉譯, 不懂為何不繼續OpenCL ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:36:24 ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:39:56
175F:推 ProTrader : 可能是AMD為了自研市場布局嗎? 因為便宜就有市場 02/29 15:48
176F:→ ProTrader : 然後蘇媽想要把自研整個吃下來? 02/29 15:48
177F:推 metallolly : 有文科翻譯機可以翻譯一下嗎 02/29 15:52
178F:推 smallmac : 大家有注意到Meta找陳陽福去當Board Member嗎?一兩 02/29 15:54
179F:→ smallmac : 週前的新聞 02/29 15:54
180F:推 smallmac : Sorry 是陳福陽 02/29 15:56
教主說的NVDA 包圍網裡頭最積極的應該是Meta 組博客, 也可以理解, 他畢竟是臉書創辦人, 是真的對臉書有感情的, 第二積極的是微軟與AMD蘇大媽, 至於其他的七巨頭專業經理人CEO 都自身難保或是志不在幹大事, 尤其某公司的CEO, 敵人就在本能寺 (公司總部), 不在NVDA ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:01:42
181F:推 roseritter : 你就是在酸狗家XD 02/29 16:24
182F:噓 a000000000 : 他那葛paper也有講vram需求會變小很多 模型越大差 02/29 16:30
183F:→ a000000000 : 越多 好像號稱70b的可以差到40倍 02/29 16:30
184F:推 roseritter : 問個不專業問題 V-RAM大小跟成本正相關可以理解 02/29 16:31
185F:→ roseritter : 那設計之初 就把記憶體放大某個安全係數 相較於總 02/29 16:32
186F:噓 a000000000 : 他那東西關鍵來來去去還是training沒講有省 02/29 16:32
187F:→ a000000000 : 現狀4能train大model的地方沒幾葛 尼要大家都用尼 02/29 16:33
188F:→ a000000000 : 那套 那也要資源夠多當side project 02/29 16:33
189F:→ roseritter : 成本 V-RAM還是比較便宜的吧 我看蘇嬤的同級產品 02/29 16:33
190F:→ roseritter : v-ram都刻意比N社大 02/29 16:34
我個人看法, vram 放越大成本越高, 蘇媽同等級vram 都比N大我也有發現, 所以蘇媽的毛利比老黃低呀! 以老黃角度, vram 少一點可以省一些成本, 毛利拉高, 而且可以變相讓買家多買一些gpu, 反正目前市場是有在賣AI 晶片的就他一家, 其他的都不成威脅 而且沒有記憶體安全係數這種東西, 因為模型大到一顆GPU一定裝不下
191F:→ a000000000 : 省bit的東西印象中ai剛流行就一堆人搞惹 起碼10+年 02/29 16:34
192F:→ a000000000 : 有些東西變成標準 tf32 tf16 bf16那些的 02/29 16:34
193F:→ a000000000 : 標準要那些大公司才推得動 02/29 16:35
194F:→ a000000000 : 如果只是想湊葛asic概念 去賭的小公司一堆死惹 02/29 16:35
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:43:53
195F:噓 a000000000 : 尼對vram的理解就錯惹 02/29 16:47
196F:→ a000000000 : 單卡vram夠大 單卡可以跑的模型就大 02/29 16:48
"單卡vram夠大 單卡可以跑的模型就大", 沒錯, 但是在LLM面前, vram 再怎麼大單卡都塞不下, 數量級完全不同
197F:→ a000000000 : 像tpu v5那種單顆16G然後拉一堆光纖對連的方案就很 02/29 16:48
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:50:03
198F:→ a000000000 : 慘 因為那種link的pJ/bit大概是cowos的幾十倍 02/29 16:49
199F:→ a000000000 : 簡單講人家單卡塞的下的狀態功耗優勢明顯 02/29 16:49
200F:推 FMANT : 所以要不要繼續捏NVDA???? 02/29 16:51
201F:→ FMANT : 就這個問題 02/29 16:51
202F:→ a000000000 : 蘇媽的192夠塞那種70b惹 而且70B也很多夠用惹 02/29 16:53
203F:→ a000000000 : 我覺得那種Tb級的下代model跑起來成本也不低 02/29 16:54
204F:→ a000000000 : 市場可能會先慢慢消化gpt4等級的應用 02/29 16:55
205F:推 fancydick501: hbm是mu喔 還以為是韓國那兩家 02/29 17:48
206F:推 xoy232 : 這篇給推 NV要爆噴了 02/29 17:52
207F:推 KrisNYC : 爆一爆吧 基礎邏輯大家都應該有 目前cuda硬解不可避 02/29 18:09
208F:→ KrisNYC : 有能力搞底層繞過cuda相關運算法則的都是巨頭 02/29 18:09
209F:推 lavign : colab選TPU跑深度學習超級慢 02/29 18:28
210F:→ ookimoo : 相對很快,很強,但是沒用,下去吧電子垃圾 02/29 18:34
211F:推 richaad : 最近Google AI別鬧了,生成圖片一直出大包,美國國 02/29 18:39
212F:→ richaad : 父變黑人 02/29 18:39
213F:推 oneIneed : 不明覺厲 02/29 18:42
214F:→ fallen01 : 遙望Cuda當年唸書就有了 寒窗十年 02/29 18:55
215F:推 dodobaho : 正解 02/29 19:09
216F:推 pk655tw : 謝謝TQQQ王願意分享 02/29 19:33
217F:推 ymlin0331 : all in NVDA很怕被機構惡搞 02/29 20:02
218F:→ ymlin0331 : all in TQQQ比較穩定啦 02/29 20:02
219F:推 stosto : HBM hynix一直都有,跟nv合作很久了 02/29 20:47
220F:→ stosto : m家是去年殺出來的 02/29 20:47
221F:→ stosto : 最近也有新聞說m家先整合進H200了 02/29 20:48
222F:→ stosto : 三星目前我所知是完全沒有 02/29 20:48
223F:推 colinshih : TPU 在做矩陣convolution, 核心的運算透過systolic 02/29 21:22
224F:→ colinshih : array 執行。它基本就是將資料的時序關係投影到特 02/29 21:22
225F:→ colinshih : 定運算平面最大化運算效率。大矩陣分割在影像處理是 02/29 21:22
226F:→ colinshih : 基本問題。即便超大activation 也可以透過多個TPU 02/29 21:22
227F:→ colinshih : 協同處理。運算只在乎資料彼此關係, systolic arra 02/29 21:22
228F:→ colinshih : y 只是這些運算的不同種抽象形態表示 對應的都是同 02/29 21:22
229F:→ colinshih : 樣的matrix convolution. 差別最多在於資料流處理 02/29 21:22
230F:→ colinshih : 的差異。這種硬體架構對於邏輯設計算是基本的 只是 02/29 21:22
231F:→ colinshih : 教科書裡面的例子 02/29 21:22
232F:推 ProTrader : 樓上的說法是 TPU如何用演算法克服"大型" 02/29 21:50
233F:→ ProTrader : 對TPU設計廠商來說只是基本工? 02/29 21:51
234F:→ ProTrader : 類似在學校學生超大數乘法的演算法作業? 02/29 21:52
235F:→ Lipraxde : 切圖、串連再厲害,ram 不夠大就是虧啦,像武器一 02/29 22:06
236F:→ Lipraxde : 樣,一寸長一寸強 02/29 22:06
237F:推 ProTrader : 所以蘇媽喜歡的是那種很大很大可以一次放進去 02/29 22:33
238F:→ ProTrader : 所有資料的vram 02/29 22:34
239F:推 pponywong : 重點還是你vram硬體設計再大 也不可能塞得下一個 02/29 22:47
240F:→ pponywong : model 所以意義在哪裡 02/29 22:47
241F:推 ProTrader : 應該是以後會有 "大型" "小型" 兩種市場需求吧 02/29 23:02
242F:推 silentneko : 推 雖然很多看不懂@@ 03/01 00:34
243F:推 aegis43210 : LPU的成本太高了啦,塞一堆sram,哪來那麼高的良率 03/01 01:13
244F:→ aegis43210 : 及封裝量能來玩這個,成本效益還是輸ASIC 03/01 01:13
245F:→ aegis43210 : 西台灣就是有算力瓶頸才開始玩模型剪枝,等到未來各 03/01 01:18
246F:→ aegis43210 : 行各業都需要AI推論時就會很有用,不過西台灣也只能 03/01 01:18
247F:→ aegis43210 : 這樣玩,L20的推論只是堪用,所以配合中芯晶片的無 03/01 01:18
248F:→ aegis43210 : 奈之舉 03/01 01:18
249F:推 colinshih : Protrader: 20-30年前很多應用的論文在不同領域,和 03/01 01:45
250F:→ colinshih : TPU 的問題基礎類似。 03/01 01:45
251F:推 yumumu : 讚 03/01 06:58
252F:噓 astroboy0 : ㄏㄏ怎麼沒有人提挖礦潮要回來,老黃又要賺兩邊 03/01 07:15
253F:→ astroboy0 : 怎麼看都是老黃繼續輾壓,市值能多高?或是搞拆股 03/01 07:16
254F:推 Prado4840 : 技術上是一回事、但不代表有訂單、不代表LLM是強需 03/01 16:44
255F:→ Prado4840 : 求。好吧我是借機希望有人可以回答我的疑惑 03/01 16:44
256F:→ Lipraxde : LLM 比專家系統的助理好多了,不過要變成強需求的 03/02 11:22
257F:→ Lipraxde : 話可能要先解決準確度的問題,不然 LLM 就像在作夢 03/02 11:22







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP