作者oopFoo (3d)
看板Stock
标题Re: [新闻] 辉达H100晶片纾压了 订单大户开始转售
时间Thu Feb 29 08:06:42 2024
千禧年的网路泡沫,也是先炒作硬体商,Cisco, Sun...,Sun还有"dot in dot-com"的广告。
网路确实是改变世界,但真正大赚的是软体公司,而且是完全新鲜的软体公司。
这次AI浪潮,应该也是类似。
N家这次炒作这麽高,是因为真的,Compute是供不应求。每个大公司都怕买不够,跟不上。
但最近一些AI的发展,也许会发现,这些Compute是不需要的。
Mamba, RetNet, RWKV是从"Attention"的这点来改善。"Attention"是Quadratic Complexity,这是硬体需求的关键。现在在找方法从Quadratic改成Linear。
Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
但昨天一篇新的论文,可能是真的翻天覆地的开始。
https://arxiv.org/abs/2402.17764
"The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
https://news.ycombinator.com/item?id=39535800
hn的讨论。
现在讨论的共识是,可行,理论基础很扎实。各路人马开始指出,从2006年开始的这方面研究,已经找出好多篇证实这方向是可行的。
现在的LLM是用fp16(16bits),这方法可1.58bits,(讨论说可以缩到0.68bits)
然後本来是fp dot product的只要int add。
轻松10x的效能,新ASIC针对Ternary weight发展可以轻松100x的效能改善?
如果这篇证实是可行的,AI起跑点重新设置,所有公司的价值都要重新计算。
这篇的作者群很有资历,但很有趣的是,主要是来自北京/清华大学。美国猛力压制中国的运力运算,造就不太需要Compute的方法的发现,戳破美国AI泡沫,这会是非常的讽刺。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 219.70.128.119 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1709165206.A.DEA.html
1F:推 addy7533967 : 蒜粒概念股有吗 02/29 08:08
2F:推 YummyLin2120: 可惜民进党逢中必反 根本反智 02/29 08:10
3F:推 leochen124 : 中国没有a100也可以发论文? 02/29 08:11
4F:推 patrol : 嗯,先拿点实际的东西出来看看 02/29 08:13
5F:→ sirins : 种蒜用农药,重返荣耀哪一间我就不说了 02/29 08:13
6F:→ poisonB : 说得很好 继续加油啦 02/29 08:14
7F:嘘 fedona : 实作的出来再吹 02/29 08:16
8F:推 apple123773 : 这时候崩真的好,大家就可以xdd 02/29 08:16
9F:→ kausan : 算力需求根本没极限 结案 02/29 08:16
10F:推 wUbInG : 可惜民进党逢中必反 根本反智 02/29 08:17
11F:→ otaku690 : 对於降低资料频宽的追求跟美国打不打压没关系啦 02/29 08:17
12F:嘘 iamchuan314 : 喔 02/29 08:18
13F:嘘 zxcvb1234522: 投资那麽多算力,结果没办法赚钱,目前很多AI产品 02/29 08:21
14F:→ zxcvb1234522: 的状况 02/29 08:21
15F:推 audic : 没有算力才在那边搞五四三,最终还是回归算力追求 02/29 08:21
16F:嘘 hwei9582905 : 大纪元 02/29 08:21
17F:→ audic : 跟缩小晶片跟先进封装两条线不冲突一样 02/29 08:22
18F:→ mojito888 : 理论上时光机也做得出来,理论上啦!中或赢,要加 02/29 08:22
19F:→ mojito888 : 油馁… 02/29 08:23
20F:推 ppon : 之前以太币也是出现更有效率的挖矿法 结果没人再用 02/29 08:23
21F:→ ppon : 显卡挖 AI感觉也是迟早的事 02/29 08:23
22F:→ emind : 美国用这个技术训练更大的模型? 02/29 08:25
23F:嘘 tttt0204 : 中文太烂,重写一遍 02/29 08:25
24F:推 littlejackbr: 我很怀疑你到底知不知道自己在讲什麽 02/29 08:26
26F:→ AGODC : 就是没算力才在那边搞东搞西的,等这东西真的弄出来 02/29 08:28
27F:→ AGODC : ,人家疯狂买算力的都跑多远了? 02/29 08:28
28F:推 s56565566123: 好了啦 你赚多少 02/29 08:29
29F:嘘 WTF55665566 : 优化架构本来就一直存在 把这个扯成跟打压晶片有关 02/29 08:30
30F:→ WTF55665566 : ?问号 02/29 08:30
31F:→ WTF55665566 : 还在理论可行没实作的东西看看就好 不要又搞个超导 02/29 08:30
32F:→ WTF55665566 : 体笑话 02/29 08:30
33F:→ henry2003061: 你是谁 02/29 08:30
34F:→ kausan : 这麽说好了 gpu迟早会降价 没钱的公司可以等价格合 02/29 08:31
35F:→ kausan : 理再买阿 02/29 08:31
36F:嘘 powerkshs : 又是太监在自慰不用性生活ㄏㄏ 02/29 08:31
37F:推 herrowui : 大学的论文着重在理论,是的理论!! 02/29 08:31
38F:→ c928 : 这文字看了就头痛 02/29 08:32
39F:嘘 ck326 : 看到吹强国就可以不用看了 02/29 08:33
40F:→ CORYCHAN : 大大你在电虾版吹的MSI Claw 02/29 08:33
41F:→ CORYCHAN : 好像是跑分80 性能40欸 02/29 08:33
42F:→ CORYCHAN : 这样还卖的比Ally贵是怎样.. 02/29 08:33
43F:嘘 zsquarez : 说得很好,下次别说了 02/29 08:34
44F:推 flycarb : 可4现在AI专家们都爽用CUDA欸,而且大力出奇蹟呢 02/29 08:34
45F:→ e223833755 : 跌了就出来透气了 02/29 08:36
46F:嘘 Fww : 看到吹强国就知道可以跳过了 02/29 08:36
47F:推 flycarb : 工程师:改算法太麻烦惹,我们直接大力出奇蹟吧~~ 02/29 08:37
48F:推 iamjojo : 戳破再说 先搞个比sora厉害的出来我就相信 02/29 08:41
49F:嘘 henry2003061: 补嘘 02/29 08:44
50F:推 gk1329 : 好 中国又赢惹 赢两次 02/29 08:45
51F:推 AndyMAX : 之前吹量子 吹爆了改吹AI 02/29 08:48
52F:推 kentsv : 中国又来赢了,推文有些人又被空气碰到就高潮跳针 02/29 08:50
53F:→ kentsv : 民进党了 02/29 08:50
54F:→ abbjesper : 挡人财路不怕死吗 02/29 08:50
55F:→ flipflap : 中或赢 02/29 08:50
56F:嘘 JKjohnwick : 这次跟.com差那麽多 02/29 08:50
57F:推 Mchord : AI发展到现在只有论文标题愈来愈像农场文是真理 02/29 08:52
58F:嘘 wrider987 : 中国还在用算盘解算式吗? 02/29 08:52
59F:嘘 alberthcc : 中共还没死? 02/29 08:54
60F:→ TSMininder : 写得不错 适合丢给AI翻译一下 02/29 08:55
61F:推 joygo : 算力高也不见得做的出好ai,等老黄出算力补侦 02/29 08:57
62F:推 yoshilin : 美国人不习惯省钱 02/29 08:57
63F:嘘 ariadne : 我觉得中国量子电脑搞出後ai就会领先世界 又双赢 02/29 08:57
64F:→ joygo : 现在主要是大家都要抢头香,agi这种东西第一个做出 02/29 08:58
65F:→ joygo : 来的人直接自霸软体界,一个24小时不休息会思考记 02/29 08:58
66F:→ joygo : 忆无限的天才员工,有什麽软体是他写不出来的 02/29 08:58
67F:→ newwu : 变linear有差,省个运算你以为老黄就会怕了? 02/29 08:58
68F:→ oopFoo : 论文作者一半以上是微软亚洲研发的员工。我是在钓XD 02/29 09:00
69F:嘘 oil01 : 就中国贪小便宜以为自己聪明! 02/29 09:01
70F:推 previa : 嘘的人多少人付费买AI产品过? 02/29 09:02
71F:→ previa : 我怀疑有1/3就不错了 02/29 09:02
72F:→ previa : chatgpt嘘的有多少人是付费会员? 02/29 09:03
73F:→ ccy858 : 喔 02/29 09:04
74F:推 aleventy : 这跟三星超车台g的言论,哪个可信度高? 02/29 09:04
75F:→ sdiaa : 怎麽会觉得算力高的公司没有在优化自己的程式阿?? 02/29 09:07
76F:→ xlaws : 嘻嘻 02/29 09:09
77F:→ icedog122 : overbooking 丸子 02/29 09:16
78F:推 GiPaPa : 量化太多精确度会下降 确定要拿这个讲不需要算力吗 02/29 09:16
79F:推 thbygn98 : 我觉得蛮难的,有些问题变interger反而更难 02/29 09:22
80F:嘘 Westzone : 呵呵,信的去放空辉达阿,笑你不敢而已 02/29 09:22
81F:推 thbygn98 : 而且运算变简单不一定等於算力需求降低,反而让十 02/29 09:25
82F:→ thbygn98 : 倍百倍大的模型变的可能,说不定相反变ai爆炸 02/29 09:25
83F:→ thbygn98 : 只是赢家可能换人而已,说不定回头做fpga了 02/29 09:27
84F:推 stevenkane : 中国或成最大赢家 02/29 09:28
85F:推 thigefe : 还以为是什麽,原来是弯道超车啊 02/29 09:28
86F:推 littlelaba : 优化是一定要优化 但不代表硬体需求一定会满足 02/29 09:30
87F:嘘 steven3231 : 下次先把吹中国放文章开头好吗,省得浪费时间看整篇 02/29 09:34
88F:→ BruceChen227: 中又赢 02/29 09:35
89F:嘘 jympin : 结论:中或赢 02/29 09:41
90F:→ Altair : 看起来只有理论 没有实作? 纸上谈兵?? 02/29 09:41
91F:→ laechan : 中或赢 02/29 09:42
92F:→ Altair : 又 这个会否跟ram很像 你说不需要太多ram就能做? 02/29 09:42
93F:→ Altair : ram是愈多愈好 没人嫌少 02/29 09:42
94F:→ oopFoo : 有3.9B的,70B的还在路上。如果这可行,就不需要 02/29 09:43
95F:推 boy1031 : AI又不会向领导敬酒下跪缴红包,这在共惨就是完全没 02/29 09:44
96F:→ boy1031 : 用的东西 02/29 09:44
97F:→ oopFoo : GPU做inference。普通CPU就可用了,这是关键。 02/29 09:44
98F:→ rockocean : 弯道超车 拓海还是填海? 02/29 09:46
99F:→ oopFoo : 本来赢者全拿的,现在每个人都有机会。int add很容 02/29 09:47
100F:→ oopFoo : 易的。然後本来是compute限制的,现在回到data限制 02/29 09:48
101F:推 polome : 这不就是大部分晶片都12奈米,所以1奈米不用花钱研 02/29 09:48
102F:→ polome : 发了的理论吗? 02/29 09:48
103F:→ oopFoo : 谁有好的data足够的data会是目前的领先者。 02/29 09:48
104F:推 lPla : 中国或成最大赢家 02/29 09:49
105F:→ mic73528 : 爽,遥遥领先,XDD威武 02/29 09:50
106F:→ azhu : 这文似乎触发了什麽东西 02/29 09:51
107F:嘘 a000000000 : 他这东西问题在尼所有model都要重新train 02/29 09:52
108F:→ a000000000 : training的硬体需求大概没变 02/29 09:52
109F:→ newwu : Training 才是这篇比较有价值的点吧 02/29 09:53
110F:→ newwu : Inference 本来就有quantization,这又不是第一天 02/29 09:53
111F:→ newwu : 的事,大惊小怪喔 02/29 09:53
112F:→ a000000000 : inferencing的话现有的gpu也可以跑int8 02/29 09:53
113F:→ a000000000 : 路上asic公司倒是一大堆惹 02/29 09:53
114F:→ a000000000 : 整体来讲大概就下一代model等级的东西可以塞这带的 02/29 09:54
115F:→ a000000000 : 硬体 没惹 反正ai公司还是会想办法把硬体塞满 02/29 09:54
116F:→ a000000000 : ai model膨胀的速度太快惹 摩尔定律的四倍 02/29 09:54
117F:→ DLHZ : 论文都给数据了 说没实作的真的有看文章? 02/29 09:57
118F:嘘 piy12345689 : 论文…跟实作别混为一谈 02/29 09:58
119F:推 sdbb : 认真文,谢谢 02/29 10:02
120F:→ kobi0910 : 东西放出来给大家用了再说 02/29 10:05
121F:推 brucetu : 轻松一百倍那巨头的算力不就是一百倍?你以为这个 02/29 10:07
122F:→ brucetu : 技术美国人拿不到? 02/29 10:07
123F:→ brucetu : 给巨头一百倍的AI应该可以生出新的应用了吧继续喷一 02/29 10:08
124F:→ brucetu : 百倍 02/29 10:08
125F:推 macair : 又来考古了,AI是未来100年的发展,还在2000年的教 02/29 10:09
126F:→ macair : 训,都被教训到快4万点了还教训啊 02/29 10:09
127F:→ brucetu : 软体是随着硬体成本降低而泡沫化还是随着硬体成本 02/29 10:09
128F:→ brucetu : 降低而蓬勃发展,你再想想 02/29 10:09
129F:推 LDPC : 99猩猩 5555554 QQ 02/29 10:11
130F:嘘 evil0108 : 可惜美国逢中必反 根本反智 02/29 10:12
131F:→ evil0108 : 笑死 推文一堆政治脑 02/29 10:12
132F:→ ohya111326 : 好啦 中国又赢 开心了吗 02/29 10:13
133F:→ nata12 : 哥布林说别人反智 02/29 10:13
134F:→ evil0108 : 把实际东西拿出来再说吧 intel也说能造出2奈米阿 02/29 10:14
135F:→ evil0108 : 阿东西勒?只能实验室做出来无发量产 搞笑唷 02/29 10:14
136F:→ Ceferino : 逢中必反真可怕 02/29 10:14
137F:嘘 videoproblem: 占国厕可以不要再来乱了ㄇ 02/29 10:15
138F:→ jfw616 : 所以量产了吗? 02/29 10:17
139F:→ jfw616 : 运力运算只会越来越多,跟你研究出效能改善... 02/29 10:18
140F:→ jfw616 : 两回事... 02/29 10:18
141F:→ jfw616 : ai是不是泡沫还不得而知... 02/29 10:19
142F:推 abcjoe61115 : 中或赢 02/29 10:20
143F:推 strlen : 好 辉达身家空 目标价2元 收到打收到 02/29 10:21
144F:嘘 ck960817 : Training跟inference都没搞清楚你还是先回去念书吧 02/29 10:27
145F:推 showlive0214: 苹果算硬体还是软体商 02/29 10:32
146F:推 js850604 : 你用的资源少又怎样,还不是要更多硬体一起算 02/29 10:37
147F:嘘 a000000000 : 这东西4微软中国研究院的所以其实讲中或赢应该还早 02/29 10:37
148F:推 v21638245 : 逢中必吹,中又赢 02/29 10:40
149F:嘘 zephyrmartin: 难得会想在股版嘘人 02/29 10:45
150F:推 metallolly : 中国又赢了 02/29 10:48
151F:嘘 sheep2009 : Nv真的很多人没上到 一堆招 02/29 10:49
152F:嘘 qazwsx1225 : 中国要赢多少次? 02/29 10:56
153F:嘘 ypes970813 : 继续幻想 02/29 11:08
154F:推 leon1757tw : 中又赢 02/29 11:08
155F:推 xfile : 永动机的实现终於出现了吗 02/29 11:17
156F:嘘 csluling : 中国的车我先不上 02/29 11:19
157F:推 Lowpapa : 正确 AI泡沫了 10年後再来 02/29 11:23
158F:嘘 karta2359950: 真的做到再出来吹 很会唬烂 02/29 11:30
159F:嘘 followwar : Training 跟 inference 是两回事 02/29 11:37
160F:推 aegis43210 : 如果CPU可以靠特殊指令集达到和目前一堆ASIC一样的 02/29 11:40
161F:→ aegis43210 : 推论效能,那的确是x86阵营的大机会 02/29 11:40
162F:嘘 sxing6326 : 反指标的咖洨 02/29 11:48
163F:嘘 pacino : 网路泡沫(x). 达康泡沫(o) for 2000 02/29 11:55
164F:嘘 jamie81416 : 各位,中国又赢啦 02/29 12:21
165F:嘘 iceyeman : 少来 真出来股价就会跌了 我看还继续往上喷勒 02/29 12:21
166F:→ jamie81416 : 北京清华是个出产奴工的好地方,但说他们能搞啥 02/29 12:23
167F:→ jamie81416 : 创新?哈哈哈哈 02/29 12:23
168F:嘘 dave070715 : 中国又赢了XDD一直赢一直赢,喔对了 再一年就2025了 02/29 12:31
169F:→ dave070715 : ,怎麽还是被美国吊打XDD 中国韭菜就是要任命啦,美 02/29 12:31
170F:→ dave070715 : 国肛中国;中国韭菜被党肛QQ 02/29 12:31
171F:推 wu2183 : 未看先谁中国又赢 02/29 12:49
172F:→ eemail : 弯道超车概念 但你不要以为ㄧ直在弯道会变曲速XD 02/29 12:54
173F:→ cannedtuna : 语言模型够了就加上视觉模型 02/29 13:04
174F:→ cannedtuna : 视觉够了再塞物理模型 02/29 13:04
175F:→ cannedtuna : 要说算力够了还太早吧 02/29 13:04
176F:嘘 henry2003061: 这种文大家就别认真了 02/29 13:24
177F:推 LDPC : cannedtuna这点子不错耶 QQ等等搞一个测测看 02/29 13:32
178F:→ blackjose : 要修改LLM结构,然後重新弄一套高效的,再训练,通 02/29 13:33
179F:→ blackjose : 常时程不会赢大力出奇蹟的。 02/29 13:33
180F:→ blackjose : 现在疯抢H100就是要拼时间上滩头。 02/29 13:33
181F:→ LDPC : 大力出奇蹟就scaling law所预测啊不过1b fgpa model 02/29 13:34
182F:→ LDPC : 已经很久以前就有 shannon都可以拿来预测上限 02/29 13:35
183F:→ LDPC : 不过mamba只是为了解决infernece 他在training端 02/29 13:35
184F:→ LDPC : 还是有一堆限制和缺点RNN缺点就是不能并行运算 02/29 13:36
185F:→ LDPC : 然後mamba那个做法会无法有效利用tensor core 02/29 13:36
186F:嘘 HenryLin123 : GPU inference? 02/29 13:43
187F:→ oopFoo : Mamba用prefix-sums来避开rnn不能平行运算的问题。 02/29 13:43
188F:→ LDPC : 楼上 那玩意不能有效利用tensor core 02/29 13:44
189F:→ LDPC : Google最新那篇设计就好很多BlockState Transformer 02/29 13:45
190F:→ LDPC : StateSpace+Transformer 我个人觉得比较符合现在 02/29 13:47
191F:→ oopFoo : parallel scan(prefix sums)可以用tensor core啊。 02/29 13:48
192F:→ oopFoo : 只是比较麻烦而已。Mamba的问题是"selective"会不会 02/29 13:49
193F:→ oopFoo : 太loosy。目前看来是没问题的,但还是需要更大的 02/29 13:50
194F:推 LDPC : 以A100为例 fp32(19.5Tflops) Tensor-core(156Tflop 02/29 13:50
195F:→ oopFoo : model来证实。Mamba最重要是"context"可以变得很大 02/29 13:50
196F:→ oopFoo : 当你有unlimited context的时候。直接就用zero shot 02/29 13:52
197F:→ oopFoo : learning了,RAG就不需要了,更容易使用。 02/29 13:53
198F:→ LDPC : mamba优点就是hidden state update会根据input调整 02/29 13:53
199F:→ LDPC : QQ这几天来实作一下mamba好了 看一下训练的成本 02/29 13:55
200F:推 shadtalker : 扯到底中国为何CV LLM可以这麽强 02/29 14:08
201F:→ yiersan : 中国自我安慰罢了 可怜那 02/29 14:48
202F:→ vacuityhu : 不是啊...就算真的能无损效能改int, 那改完int省出 02/29 17:40
203F:→ vacuityhu : 来的算力我也可以继续扩增模型尺寸啊, 模型变大能 02/29 17:40
204F:→ vacuityhu : 做的事更多更好一样甩你好几个车身, 不加大模型我 02/29 17:40
205F:→ vacuityhu : 也可以加快运算效率啊, 影片即时翻译字幕比你快比 02/29 17:40
206F:→ vacuityhu : 你精准还是把你压在地上摩擦, 追根究底算力碾压的 02/29 17:40
207F:→ vacuityhu : 前提下还在妄想什麽弯道超车? 02/29 17:40
208F:嘘 sa87a16 : 连晶片都要手工的国家,你吹慢慢吹 02/29 19:16
209F:→ sa87a16 : 上次一堆韭菜被诈骗,这次一定不一样对不对 02/29 19:17
210F:→ musie : 笑死 一堆不懂AI的在乱嘘 我公司在小模型可以重现 03/02 02:58
211F:→ musie : 这对降低成本还有inference速度有很大的影响 03/02 02:58
212F:→ musie : 这是今年以来最重要的Paper 03/02 03:01