作者waitrop (嘴炮无双)
看板Stock
标题Re: [新闻] 辉达H100晶片纾压了 订单大户开始转售
时间Thu Feb 29 11:38:32 2024
你划错重点,
先不论这篇论文的可行性与实用性,
你真的划错重点了
算力重要吗?
重要但是不是影响贩售/采购晶片的主因,
这个年代是用软体思考的年代,
有两个软体方面的主因是AI晶片的关键:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch
很多人呛我说废话,
但是很多人却是连废话都不懂,
LLM 全名叫做 "Large" language model,
都已经叫做Large 了,
还放在最前面以表示重要性,
所以能够处理"Large" 模型的能力 远比算力重要的多,
这篇文章有图形解释cpu vs gpu vs tpu的差别,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿这三者来比较算力是很蠢的事情,
这三者的算力彼此之间个差了十倍到百倍的差距,
比方说我有一大串数字/资料要做运算,
cpu 必须每个数字/资料做运算之後相加减,
gpu 把数字/资料放进两个矩阵一次就算完,
tpu 直接把算法设计成硬体逻辑,
数字/资料放进tpu可以直接得到结果,
所以你看出问题了吗?
当你的资料与模型太大 会塞不进去矩阵 (v-ram),
同样的道理,
资料与模型太大 会塞不进去tpu里头 (v-ram),
现代化的AI 瓶颈已经从算力提升到模型太大,
而这就是NVDA 厉害的地方,
一颗GPU v-ram 不够塞进资料与模型,
没关系, NVDA 把GPU 串连起来,
数百万颗的GPU 串连 v-ram提升数百万倍,
总可以塞进资料与模型来运算了吧,
请参考"电池串连"原理 就可以了解我在说什麽
TPU 原本把算法设计成硬体逻辑是个优点,
但是在串连运算上面却成了缺点,
矩阵运算可以串连串起来运算,
逻辑电路要串连 v-ram 运算反而变得非常复杂与难实现,
所以TPU 被绑在自身v-ram 的大小限制上面,
太大的模型与资料无法放进v-ram 就无法运算,
不过还是有解决方法,
这边就不多说了
所以算力重要吗?
在LLM 面前 真的不是最主要的考量
2. CUDA 版上吵翻天了,
不需要多说了,
你算力就算能比NVDA快上万倍,
你也要能够绕过CUDA 再说,
更何况算力有没有比较快都很难说
※ 引述《oopFoo (3d)》之铭言:
: 千禧年的网路泡沫,也是先炒作硬体商,Cisco, Sun...,Sun还有"dot in dot-com"的广告。
: 网路确实是改变世界,但真正大赚的是软体公司,而且是完全新鲜的软体公司。
: 这次AI浪潮,应该也是类似。
: N家这次炒作这麽高,是因为真的,Compute是供不应求。每个大公司都怕买不够,跟不上。
: 但最近一些AI的发展,也许会发现,这些Compute是不需要的。
: Mamba, RetNet, RWKV是从"Attention"的这点来改善。"Attention"是Quadratic Complexity,这是硬体需求的关键。现在在找方法从Quadratic改成Linear。
: Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的论文,可能是真的翻天覆地的开始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的讨论。
: 现在讨论的共识是,可行,理论基础很扎实。各路人马开始指出,从2006年开始的这方面研究,已经找出好多篇证实这方向是可行的。
: 现在的LLM是用fp16(16bits),这方法可1.58bits,(讨论说可以缩到0.68bits)
: 然後本来是fp dot product的只要int add。
: 轻松10x的效能,新ASIC针对Ternary weight发展可以轻松100x的效能改善?
: 如果这篇证实是可行的,AI起跑点重新设置,所有公司的价值都要重新计算。
: 这篇的作者群很有资历,但很有趣的是,主要是来自北京/清华大学。美国猛力压制中国的运力运算,造就不太需要Compute的方法的发现,戳破美国AI泡沫,这会是非常的讽刺。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.103.225.6 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1709177914.A.EF9.html
1F:推 pmes9866 : 好的 欧印TQQQ 02/29 11:40
2F:推 leochen124 : 谢谢分享 02/29 11:41
3F:推 poisonB : 何必跟一知半解的认真 02/29 11:44
4F:推 Aska0520 : 感谢分享 ALL IN NVDA 02/29 11:44
5F:推 kid1a2b3c4d : 讲中文啦QQ 02/29 11:44
6F:→ aimlikenoob : 问就是买 02/29 11:45
7F:→ tctv2002 : 嗯嗯 跟我想的一样 02/29 11:48
8F:→ fatb : 阅 02/29 11:49
9F:推 rkilo : 谢分享 02/29 11:51
10F:推 sam90205 : 何必认真看到那篇论文的产地就可以end了. 02/29 11:52
11F:推 kducky : 00757会涨吗0.0 02/29 11:55
12F:推 roseritter : 推. 硬体受限情况下 只能从其他地方突破惹 02/29 11:55
13F:推 ab4daa : 欧印TQQQ 02/29 11:55
14F:推 a069275235 : 楼下帮我看一下这一大篇有没有股点 02/29 11:55
GPU => NVDA
vram => hbm => MU
switch => AVGO
包牌 => QQQ
15F:→ roseritter : 中国的HBM不知道何时商业量产 02/29 11:55
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 11:58:09
16F:推 Altair : 豪!!! 所以要欧印谁? 02/29 11:56
17F:→ kausan : 所以没有比cuda更屌的东西你还是要舔nv 02/29 11:57
有比cuda更屌的东西,
但是掌握在七巨头手上
18F:→ a069275235 : 感恩明牌 五星推! 02/29 11:58
19F:推 abc21086999 : 我记得原Po是在G工作的FTE 02/29 11:59
20F:推 j65p4m3 : 好窝欧印 02/29 11:59
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 12:03:04
21F:推 esproject : 干嘛跟对岸小粉红认真www 整天再吹利害了窝的锅 02/29 12:04
22F:推 leoloveivy : 但如果要tpu 一定是port一个可以的model v-ram加上 02/29 12:06
23F:→ leoloveivy : 去面积大 价钱还是比H100划算吧吗 02/29 12:06
24F:推 lonzoball02 : 绕过去就好了 02/29 12:06
25F:推 iamjojo : 推解释 这我看得懂 02/29 12:11
26F:推 minikai : 问就是TQQQ 02/29 12:12
27F:推 WTF55665566 : 那文就是装逼拐个弯吹支那或成最大赢家而已 02/29 12:14
28F:→ WTF55665566 : 欠打脸 02/29 12:14
29F:推 TheObServer : 请问什麽东西比库打还猛? 02/29 12:15
CUDA 是最底层的软硬体介面,
提供软体(写程式)得到硬体加速的效果,
但是Google 的Tensorflow,
以及Meta/Facebook 的Pytorch,
是建构在CUDA 之上的python API 套件,
现在已经很少人直接写CUDA,
大部分的人都用pytorch or tensorflow,
我个人的经验是pytorch 比较容易,
tensorflow 比较底层比较复杂,
但是相对的tensorflow 提供更强大与更自由的设计功能,
不论是Google or FB,
tensorflow or pytorch,
在公司内部project 都已经可以绕过cuda 直接对硬体沟通加速
30F:→ JKjohnwick : 中国的科技业不是只能代工跟抄袭吗 02/29 12:16
31F:→ AndyMAX : switch ==> Nintendo 02/29 12:17
32F:→ TheObServer : 不会是量子电脑吧 02/29 12:17
33F:推 subi : 现在好像开始谈LPU了 02/29 12:18
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 12:22:48
34F:推 motan : 好,结论就是辉达强暴了 02/29 12:21
35F:推 ymlin0331 : 包牌是TQQQ啦 02/29 12:21
36F:推 fmp1234 : 关键就是要 大 02/29 12:27
37F:推 truelove356 : NV不是要抢AVGO的地盘 02/29 12:29
38F:推 csluling : 本来就是,不然一直在冲v-ram干嘛,一堆北七一直在 02/29 12:30
39F:→ csluling : 讲算力瓶颈 02/29 12:30
40F:推 zoze : AMD能分一杯羹吗 02/29 12:30
41F:→ csluling : 出新卡建新机就是一直在关注v-ram多大才知道能跑多 02/29 12:31
42F:→ csluling : 大模型 02/29 12:31
43F:推 ppuuppu : 赞赞 02/29 12:32
44F:→ csluling : 不过pytorch不算是绕过CUDA吧,顶多说可以对硬体有 02/29 12:33
45F:→ csluling : 指哪算哪效果吧? 02/29 12:33
pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic,
就可以绕过cuda,
但是自家的那套东西不对外贩售
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 12:35:18
46F:推 Ashand : SOXX 02/29 12:35
47F:推 leochen124 : 所以现在新创都在做inference的加速吗 02/29 12:36
是的,
新创 training 玩不起,
除了openai够钱也够名声能够玩training
另外,
inference 尤其是 edge AI 会是下一个战场,
只是我不知道居然来的这麽快,
我原本估计要两三年後才会到来
48F:推 LieTo : 绕过CUDA的意思是也可以不用NV的晶片吗? 02/29 12:36
是的,
但是目前只有七巨头五仙女有能力绕过cuda
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 12:39:17
50F:推 easyman : 这篇论文其实是-1,0,1 , 其实应该很适合整合在 02/29 12:37
51F:→ easyman : flash TLC上面。 或者 三档电压的RAM上面。 如果 02/29 12:37
52F:→ easyman : 放在FPGA上,就是2bit 加法器。 02/29 12:37
53F:→ LimYoHwan : 快一倍走了 韭菜套满手 割肉再进去 02/29 12:37
54F:推 leochen124 : 现在应该是还有那些国家的LLM的sever还没被满足,才 02/29 12:38
55F:→ leochen124 : 能确定有没有overbooking 02/29 12:38
56F:推 cowaksor : 好的信贷加质押tqqq 02/29 12:40
57F:→ Lipraxde : Edge inference 到处都在推,简直杀红眼了XD 02/29 12:46
58F:推 smallcheng : AMD除了价格优势,在技术上有什麽优势跟着NV喝汤吗 02/29 12:46
59F:推 Fww : 推你认真,下面那篇真的不知在干嘛 02/29 12:47
60F:→ TsmcEE : 包牌不应该是tqqq吗 02/29 12:50
61F:推 energyy1104 : 个人认为真正的护城河是NVLink跟NVSwitch 02/29 12:52
62F:推 pponywong : Edge side只可能做inference阿 02/29 12:52
63F:→ energyy1104 : CUDA的重要性恐怕还要排在这两个後面 02/29 12:52
64F:→ pponywong : 另外training的成本也很大 不可能绕过去 02/29 12:53
65F:→ pponywong : 目前openai 是用富爸爸的azure data center 02/29 12:53
66F:→ s90002442 : 结论: 单押g 02/29 12:53
67F:→ pponywong : 你要搞模型 你还是要花钱买NPU(TPU)或是GPU 02/29 12:54
68F:推 william85 : 推 02/29 12:55
69F:推 Gipmydanger : 推 02/29 12:55
70F:推 pponywong : 除了谷歌的TPU 目前只有微软说要自己做 下单给牙膏 02/29 12:56
71F:→ pponywong : 其他都还是用NV CUDA 像是META跟TSLA 就买几十万片 02/29 12:57
72F:推 sdbb : 拜托别删,谢谢 02/29 12:57
73F:→ LDPC : 狗家忘了下车 呜呜呜呜 99狗家 QQ 02/29 12:58
74F:→ pponywong : 另外就原Po讲的 AI model会越来越大 你图形辨识跟 02/29 13:02
75F:→ pponywong : GPT到现在Sora的模型 不是同一个量级的增长 02/29 13:03
76F:→ pponywong : 你要进入到下一个阶段的AI 你就只能继续扩大算力 02/29 13:03
77F:→ pponywong : 可能Sora需要30万张H100 下一个AI就需要100万张 02/29 13:04
78F:→ pponywong : 然後这些training是没办法绕过的 你要进场玩 你就只 02/29 13:04
79F:→ pponywong : 能花钱 02/29 13:05
80F:→ clamperni : 基本面吃起来 02/29 13:05
81F:→ yiefaung : TPU也有TPU pod好吗… 02/29 13:06
82F:推 leochen124 : 请问inference就不用把整个大模型放到vram吗 02/29 13:07
83F:→ LDPC : 楼上 用切的QQ 参照Model parallelism 02/29 13:14
84F:→ LDPC : 所以gpu之间通讯速度很重要 这是老黄的大招 02/29 13:14
85F:→ LDPC : 4090有等效A100算力 但4090多卡之间通讯太慢 02/29 13:15
86F:推 ohmypig : 请问原po 对Alphawave IP 这家的看法? 传输速度会 02/29 13:15
87F:→ ohmypig : 是下一个gating 吗? 02/29 13:15
88F:推 leochen124 : 谢谢L大解说 02/29 13:16
90F:推 Samurai : 我废物只想知道要欧印哪只 02/29 13:21
91F:推 ProTrader : 原po说的内容外行人可能真的搞不董"大型" 02/29 13:22
92F:推 tchen4 : 看不懂 先给推 02/29 13:22
93F:推 csluling : 原po跟L大都好心人 02/29 13:23
94F:→ ProTrader : 用生活中的东西来说 台铁高铁都是大型 02/29 13:23
95F:→ ProTrader : 但是台铁高铁的速度差异很明显 02/29 13:23
96F:推 zhi5566 : Waitrop发一篇文 我就买一些TQQQ 02/29 13:24
97F:→ ProTrader : 如果你家有超跑 跑的比高铁快 那还是迷你型没用 02/29 13:24
98F:推 clisan : 谢谢说明 02/29 13:24
99F:推 usb4 : TPU好像可以串连了? google上次说training用自家TPU 02/29 13:25
100F:推 xm3u4vmp6 : 超低延迟 网卡直连暂存器 这样才能扩展 02/29 13:25
101F:→ ProTrader : 我记得在10多年前流行大数据的时候开始有"大型" 02/29 13:26
102F:→ ProTrader : 现在的大型需求真正变的火热 02/29 13:27
103F:推 dongdong0405: NVDA真的是安心买,未来它的saas 会越赚越多 02/29 13:28
104F:推 ctes940008 : 欧印 02/29 13:29
105F:→ Alwen : 看到sora横空出世,我只觉得老黄infiniband赢麻惹 02/29 13:31
106F:推 pponywong : GPU之间的沟通速度 就是AVGO(博通)的强项了 02/29 13:31
107F:→ Alwen : 以後都是要求串连数十万颗起跳 02/29 13:32
108F:推 stlinman : v-ram就是关键啦! 串连效益/成本就NV最高,其他怎麽 02/29 13:32
109F:→ stlinman : 怎麽打? 02/29 13:32
110F:→ pponywong : 所以AI5才有AVGO 他是专门做传输ASIC的 02/29 13:32
111F:→ stlinman : 老黄说买越多省越多不是在骗人的! 02/29 13:32
112F:推 ProTrader : 原po说的两点也是教主说的老黄包围网的成败因素 02/29 13:33
113F:→ ProTrader : 只要这两点不突破包围网就徒劳无功老黄继续统霸天下 02/29 13:33
114F:→ horb : 感谢分享 02/29 13:37
115F:→ LDPC : 所以苏妈才要跟AVGO联手啊苏妈就是需要个"amd link" 02/29 13:39
116F:推 pponywong : 真的怕就买台积就好 我是觉得NVDA的护城河非常深 02/29 13:39
117F:→ LDPC : 苏妈+何国源资产+VictorPeng+陈福阳 打老黄 02/29 13:40
118F:→ LDPC : 旁边吃瓜看戏 QQ顺便可以看彼此策略攻防战 02/29 13:41
119F:推 pponywong : AVGO的Tomahawk5 应该是市面上唯一800G 的switch ic 02/29 13:41
120F:→ Alwen : 黄董手都伸到saas惹,进度真的很快 02/29 13:44
121F:推 ejnfu : NVDA AMD QQQ全买就好 02/29 13:44
122F:推 stlinman : 老黄把供应链都绑桩顾好了! 其他家想追上先不考虑 02/29 13:47
123F:→ stlinman : 技术成本能不能追上,光是产能卡不卡的到都是问题! 02/29 13:48
124F:推 leoying : 推一个 解释的很清楚 02/29 13:49
125F:推 leoying : 不太懂为什麽AMD要找avgo合作,它自己不是有Xilinx. 02/29 13:53
126F:推 s987692 : PyTorch+rocm就饶过cuda了 02/29 13:55
127F:→ donkilu : 你要每个厂商各自做自己的TPU driver compiler SDK 02/29 13:55
128F:→ donkilu : 还只能自家内部用用 这样搞到最後有比较省嘛... 02/29 13:56
129F:→ joygo : 现在问题就是真的能让ai 突破的是学者吧,不是工程 02/29 13:57
130F:→ joygo : 师,好用,用习惯才是重点 02/29 13:57
131F:→ donkilu : 如果是成熟准备上线的产品还好说 现在军备竞赛阶段 02/29 13:57
132F:→ donkilu : 如果自家晶片研发不顺 把软体研发拖垮岂不是更惨 02/29 13:57
133F:→ donkilu : 大厂多少还是要买双保险 02/29 13:58
我待过四五间中美科技巨头,
这些AI伺服器我在十年前就在研发,
中美台面上的AI伺服器很多我都有参与研发过,
当年跟这几家公司的高层开会的时候,
就有讨论过这个问题,
答案是NVDA 卖太贵了,
自研不只是为了2nd solution,
也是因为自研再怎麽花钱都比买NVDA 便宜,
然後你又抢不到足够的NVDA GPU,
所以能够自研能够用asic tpu 等方式的就尽量用,
不能用的应用再买NVDA GPU,
对於search, youtube, 天猫掏宝, amazon search, facebook image/vedio等等,
需求量够大,
自研绝对省很多
134F:推 jagger : 推 02/29 14:01
135F:推 zhi5566 : AVGO到底还可不可以买啊 02/29 14:06
137F:→ LDPC : 我有买AVGO 02/29 14:06
138F:推 zhi5566 : AVGO除了技术强 CEO更强 有其他风险吗 02/29 14:07
139F:→ zhi5566 : 是不是无脑AI5 就可以 02/29 14:09
140F:推 leoying : 我还真的只有买AI5, 连QQQ都不想买 02/29 14:13
141F:推 rebel : TQQQ王 以後可以不要随便砍你自己的文章吗 文章是 02/29 14:13
142F:→ rebel : 你的 但下面很多推文很有参考价值 我印像中我的推 02/29 14:13
143F:→ rebel : 文就砍了至少三次 实际上应该是更多 尊重一下推文 02/29 14:13
对不起!
因为我常常会不小心讲话得罪人,
所以看到有人对我的发言很有意见感觉又得罪人了,
就乾脆删掉免得惹麻烦,
我下次不会再删文了,
抱歉!
144F:推 AoA1 : 好文 02/29 14:14
145F:推 kducky : 有时候是编辑文章同时推文被吃掉吧? 02/29 14:14
146F:推 zhi5566 : 50% qqq/tqqq+ 50% AI5 洗头+局部加强? 02/29 14:15
147F:推 kis28519 : 推 02/29 14:17
148F:推 rebel : 不是 他是整个文章砍掉 02/29 14:19
149F:推 goldmouse : 看完了 所以要买那只 02/29 14:21
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 14:41:24
150F:推 wst24365888 : 推 02/29 14:37
151F:推 LDPC : 有时真的得砍文 我也常砍 因为有时讲太多业界的 02/29 14:40
152F:→ LDPC : 会让自己也有点麻烦 像果家就在这方面抓很严格QQ 02/29 14:41
153F:→ roseritter : 所以我都手动备分XD 02/29 14:42
154F:→ roseritter : 关键有时在推文 点一下 就会有更多想法 02/29 14:42
155F:→ LDPC : TQQQ王是好人QQ 我周遭同事没人上批踢踢讲业内事情 02/29 14:42
156F:推 truelove356 : AVGO涨最少 02/29 14:45
157F:推 ru04hj4 : 看完只看到包牌 QQQ 02/29 14:45
158F:推 meaa3 : 弱弱地问七巨头五仙女是指??? 02/29 14:49
159F:推 ProTrader : 我还以为你是手动砍文是为了低调 因为说太多 02/29 14:50
160F:→ moonshade : tpu也可以设计成可以解hierarchical问题的 02/29 14:56
161F:推 strlen : 是担心欧美cancel culture吗?唉 02/29 15:03
162F:推 johnlin35 : 推 02/29 15:08
163F:推 thomaspig : 推 02/29 15:11
164F:推 rebel : 好啦 我也说了文章毕竟是你发的 你还是有砍文的权 02/29 15:12
165F:→ rebel : 力 只是很多推文很有帮助 不希望回来要找找不到 折 02/29 15:12
166F:→ rebel : 衷也许你就编辑 把你的部份不适合的砍掉就好 供参 02/29 15:12
167F:推 stosto : CPU怎麽会在你比较清单上 02/29 15:16
因为前面推文有提到用CPU就可以,
我拿CPU来比较只是想说根本不可能用CPU算AI,
→ oopFoo : GPU做inference。普通CPU就可用了,这是关键。 02/29 09:44
168F:→ stosto : Tpu 的问题就是硬体已经作死了,应用面变成局限在 02/29 15:19
169F:→ stosto : 某些问题上,超出这些问题就不能用了 02/29 15:19
170F:推 ca1123 : 推TQQQ王 02/29 15:22
171F:推 vlstone : 推分享 谢谢 02/29 15:23
172F:推 marke18 : 推~~ 02/29 15:30
174F:→ richaad : 看看cuda 这个量级,後者要追上至少5年以上 02/29 15:34
我不知道为何AMD 要推ROCm,
OpenCL 是 open source,
已经累积很多的成果以及CUDA 转译,
不懂为何不继续OpenCL
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 15:36:24
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 15:39:56
175F:推 ProTrader : 可能是AMD为了自研市场布局吗? 因为便宜就有市场 02/29 15:48
176F:→ ProTrader : 然後苏妈想要把自研整个吃下来? 02/29 15:48
177F:推 metallolly : 有文科翻译机可以翻译一下吗 02/29 15:52
178F:推 smallmac : 大家有注意到Meta找陈阳福去当Board Member吗?一两 02/29 15:54
179F:→ smallmac : 周前的新闻 02/29 15:54
180F:推 smallmac : Sorry 是陈福阳 02/29 15:56
教主说的NVDA 包围网里头最积极的应该是Meta 组博客,
也可以理解,
他毕竟是脸书创办人,
是真的对脸书有感情的,
第二积极的是微软与AMD苏大妈,
至於其他的七巨头专业经理人CEO 都自身难保或是志不在干大事,
尤其某公司的CEO,
敌人就在本能寺 (公司总部), 不在NVDA
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 16:01:42
181F:推 roseritter : 你就是在酸狗家XD 02/29 16:24
182F:嘘 a000000000 : 他那葛paper也有讲vram需求会变小很多 模型越大差 02/29 16:30
183F:→ a000000000 : 越多 好像号称70b的可以差到40倍 02/29 16:30
184F:推 roseritter : 问个不专业问题 V-RAM大小跟成本正相关可以理解 02/29 16:31
185F:→ roseritter : 那设计之初 就把记忆体放大某个安全系数 相较於总 02/29 16:32
186F:嘘 a000000000 : 他那东西关键来来去去还是training没讲有省 02/29 16:32
187F:→ a000000000 : 现状4能train大model的地方没几葛 尼要大家都用尼 02/29 16:33
188F:→ a000000000 : 那套 那也要资源够多当side project 02/29 16:33
189F:→ roseritter : 成本 V-RAM还是比较便宜的吧 我看苏嬷的同级产品 02/29 16:33
190F:→ roseritter : v-ram都刻意比N社大 02/29 16:34
我个人看法,
vram 放越大成本越高,
苏妈同等级vram 都比N大我也有发现,
所以苏妈的毛利比老黄低呀!
以老黄角度,
vram 少一点可以省一些成本, 毛利拉高,
而且可以变相让买家多买一些gpu,
反正目前市场是有在卖AI 晶片的就他一家,
其他的都不成威胁
而且没有记忆体安全系数这种东西,
因为模型大到一颗GPU一定装不下
191F:→ a000000000 : 省bit的东西印象中ai刚流行就一堆人搞惹 起码10+年 02/29 16:34
192F:→ a000000000 : 有些东西变成标准 tf32 tf16 bf16那些的 02/29 16:34
193F:→ a000000000 : 标准要那些大公司才推得动 02/29 16:35
194F:→ a000000000 : 如果只是想凑葛asic概念 去赌的小公司一堆死惹 02/29 16:35
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 16:43:53
195F:嘘 a000000000 : 尼对vram的理解就错惹 02/29 16:47
196F:→ a000000000 : 单卡vram够大 单卡可以跑的模型就大 02/29 16:48
"单卡vram够大 单卡可以跑的模型就大", 没错,
但是在LLM面前,
vram 再怎麽大单卡都塞不下, 数量级完全不同
197F:→ a000000000 : 像tpu v5那种单颗16G然後拉一堆光纤对连的方案就很 02/29 16:48
※ 编辑: waitrop (76.103.225.6 美国), 02/29/2024 16:50:03
198F:→ a000000000 : 惨 因为那种link的pJ/bit大概是cowos的几十倍 02/29 16:49
199F:→ a000000000 : 简单讲人家单卡塞的下的状态功耗优势明显 02/29 16:49
200F:推 FMANT : 所以要不要继续捏NVDA???? 02/29 16:51
201F:→ FMANT : 就这个问题 02/29 16:51
202F:→ a000000000 : 苏妈的192够塞那种70b惹 而且70B也很多够用惹 02/29 16:53
203F:→ a000000000 : 我觉得那种Tb级的下代model跑起来成本也不低 02/29 16:54
204F:→ a000000000 : 市场可能会先慢慢消化gpt4等级的应用 02/29 16:55
205F:推 fancydick501: hbm是mu喔 还以为是韩国那两家 02/29 17:48
206F:推 xoy232 : 这篇给推 NV要爆喷了 02/29 17:52
207F:推 KrisNYC : 爆一爆吧 基础逻辑大家都应该有 目前cuda硬解不可避 02/29 18:09
208F:→ KrisNYC : 有能力搞底层绕过cuda相关运算法则的都是巨头 02/29 18:09
209F:推 lavign : colab选TPU跑深度学习超级慢 02/29 18:28
210F:→ ookimoo : 相对很快,很强,但是没用,下去吧电子垃圾 02/29 18:34
211F:推 richaad : 最近Google AI别闹了,生成图片一直出大包,美国国 02/29 18:39
212F:→ richaad : 父变黑人 02/29 18:39
213F:推 oneIneed : 不明觉厉 02/29 18:42
214F:→ fallen01 : 遥望Cuda当年念书就有了 寒窗十年 02/29 18:55
215F:推 dodobaho : 正解 02/29 19:09
216F:推 pk655tw : 谢谢TQQQ王愿意分享 02/29 19:33
217F:推 ymlin0331 : all in NVDA很怕被机构恶搞 02/29 20:02
218F:→ ymlin0331 : all in TQQQ比较稳定啦 02/29 20:02
219F:推 stosto : HBM hynix一直都有,跟nv合作很久了 02/29 20:47
220F:→ stosto : m家是去年杀出来的 02/29 20:47
221F:→ stosto : 最近也有新闻说m家先整合进H200了 02/29 20:48
222F:→ stosto : 三星目前我所知是完全没有 02/29 20:48
223F:推 colinshih : TPU 在做矩阵convolution, 核心的运算透过systolic 02/29 21:22
224F:→ colinshih : array 执行。它基本就是将资料的时序关系投影到特 02/29 21:22
225F:→ colinshih : 定运算平面最大化运算效率。大矩阵分割在影像处理是 02/29 21:22
226F:→ colinshih : 基本问题。即便超大activation 也可以透过多个TPU 02/29 21:22
227F:→ colinshih : 协同处理。运算只在乎资料彼此关系, systolic arra 02/29 21:22
228F:→ colinshih : y 只是这些运算的不同种抽象形态表示 对应的都是同 02/29 21:22
229F:→ colinshih : 样的matrix convolution. 差别最多在於资料流处理 02/29 21:22
230F:→ colinshih : 的差异。这种硬体架构对於逻辑设计算是基本的 只是 02/29 21:22
231F:→ colinshih : 教科书里面的例子 02/29 21:22
232F:推 ProTrader : 楼上的说法是 TPU如何用演算法克服"大型" 02/29 21:50
233F:→ ProTrader : 对TPU设计厂商来说只是基本工? 02/29 21:51
234F:→ ProTrader : 类似在学校学生超大数乘法的演算法作业? 02/29 21:52
235F:→ Lipraxde : 切图、串连再厉害,ram 不够大就是亏啦,像武器一 02/29 22:06
236F:→ Lipraxde : 样,一寸长一寸强 02/29 22:06
237F:推 ProTrader : 所以苏妈喜欢的是那种很大很大可以一次放进去 02/29 22:33
238F:→ ProTrader : 所有资料的vram 02/29 22:34
239F:推 pponywong : 重点还是你vram硬体设计再大 也不可能塞得下一个 02/29 22:47
240F:→ pponywong : model 所以意义在哪里 02/29 22:47
241F:推 ProTrader : 应该是以後会有 "大型" "小型" 两种市场需求吧 02/29 23:02
242F:推 silentneko : 推 虽然很多看不懂@@ 03/01 00:34
243F:推 aegis43210 : LPU的成本太高了啦,塞一堆sram,哪来那麽高的良率 03/01 01:13
244F:→ aegis43210 : 及封装量能来玩这个,成本效益还是输ASIC 03/01 01:13
245F:→ aegis43210 : 西台湾就是有算力瓶颈才开始玩模型剪枝,等到未来各 03/01 01:18
246F:→ aegis43210 : 行各业都需要AI推论时就会很有用,不过西台湾也只能 03/01 01:18
247F:→ aegis43210 : 这样玩,L20的推论只是堪用,所以配合中芯晶片的无 03/01 01:18
248F:→ aegis43210 : 奈之举 03/01 01:18
249F:推 colinshih : Protrader: 20-30年前很多应用的论文在不同领域,和 03/01 01:45
250F:→ colinshih : TPU 的问题基础类似。 03/01 01:45
251F:推 yumumu : 赞 03/01 06:58
252F:嘘 astroboy0 : ㄏㄏ怎麽没有人提挖矿潮要回来,老黄又要赚两边 03/01 07:15
253F:→ astroboy0 : 怎麽看都是老黄继续辗压,市值能多高?或是搞拆股 03/01 07:16
254F:推 Prado4840 : 技术上是一回事、但不代表有订单、不代表LLM是强需 03/01 16:44
255F:→ Prado4840 : 求。好吧我是借机希望有人可以回答我的疑惑 03/01 16:44
256F:→ Lipraxde : LLM 比专家系统的助理好多了,不过要变成强需求的 03/02 11:22
257F:→ Lipraxde : 话可能要先解决准确度的问题,不然 LLM 就像在作梦 03/02 11:22