作者waitrop (嘴炮无双)
看板Stock
标题Re: [请益] 为何记忆体可以随便调涨毛利率那麽高
时间Fri Jun 26 15:14:44 2026
先说我个人看法: CXL DRAM, 不是HBM,
股票的话 就是MRVL,
但是我没有买MRVL, 不要找我负责
※ 引述《maplefff (降息の恐怖嘎鳄)》之铭言:
: ※ 引述《Pixma258 (乡民们!别争了!!)》之铭言:
: : 乳题,为何记忆体可以疯涨价成这样
: : 川狗一句话都不敢出来叫
: : 但晶圆不行,涨价要涨的小心奕奕
: : 川狗不时出来叫
: : 如要论记忆体和晶圆,晶圆制造技术门槛更高
: : 而且对AI基建晶圆重要性也绝对不会输记忆体
: : 有没有记忆体可以随便喊涨那麽高的毛利率
: : 晶圆不行
: : 股价更是晶圆疯涨成这样,晶圆却被倒货
: : 实在看不懂,想请教一下大家
: 「HBM容量每GPU大概每年增长40%以上
以电脑架构来看,
HBM 不会一直这样快速增长上去,
HBM的速度非常快, 价格/成本极贵,
就像是快取一样的地位,
不应该一整块全部都是HBM,
传统电脑架构的设计是每一层的存取大小比例是10-1000倍的差距,
比方说16kb register,
16mb cache,
16gb ram,
16tb ssd/hdd,
当然,
每一层的速度也是差了1000倍以上
所以HBM 跟传统DRAM的比例应该是10-1000倍的大小比例,
但是这几年的AI竞争被某一两家不用公布财报的公司给搞烂,
因为不用公布财报,
钱也都是借来或是投资人给的,
所以他们是用最暴力最奢侈的方式在搞AI竞争,
从前的多层次存取架构,
被搞成暴力法的100% HBM,
他们不需要在乎成本价格,
只要他的速度比你快一倍,
你在AI 竞争上面就完全出局
过去几年就是在这样的变态竞争下,
把Nvidia GPU 跟 HBM吵到非常不合理的程度,
有人不想跟着这样玩,
就会被华尔街跟主流媒体骂说没有AI竞争力,
不信,
你去看看2015-2025这十年,
某公司的自研AI晶片每年都被华尔街教训要求关掉部门改用NVDA GPU,
这部分就不多说了
回到主题,
但是这种"Game of Chicken" = 「胆小鬼博弈」,
总有玩不下去, 有人退场的时候,
首先是GPU,
开始有人受不了辉达税 Nvidia tax,
开始有人自己研发AI 晶片,
接下来就是 HBM 税,
同样的道理,
之前不论是AI模型公司或是CSP,
扣完辉达税都是赔钱在给客户使用,
现在 HBM 涨价涨成这样,
扣完HBM的成本,
CSP也几乎是赔钱在给客户使用,
当然信仰够的苹果跟辉达可以加价卖,
但是大部分的公司是没有信仰可以加价卖的
这时候只能走回传统的电脑架构设计,
HBM 跟 DRAM 比例要回到 1:1000 以上的比例,
牺牲一些记忆体效能
至於有没有TSM 台积电税,
有的,
已经十几年了,
但是台积电收费比较合理,
唯一的缺点是你必须排队几年,
所以大家也就都给台积电代工,
说要给别家公司代工都只是说说而已,
因为价格跟成本没有比较省, 反而更贵
: 这条需求曲线的陡峭程度,是DRAM供给端 14% 的晶圆产能增长,
: 乘以 9% 的密度提升,很难追上的
: 在硬体领域,因为解码阶段KV快取的极高频宽
: 和极高记忆体容量的要求,也导致了HBM独特的地位。即便是HBM涨价三五倍,
: 把钱花在HBM上带来的边际token产出提升,仍然比花在其他地方要划算的多。
: 其他几个记忆体路线,SRAM,HBF,CXL,PIM,
: 目前都无法在HBM的主力赛道KV快取/解码阶段上正面竞争,
: 起码未来5年甚至更长时间,不太可能找到替代路线」
: https://x.com/fi56622380/status/2070029693810847988?s=20
: ////////////
: 只要LLM还是当前自回归生成(AR, Autoregressive Generation)工程范式,
: 每生成1个token都需要搬运KV快取计算上文每一个token和下文的注意力(Attention)
: 那记忆体问题就是供给侧无解的问题, 因为LLM对记忆体频宽扩展的需求会是
: token生成长度二次方增长.
: 将token生成长度1M token -> 10M token, 记忆体频宽需要扩展100倍
: 这远远高於现实世界工厂建设和制程优化的速度.
: 要解决该问题, 唯一的方法是从算法根本上去解决.
: 我很久之前就认为文本Diffusion模型很可能是下一代新工程范式
: 从流形假设的观点看Diffusion的生成更稳定, 从工程实践去看其生成更有效率
: 文本Diffusion模型可以一次性读取KV快取就透过GPU迭代生成大量token
: 目前工程实践可以做到一次生成256 token以上, 这表示KV快取搬运减少256倍
: 而未来显然会更长. 这会把当前的记忆体受限问题重新拉回到GPU, 算力受限问题上
: 关键的转折点会落在什麽时候上下文长度已经长到这个效益无法忽视
: 文本Diffusion模型, 随着前阵子Google释出开源DiffusionGemma, 使用起来差距
: 跟同参数量的AR模型已经在1~2个世代之内. 这表示文本Diffusion已经夸过研究阶段
: 正式进入工程实践和大规模部署可能.
LLM inference 目前真正的的solution 是:
CXL + in/near memory compute + Compression
已经在做了,
已经有晶片出货了,
有几家CSP厂正在部署,
市场只有一家晶片厂有这个solution,
短时间五到十年内也只有这家晶片厂有能力做,
因为CXL是他家定义的,
memory controller storage read channel 业界第一,
完全没对手十几年的那种,
那麽你会怀疑 为何这麽厉害之前公司会那麽鸟,
请配合美光的另一篇新闻服用,
2023年之前的记忆体市场惨到几乎全部记忆体厂都快倒了,
这家业界唯一的memory controller storage channel 当然也是快倒
下面有空再说
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.103.225.6 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1782458086.A.529.html
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 15:17:57
1F:推 as3366700 : 看到关键字空了 下面可以开咬哩 06/26 15:17
2F:嘘 ok020402 : 所以看多还看空 直接说啦 06/26 15:18
记忆卡哇还能看多半年一年以上,
其中,
DRAM 卡哇会比HBM 卡哇涨更多涨更快,
因为补涨, 也因为量会比HBM 多很多
3F:→ onit : 这不就上次老黄演讲的观点 06/26 15:19
4F:推 flycarb : 确实,老黄也不是空穴来风的 06/26 15:19
5F:推 devilsabre : 推 06/26 15:19
6F:推 hen5566 : 重点, 空! 06/26 15:20
7F:推 fhjqwefs : 2楼在拽啥 人家看多看空为啥一定要跟你讲 笑死人 06/26 15:20
8F:推 ms0443001 : 台积电相对股价也没这麽爆冲 这也是原因 06/26 15:20
9F:→ ms0443001 : 代工费都是逐步调涨 不会像记忆卡吃相难看 06/26 15:20
10F:推 ok020402 : 对不起我太凶 补推 06/26 15:20
11F:→ edison106 : CXL最强者是ALAB吧 06/26 15:21
12F:推 herculus6502: 万法皆空 06/26 15:21
13F:推 devilsabre : 凡事太尽 缘份势必早尽 06/26 15:23
14F:→ devilsabre : 缺货就狂涨价 做不久的 06/26 15:23
15F:→ edison106 : 以前记忆体厂也是被搞很惨 这波谨慎扩厂也是刚好而 06/26 15:24
16F:→ edison106 : 已吧 06/26 15:24
17F:→ HiuAnOP : 推这篇 长期给60%毛利 EPS都会崩给你看 06/26 15:25
18F:→ HiuAnOP : 86%毛利是什麽概念自己算看看… 06/26 15:26
因为有市场破坏者,
两个一买一卖配合喊价,
你知道我说的是哪家公司,
你恨的牙痒痒的, 但是没办法,
重点是华尔街跟新闻媒体喜欢这样造神恶搞
19F:→ luche : 有跟小叮当拿毛利率调整器 输入适合的毛利率 机台 06/26 15:26
20F:→ luche : 能告诉你对应的产品价格 06/26 15:26
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 15:31:13
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 15:35:01
22F:推 wed1979 : AI就跟互联网一样会爆破,但你不知道在什麽时候,记 06/26 15:35
23F:→ wed1979 : 忆体就跟当时的网路频宽一样,很缺但非必要 06/26 15:35
24F:→ Heedictator : 善良的鸡 最後会得到福报 06/26 15:36
25F:→ edison106 : 记忆体非必要吗?记忆体频宽太低的话你的agent速度 06/26 15:37
26F:→ edison106 : 变慢 甚至聊天几分钟才吐出字来 你等得了吗?你觉 06/26 15:37
27F:→ edison106 : 得非必要? 06/26 15:37
28F:→ edison106 : 以後进展到机器人自驾车什麽的,记忆体频宽不够你 06/26 15:39
29F:→ edison106 : 反应速度变慢早就出事了这样记忆体还非必要吗? 06/26 15:39
30F:推 darkangel119: MRVL 的 team 几乎被分拆整合到其他BU了吧 06/26 15:40
31F:→ lokoo : 之前记忆体厂倒的时候也没人同情 06/26 15:41
32F:推 ben121196 : 囚徒困境是这样的 巨头说好一起不capex那记忆体价格 06/26 15:41
33F:→ ben121196 : 自然会降 但是只要大家都怕有人砸钱砸出东西来屌打 06/26 15:41
34F:→ ben121196 : 自己 不得不capex 那就是半导体继续喷 06/26 15:41
这个囚徒困境就是有人刻意砸钱砸出来的呀!
过去这几年,
就是有人在扮演价格破坏者,
还一直拿效能速度来压迫所有其他的竞争者,
才搞到现在这个情况, 不是吗
35F:推 Samurai : 还在说记忆体非必要的真的有在用AI吗 06/26 15:42
记忆体是必要的,
但是记忆体频宽不是那麽必要,
用当年网路频宽来比喻很好呀!
有没有网路, 有没有记忆体, 就是能不能的问题,
但是频宽不是能不能的问题,
是快跟慢的问题,
这又跟耐心还有使用方式有关,
我从二十几年前在学校用很小的频宽开始,
就是用挂机的方式在处理事情,
同样的,
我的AI API 也是用挂机的方式,
所以快跟慢 对我影响不大,
但是有些人就很在乎速度,
所以这跟人有关
当然,
还有跟信仰有关,
有信仰的可以慢慢等,
没信仰的都是拿放大镜在算AI反应速度
36F:推 yeay : open酱乱搞,害得谷歌倒楣,然後大家现在不想被记忆 06/26 15:46
37F:→ yeay : 体绑架,也压宝MRVL/ALAB。这样理解对吗? 06/26 15:46
38F:→ yeay : 不过这波AI的FOMO风潮还真的是从Chatgpt带起来。 06/26 15:46
这是你说的, 不是我说的
39F:推 cannedtuna : 还不能陪玩家即时玩游戏 那就还早 06/26 15:46
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 15:57:41
40F:推 Zending : 这篇资讯量很多很肥美,成也韩,败也韩,终有发展 06/26 15:56
41F:推 peterliam : a 06/26 15:56
42F:推 wsxza : 终端消费产品贵松松 06/26 15:58
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 16:01:07
补上原本想说的部分,
不能免俗,
先上AI 示意图,
Flux:
https://imgur.com/ZlLaLzW
https://imgur.com/zMgxAD4
Zimage:
https://imgur.com/ucteLUG
https://imgur.com/io0jBaR
买了gb10/gx10 当本地炼丹炉,
我用本地端AI 生成 开箱 AI 示意图,
统一记忆体是128GB,
速度还可以, 跟CSP的AI API差不多,
反正都在可接受的范围
所以回到LLM inference,
真的真的不需要HBM,
其实 CXL + DRAM + Compression 绝对够用,
效能绝对比你想像得好,
真正的效能瓶颈不会在HBM,
就算差个几秒, 真的是还好
我用现在LLM API/Token的设计图来解释,
我请Gemini 画一张设计图:
https://imgur.com/GmBmGwH
你可以想成CSP 伺服器端就是一大堆类似 gb10 这种机器,
每个客户端的 API request 会发送到其中一台server处理,
所以如果gb10 速度够,
那麽没有HBM, 单纯用DRAM+CXL, 绝对就够用,
inference 跟 training 有很大很大的不同点,
training 是一个大模型大记忆体跑训练几个月甚至是一年两年,
但是inference 就是一个小server for 一个client request,
一秒钟到一分钟就结束了,
HBM真的没差那麽多
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 16:19:12
43F:推 marke18 : QQ 06/26 16:05
44F:推 ALENDA : 推 06/26 16:12
45F:推 afacebook : 频宽还是需要的,如果频宽不够,资料传不够快,gpu 06/26 16:13
46F:→ afacebook : 大量时间都在发呆 06/26 16:13
47F:推 lightaurora : 感谢分享 06/26 16:14
48F:推 afacebook : 频宽不够也不是只是慢的问题,有可能主机版整个设 06/26 16:16
49F:→ afacebook : 计都会出问题 06/26 16:16
50F:→ ert0700 : 其实就只是目前所谓的ai还太废而已… 06/26 16:17
51F:推 w60904max : 现在也有应用场景是睡前挂着 给agent跑一整晚 反正 06/26 16:23
52F:→ w60904max : 早上产出是对的就好 06/26 16:23
53F:推 DONmilK : Inference 都可以接受非HBM的速度了,那training 06/26 16:24
54F:→ DONmilK : 是不是更适合用CXL方案来降低成本呢 06/26 16:24
目前training 没有任何一间模型厂跟CSP敢用CXL方案,
因为training 一跑就是几个月到一年,
频宽速度的问题会被放大,
inference 每个request 一秒到一分钟,
频宽速度的问题被无限缩小
当然,
另一个原因是inference 可以省成本,
客户可以接受也感觉不出差别,
便宜治百病
但是training 你比对手晚发布,
效能报告差一些,
股价会崩盘,
甚至华尔街秃鹰都在等着要放空割肉
55F:推 ck326 : 听说某家考虑推迟 ipo 继续盖牌,是不是有什麽猫腻 06/26 16:27
56F:→ ck326 : ?嘻嘻 06/26 16:27
57F:推 ssarc : 至少现在这一波台积电没有涨价太多,反而一直建厂 06/26 16:30
58F:→ ssarc : 满足需求 06/26 16:30
※ 编辑: waitrop (76.103.225.6 美国), 06/26/2026 16:36:22
59F:→ AndyMAX : 台积也是差一点要被对岸跟三星搞死啊 台积有报复性 06/26 16:37
60F:→ AndyMAX : 涨价吗 没有啊 06/26 16:37
61F:推 A22813079 : xconn 06/26 16:37
62F:推 macrohard : 99MVLL, 成本80,没买几周,现在只剩48 QQ 06/26 16:46
63F:推 strlen : 说一句 你业内有专业 确实 但你的意识型态太重 会 06/26 17:13
64F:→ strlen : 影响投资绩效der 商场上讲什麽道德?唉 算了 06/26 17:13
65F:→ strlen : 看到自己想想 觉得我放屁也没差 我没有意识形态没有 06/26 17:13
66F:→ strlen : 节操不站队 但我觉得这样投资比较不会有怨气啦 哈 06/26 17:14
67F:→ strlen : 美国混几十年了 谁当家谁大声谁收智商税 趁火打劫 06/26 17:15
68F:→ strlen : 这不是天经地义 06/26 17:15
69F:推 jyhfang : 感谢分享 华尔街一向花招多 放新闻 借力使力 06/26 17:21
70F:推 ProTrader : 以前google好像也有用一堆便宜电脑应付大量网路请求 06/26 17:27
71F:→ ProTrader : 有意识型态很正常啊 就像房板常讨论的美债 06/26 17:28
72F:→ ProTrader : 美债跟美股报酬差异显着 但买美债的不单纯看报酬 06/26 17:29
73F:推 herculus6502: 有图再推一次 06/26 17:44
74F:→ strlen : 我知道奥懒较就是葛垃圾只会吹牛逼 但人家就风头上 06/26 17:47
75F:→ strlen : 视时务者为俊杰啊 真这麽糟 怎麽transformer作者从 06/26 17:48
76F:→ strlen : 狗家跳去欧喷酱?人家好歹也大神 06/26 17:48
77F:→ strlen : 猪在风口上也会飞 虽然牠是一只肮脏的猪 一起飞一段 06/26 17:49
78F:→ strlen : 等他要坠落赶快跳船啊不然勒 06/26 17:49
79F:推 zxm40059 : 推 06/26 17:51
80F:→ strlen : 当然我小咖埃米级散户没资格多嘴啦 纯抬杠罗 06/26 17:51
81F:推 maplefff : 先说一下生图是扩散模型, 本来就是算力受限型 06/26 19:26
82F:→ maplefff : 用这个当案例来说明CXL可替代HBM不是好选择 06/26 19:27
83F:→ maplefff : 然後就是CSP的经济模型是按照卖出多少token计费 06/26 19:27
84F:→ maplefff : 如果用CXL导致LLM生成速度只有1/10 06/26 19:29
85F:→ maplefff : 那CSP的现金流根本就回不了本 06/26 19:29
86F:→ maplefff : 我认同CXL在某些应用有价值. 但替代HBM真的没办法 06/26 19:29
87F:推 kerry0496x : 推 06/26 20:15
88F:推 rahim03 : 我不是专业的 但我问了三家AI 同时都讲你不能用本地 06/27 03:05
89F:→ rahim03 : 端单人实验去推论云端同时要吞吐千万个要求是一样情 06/27 03:05
90F:→ rahim03 : 形 频宽是必要的 06/27 03:05
91F:→ rahim03 : 不然GPU会一直发呆 对商业来讲延迟是不能容忍的 06/27 03:06
92F:推 rahim03 : 然後三家AI也同时讲CXL现在是开放标准 不是谁家定义 06/27 03:09
93F:→ rahim03 : 的 讲有人可以垄断十年太武断 06/27 03:09
94F:→ OxFFFFFFFF : cxl上的记忆体延迟还是太高好吗你要推论慢慢推可以 06/27 11:05
95F:→ OxFFFFFFFF : 但要速度快还是近端HBM SRAM 06/27 11:05
96F:→ OxFFFFFFFF : gpu太贵就更不能忍受高延迟让他闲置 06/27 11:06
97F:→ OxFFFFFFFF : CXL三大记忆体厂都有在做好吗如果可以用早就推了 06/27 11:10
98F:→ OxFFFFFFFF : 总之重点就是低延迟高频宽目前cxl还是不够格 06/27 11:10