作者LDPC (Channel Coding)
看板Stock
标题Re: [新闻] 称霸 AI 推理性能,NVIDIA B200 晶片海
时间Tue Sep 3 03:04:53 2024
相关文章可以参考这个
https://36kr.com/p/2927059579722630
比较有意义的是这边
https://spectrum.ieee.org/new-inference-chips
前言
虽然大家都在讨论AI要怎样获利 但AI产品要获利前 有一个很重要的大前提
就是AI infrastructure得先成熟 也就是如何让巨大数量消费者能在平台上(Large-scale)
能得到平台上的服务 这个第一步关键就是Inference 上的成本 算力提升也意味单位
成本下降
自从LLM兴起後(GenAI) 直到去年都比较是Training上的改进 像是软体端有Deep-Speed
陆续整合到LLM/Transformer上 能把训练数度提高百倍(意味成本降低百倍)
硬体端有A100->H100 (Transformer加速) HBM容量变大 等等此类
但针对AI商业化的Inference块一直很不明朗
去年之前 我个人认为Inference玩家就是NV/AMD/i皇(免强算半个)/ASIC玩家等大乱战
今年开始Inference开始有比较严谨的方式去量化"Large-Scale Service" 来推广落地
这都意味以後的服务平台成本会下降 以现在GPT-4o 25.00元 你可以使用1M tokens
(注2) 想像一下 以後的成本可以降到100倍以上 同时也意味AI infra在走向产业落地
而第二个连结(ieee)就是开始在量化Inference的成本/能力 里面用秒来计算能提供多少
客户请求(queries)
里面有两个比较重要的分类 (1) 一个是MoE 这是一种算法上的设计 会成为将来主流
他能在LLM包山包海的下游任务(例如 文字总结 写程式 医疗问题) 能动态选取专家
所以在MoE上表现好 对效能上来说都会好 (2)处理位元数降低(e.g., f32/bf16/f4)
处理位元数降低好处会带来运算速度增快 运算成本降低 但通常缺点就是效能会变很糟
(正确率下降 模型准度降低) 但NVDA弄出了一个4位元版本 且准度没有太大牺牲
Blackwell FP4运算效力非常夸张 (
https://reurl.cc/myrAMM )
第二个连结可以看出明显AI inference 老黄把众家对手打得满头包...在第二张图里
就算校正GPU数量 狗家的TPU也是没占上风(注3)
处此之外 还有一份报告是关於Llama3 (
https://www.aizws.net/news/detail/1238 )
可以看见当算力拉高高算力 高power 巨大集群 系统容易崩溃 就连老黄都无法避免
然而这在A100丛集 崩溃几乎没有出现过 这也意味众家对手再拉高power 算力
软体容易不稳定而崩溃 在这个AI军备竞赛下 时间永远是个最重要的成本 这也意味
其他对手还只要没在巨大集群验证过都不能算上玩家 (目前只有狗家)
最後一个总结 老黄的核心思想就是算力 (硬体+软体+巨大cluster)
当年老黄在显卡大战说过 我每半年提高显卡算力一倍 虽然一堆游戏厂商
跟我说他家电动游戏不需要这样强显卡 但我们不能照游戏厂商需求来设计
我们给他们更好的显卡 这样他们才能设计更好的游戏 我们可以创造需求
同样 只要对先进算法有需求 算力就会存在 显卡大战所有的套路 我们会再重新走一次
而AI这个路线也是如此 因为Scaling Law已经讲明 算力无穷止尽造就无穷智能
就算今天LLM技术落伍 只要有需求先进的算法 就会需要算力 Scaling Law就是摩尔定律
CPU当年无限开发计算能力 有了软体业 显卡无限开发算力 有了电动产业
这也是为何Eric Schmidt说 政府用算力10的26次方flops当作监管条件
其他政治上的风险
https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水 土地 电力 当地居民抗议
--
最近韭菜力有点高 QnQ 你们买股请用闲钱买....不然就会像我一样要去卖玉兰花
--
注1:Deep Speed是微软一个重大的软体加速设计 这让我想起Bill 之前说的
https://www.youtube.com/watch?v=jpfC7rzoX2A
"Microsoft putting tens of billions of dollars,into not just the back-end
capacitiy, "but re-engineering their application"
注2:Gen AI/LLM 把所有资讯都是用token计价 文字上来说2~3token等於一个英文word
You miss 100% of the shots you don't take 这句话大概等於11 tokens
在影像的话 如果以一张512x512像素来说 有一个不严谨的公式
total tokens = 85 + 170 * n, (n=512 在这边)
注3: 谣言果家的私有云会用狗家TPU 但Inference结果现在看来 我很好奇果家
会愿意放弃这样香的NV Inference架构 用狗家TPU
注4: 亚麻已经开始大量用RAG+LLM 作为改善shopping 和查询物品的使用者体验
如果为真 我们会看到亚麻跟软家大量在AI Infra 软体上改进等
※ 引述《enouch777 (雷)》之铭言:
: 原文标题:称霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X
: ※请勿删减原文标题
: 原文连结:
: https://bit.ly/4dIpmfq
: ※网址超过一行过长请用缩网址工具
: 发布时间:
: September 2, 2024 by 陈 冠荣
: ※请以原文网页/报纸之发布时间为准
: 记者署名:September 2, 2024 by 陈 冠荣
: ※原文无记载者得留空
: 原文内容:
: 由产业人士和学术界组成的开放工程联盟(MLCommons)自 2018 年推出 MLPerf 产业基准
: ,是衡量机器学习性能、提高科技透明度的常见指标。随着科技大厂针对 MLPerf Inferenc
: e v4.1 提出测试资料,尤其 NVIDIA 下一代 Blackwell GPU 首次参与测试,让业界看出各
: 家晶片性能提升至什麽程度。
: MLPerf Inference v 4.1 测试结果有一系列值得关注的新增内容,像是 MLPerf 首次引进
: MoE(Mixture of Experts Models,混合专家模型)性能评估,特别采用开源 Mixtral 8×
: 7B 模型。这一轮基准测试更展示一些令业界关注的晶片和系统,有些还是首次公开测试结
: 果,比方说 AMD MI300X、Google TPU v6e(Trillium)、英特尔 Granite Rapids、Unteth
: er AI speedAI 240 等,还有最受市场瞩目的 NVIDIA B200。
: 虽然 Blackwell GPU 交付到客户手中还需要几个月时间,但 MLPerf Inference 4.1 测试
: 结果可让客户一窥即将到来的强大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo
: rmer 引擎和 FP4 Tensor 核心,处理 MLPerf 设定的 Llama 2 70B 模型,首次测试结果显
: 示性能较自家 Hopper 架构的 H100 高出 4 倍之多。
: 而在单一 B200、H200 及竞争对手 MI300X 的比较,MLPerf Inference v 4.1 测试结果运
: 用 Llama 2 70B 计算每秒生成 token 数,可看出 B200 的表现遥遥领先 H200 和 MI300X
: ,性能平均达到 H200 约 2.5 倍,更是 MI300X 的 4 倍左右。可见主流的 H200 明显胜过
: MI300X,换成下一代 B200 更是大胜。
: 值得关注的是,MI300X 规格如电晶体、HBM 等比起 H200 复杂,封装复杂度更高,可推测
: AMD 这款 AI 晶片成本高昂,却要卖得更便宜才能与 NVIDIA 竞争。信昕产研从这一轮 MLP
: erf 测试结果分析,MI300X 合理价格可能要比目前 H200 低约 30%。
: 换个角度来看,市场可能对於 NVIDIA 产品毛利高有些意见,一旦性能强大的 NVIDIA GPU
: 价格再低一点,恐无对手与之竞争。
: 心得/评论:
: https://i.imgur.com/DhaD9B1.jpeg
: 苏妈24年初之前不是号称赢 黄的H100
: 结果只在伯仲之间,还小输
: 现在看起来黄的B200提升惊人。虽然现在晚一点才会来。但看来护城河已经建好了
: ※必需填写满30正体中文字,无意义者板规处分
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 24.4.211.194 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1725303899.A.3FA.html
※ 编辑: LDPC (24.4.211.194 美国), 09/03/2024 03:10:16
1F:推 FirePopcorn : 推 09/03 03:14
2F:→ Justisaac : 涨知识给推~ 09/03 03:18
3F:→ Justisaac : 虽然我觉得Intc连半个都称不上XD 09/03 03:18
4F:推 stuppi : 感谢LD老大分享~ 09/03 03:20
5F:推 Justisaac : 居然没推到,补一下。 09/03 03:22
6F:推 Haerin520 : 推 已经欧印NVDL了 谁来69楼救我 09/03 03:28
7F:推 pornpig32 : Nv能否持续领先 09/03 03:30
8F:推 ETTom : 推 长知识了 09/03 03:49
9F:嘘 a000000000 : 我说过惹老黄这逼系列地位类似哀凤4 09/03 03:50
10F:→ a000000000 : 出来94扫场 他把能想到的花招都用上惹 09/03 03:50
11F:→ a000000000 : 下一代的问题4会变成哀凤五还哀凤六 很难说 09/03 03:50
12F:推 hyuying : 哇 谢LD!希望我也能Learning到飞黄腾达 09/03 03:50
13F:→ a000000000 : 没新招就挨奉五 有新招就挨凤六 09/03 03:51
※ 编辑: LDPC (24.4.211.194 美国), 09/03/2024 04:23:28
14F:→ ookimoo : ww3之後美国会彻底衰弱,中间会一堆国家没有电! 09/03 04:41
15F:推 sean667cd : 感谢 LD大分享 ! 09/03 04:44
16F:推 waitrop : 我该欧印nvdl吗 09/03 04:49
17F:推 MyDice : 感谢大大分享 09/03 06:12
18F:推 ejnfu : 所以结论是all in NVDA对吧 09/03 06:13
19F:推 pacino : 推 NVDA 09/03 06:23
20F:推 TIPPK : 感谢分享 09/03 06:31
21F:推 zoze : 相信老黄 财富自由 09/03 06:51
22F:推 william7713 : 台湾一直欢迎资料中心来盖XDD 不知道在想啥 09/03 06:54
23F:推 jerrychuang : 99MU 09/03 06:55
24F:推 spike1215 : 恐惧来自於算力不足,对吧。 09/03 06:56
25F:推 peapriayod : 专业推 09/03 06:58
26F:推 lusifa2007 : 推 老黄就是强 09/03 07:01
27F:推 darlost : 推一个 09/03 07:06
28F:推 fdkevin : 结论欧印NVDA 09/03 07:11
29F:嘘 askaa : 当大家都要买nvdl 跟全部人都在拉抬目标价 09/03 07:38
30F:→ askaa : 你就知道 该如何处置手上的股票了 09/03 07:38
31F:推 Chilloutt : 以token 练丹是可怕的商业模式,东西被重新估价 09/03 07:47
32F:推 ppuuppu : 哇,一早看到L大的信心加持 感恩 09/03 07:54
33F:推 Lipraxde : Inference server 真正的需求等手机普遍都有能跑 L 09/03 07:57
34F:→ Lipraxde : LM 再看吧?虽然 edge 端能跑的 model 比 GPT-4o 09/03 07:57
35F:→ Lipraxde : 废,但一般使用需求其实也用不上多强的 LLM 09/03 07:57
36F:推 ajkofqq : 好 09/03 08:03
37F:推 darkangel119: 感谢专家分析与分享 09/03 08:03
38F:推 f860506 : 推 09/03 08:08
39F:推 aegis43210 : AI推论接下来各大CSP会用博通设计的ASIC来想办法取 09/03 08:09
40F:→ aegis43210 : 代,到时看才知道鹿死谁手 09/03 08:09
41F:推 utn875 : 感谢提供基础知识 09/03 08:17
42F:推 NicholasTse3: all in NVDL 一波退休! 09/03 08:19
43F:推 sdbb : 99nvdl 09/03 08:39
45F:推 Samurai : ASIC取代别闹惹,关键应该是明年的chatgpt5 ,LLM 09/03 08:42
46F:→ Samurai : 进化才是终端市场爆发的时候 09/03 08:42
47F:推 NotForever : 感谢分享 09/03 08:43
48F:推 atpx : 推分享 09/03 09:01
49F:推 zhi5566 : 推 09/03 09:15
50F:推 darkangel119: 虾? 用 ASIC? 想太多了吧 09/03 09:32
51F:→ bnn : 吓你 甩你 磨你 09/03 09:45
52F:→ cyshowen : B系列GPU已经就 800mm2吃到光罩极限,要再增加电晶 09/03 09:57
53F:→ cyshowen : 体就只能靠制程。两颗大晶片进CoWoS-L封装成B200又 09/03 09:57
54F:→ cyshowen : 因热膨胀系数delay,至於老黄说什麽修光罩改善良率 09/03 09:57
55F:→ cyshowen : 看起来是在解Critical Path积热,但有没有效可以继 09/03 09:57
56F:→ cyshowen : 续观望。 09/03 09:57
57F:→ cyshowen : 老黄要变下一代,GG CoWoS下一代(2027)可能有机会 09/03 09:59
58F:→ cyshowen : ,热膨胀问题还是跑不掉 09/03 09:59
59F:推 ups : 专业推 09/03 10:31
60F:推 strlen : 楼上真好心 帮辉达里几百万千万年薪工程师们担心 09/03 10:49
61F:推 SSglamr : 老黄救我 09/03 11:19
62F:推 aegis43210 : AI推论当然用ASIC,用GPGPU很耗电好吗? 09/03 11:26
63F:→ aegis43210 : 现在各家的NPU则是一种DSP,算是过渡方案 09/03 11:27
64F:推 arcysaint : 已欧印 09/03 13:01
65F:推 dragonjj : 谢谢分享,果家用狗家的我相信只先分散风险总不能 09/03 19:20
66F:→ dragonjj : 单靠一家,能用大丛集的就两家目前来看 09/03 19:20
67F:推 grayeric : 今晚又电梯向下了 09/03 22:39
68F:→ visadanny : 电梯向下跟老黄也没关系啊 总经数据开这样大家一起 09/04 02:03
69F:→ visadanny : 爆 09/04 02:03