作者KotoriCute (乙醯胺酚)
看板Stock
标题[新闻] 字节跳动旗下「豆包」新模型架构 推理成
时间Wed Feb 12 23:49:32 2025
原文标题:
字节跳动旗下「豆包」新模型架构 推理成本最多降83%
※请勿删减原文标题
原文连结:
https://udn.com/news/story/7333/8543703
※网址超过一行过长请用缩网址工具
发布时间:
2025-02-12 15:17
※请以原文网页/报纸之发布时间为准
记者署名:
林宸谊
※原文无记载者得留空
原文内容:
字节跳动旗下「豆包大模型」Foundation团队,近期提出一种全新的稀疏模型架构「UltraM
em」,该架构在保证模型效果的前提下,推理速度较传统的MoE(专家混合模型)架构提升2
到6倍,推理成本最高可降低83%。
陆媒财联社报导,这项创新成果已被机器学习和AI领域的顶级会议ICLR 2025接收,为解决
大模型推理效率和扩展能力问题提供了全新思路。
大模型的推理能力,对应的是端侧AI应用/工具的回应能力和速度。随着模型规模的扩大,
推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。
在Transformer架构下,模型的性能与参数数量和计算复杂度呈对数关系。随着LLM规模不断
增大,推理成本会急剧增加,速度变慢。
为了解决计算问题,先前的研究者提出MoE和PKM(Product Key Memory)方案,但都有各自
局限性。包括MoE架构牺牲了效率、PKM架构牺牲了效果,这些局限性使得MoE和PKM在推理效
率、模型效果和扩展能力等方面的优化空间仍需进一步探索,UltraMem正是为了解决上述缺
点。
UltraMem参考了PKM的设计,但针对PKM的缺陷予以补充,优势主要在於降低推理成本、提升
推理速度、保持模型效果。
豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果显示
,UltraMem在模型效果和推理速度方面均优於MoE和PKM架构,且在680M、1.6B上具有显着的
效果优势。
报导提到,无论是训练端还是推理端,当大模型厂商「卷」起成本,代表AI应用将在未来更
加高效易用;当推理成本大幅降低,将助推AI技术在更多领域的应用成为可能,尤其是对於
资源受限的场景,如边缘计算和移动设备等,能让更多企业和开发者有能力使用和部署AI模
型。
心得/评论:
美国矽谷科技公司在卷谁能拿到更多晶片
中国科技公司则是在卷谁能把AI成本降得更低
※必需填写满30正体中文字,无意义者板规处分
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.224.143.192 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1739375374.A.361.html
1F:推 ksjr : 台湾在卷一次能够点几碗面线 02/12 23:51
2F:推 holysong : 感觉快回到亩产万斤的年代了 02/12 23:52
3F:推 kuosos520 : 最先进的晶片已经不会进中国了,自己慢慢卷吧 02/12 23:53
4F:推 Roger5566 : 崩 02/12 23:54
5F:推 cityport : 软体写得跟屎一样..硬体堆料很快就会出现瓶颈 02/13 00:00
6F:→ cityport : 软硬体要同时进化..缺一边都会变成拖油瓶 02/13 00:00
7F:→ cityport : 靠高效率软体挑战OpenAI的只会越来越多 02/13 00:03
8F:→ cityport : 当OpenAI把一堆职缺搬到印度..就注定只会是一代拳王 02/13 00:05
9F:推 a2006003 : 可以当豆沙包吃吗 02/13 00:13
10F:推 dennis2030 : 单看新闻内文看起来实验只有做在 1B 这个量级的小 02/13 00:19
11F:→ dennis2030 : model 上,也要看能不能 scale up 才算真的爆炸性突 02/13 00:19
12F:→ dennis2030 : 破吧 02/13 00:19
13F:→ coffeedemon : 觉得算力大力出奇蹟的机会比较大 可是预算有限 02/13 00:19
14F:→ cityport : 有钱狂扫铲子的也只有少数几家..还不如从软体下手 02/13 00:38
15F:→ leopika : 字节跳动不是去年被实习生恶搞,导致模型被破坏吗 02/13 00:52
16F:推 stlinman : 难怪东方武艺会没落! 西方铲子进步到挖土机,东方还 02/13 01:02
17F:→ stlinman : 在钻研怎麽铲最省力。 要不要顺便练内功运个气? 02/13 01:03
18F:→ stlinman : 软体再快,也不可能快过硬体。一个是加法一个是减法 02/13 01:05
19F:推 sean667cd : 吃面线错了吗。 perplexity 好用啦 赞 02/13 02:10
20F:推 dmx6 : 演算法写的好比堆硬体效率高啊 02/13 02:12
21F:→ DPP48 : 大家一起吹 02/13 02:37
22F:推 Grothendieck: 干片加速生成 02/13 02:50
23F:→ yunf : 你们大概还没想到 他们为什麽要花钱砸在这里 02/13 05:59
24F:→ cityport : 好的软体是事半功倍..烂的软体是事倍功半 02/13 06:12
25F:→ cityport : 就像iPhone即使硬体落後..效能一样屌虐安卓 02/13 06:14
26F:推 asirk124 : 软体再怎样强化都有极限 02/13 06:29
27F:→ Feting : 卷软体降低硬体需求本来就是必定发生的项目,现在 02/13 07:01
28F:→ Feting : 只是新闻聚焦中国夺版面,实际上全世界都会想做这 02/13 07:01
29F:→ Feting : 件事。但也不代表堆硬体是错误的,两件事本来就不 02/13 07:01
30F:→ Feting : 冲突 02/13 07:01
31F:→ afflic : 软体怎麽没差 02/13 07:02
32F:→ afflic : 你用加法跟乘法能一样吗 02/13 07:02
33F:推 MacBookAir12: API 多少钱先说吧 02/13 07:25
34F:→ Lowpapa : 超级鬼故事 02/13 07:48
35F:推 kshssoar : 觉得软体没差的,怎麽不用14700+5090在win95上 02/13 08:09
36F:→ kshssoar : 看跑不跑得动爱尔登法环 02/13 08:09
37F:推 ohsho62 : 都说是豆包了 02/13 09:12
38F:嘘 Wolverin5566: 盗版0成本啊 02/13 09:25
39F:推 Noberman : 台湾:点线面 02/13 09:29
40F:推 LAURANCE : 炸豆包好吃 02/13 09:38
41F:→ ich51 : 讲的好像美国人都不会写软体一样了 02/13 09:54
42F:→ fenix220 : 脑包 02/13 09:58
43F:→ Casper50 : 台湾推出的会叫草包吗 02/13 11:09
44F:推 phoenixtwo : 中国科技在比谁比较会吹牛吧 02/13 17:53
45F:嘘 cityhunter04: 设备成本、人工成本、用电成本、一堆成本都不算… 02/13 21:48
46F:→ cityhunter04: 超便宜! 02/13 21:48