作者KotoriCute (乙醯胺酚)
看板Stock
標題[新聞] 字節跳動旗下「豆包」新模型架構 推理成
時間Wed Feb 12 23:49:32 2025
原文標題:
字節跳動旗下「豆包」新模型架構 推理成本最多降83%
※請勿刪減原文標題
原文連結:
https://udn.com/news/story/7333/8543703
※網址超過一行過長請用縮網址工具
發布時間:
2025-02-12 15:17
※請以原文網頁/報紙之發布時間為準
記者署名:
林宸誼
※原文無記載者得留空
原文內容:
字節跳動旗下「豆包大模型」Foundation團隊,近期提出一種全新的稀疏模型架構「UltraM
em」,該架構在保證模型效果的前提下,推理速度較傳統的MoE(專家混合模型)架構提升2
到6倍,推理成本最高可降低83%。
陸媒財聯社報導,這項創新成果已被機器學習和AI領域的頂級會議ICLR 2025接收,為解決
大模型推理效率和擴展能力問題提供了全新思路。
大模型的推理能力,對應的是端側AI應用/工具的回應能力和速度。隨著模型規模的擴大,
推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸。
在Transformer架構下,模型的性能與參數數量和計算複雜度呈對數關係。隨著LLM規模不斷
增大,推理成本會急劇增加,速度變慢。
為了解決計算問題,先前的研究者提出MoE和PKM(Product Key Memory)方案,但都有各自
侷限性。包括MoE架構犧牲了效率、PKM架構犧牲了效果,這些侷限性使得MoE和PKM在推理效
率、模型效果和擴展能力等方面的優化空間仍需進一步探索,UltraMem正是為了解決上述缺
點。
UltraMem參考了PKM的設計,但針對PKM的缺陷予以補充,優勢主要在於降低推理成本、提升
推理速度、保持模型效果。
豆包研究團隊在151M、680M、1.6B三個不同規模的模型上進行了廣泛的實驗。實驗結果顯示
,UltraMem在模型效果和推理速度方面均優於MoE和PKM架構,且在680M、1.6B上具有顯著的
效果優勢。
報導提到,無論是訓練端還是推理端,當大模型廠商「捲」起成本,代表AI應用將在未來更
加高效易用;當推理成本大幅降低,將助推AI技術在更多領域的應用成為可能,尤其是對於
資源受限的場景,如邊緣計算和移動設備等,能讓更多企業和開發者有能力使用和部署AI模
型。
心得/評論:
美國矽谷科技公司在卷誰能拿到更多晶片
中國科技公司則是在卷誰能把AI成本降得更低
※必需填寫滿30正體中文字,無意義者板規處分
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.143.192 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1739375374.A.361.html
1F:推 ksjr : 台灣在捲一次能夠點幾碗麵線 02/12 23:51
2F:推 holysong : 感覺快回到畝產萬斤的年代了 02/12 23:52
3F:推 kuosos520 : 最先進的晶片已經不會進中國了,自己慢慢卷吧 02/12 23:53
4F:推 Roger5566 : 崩 02/12 23:54
5F:推 cityport : 軟體寫得跟屎一樣..硬體堆料很快就會出現瓶頸 02/13 00:00
6F:→ cityport : 軟硬體要同時進化..缺一邊都會變成拖油瓶 02/13 00:00
7F:→ cityport : 靠高效率軟體挑戰OpenAI的只會越來越多 02/13 00:03
8F:→ cityport : 當OpenAI把一堆職缺搬到印度..就註定只會是一代拳王 02/13 00:05
9F:推 a2006003 : 可以當豆沙包吃嗎 02/13 00:13
10F:推 dennis2030 : 單看新聞內文看起來實驗只有做在 1B 這個量級的小 02/13 00:19
11F:→ dennis2030 : model 上,也要看能不能 scale up 才算真的爆炸性突 02/13 00:19
12F:→ dennis2030 : 破吧 02/13 00:19
13F:→ coffeedemon : 覺得算力大力出奇蹟的機會比較大 可是預算有限 02/13 00:19
14F:→ cityport : 有錢狂掃鏟子的也只有少數幾家..還不如從軟體下手 02/13 00:38
15F:→ leopika : 字節跳動不是去年被實習生惡搞,導致模型被破壞嗎 02/13 00:52
16F:推 stlinman : 難怪東方武藝會沒落! 西方鏟子進步到挖土機,東方還 02/13 01:02
17F:→ stlinman : 在鑽研怎麼鏟最省力。 要不要順便練內功運個氣? 02/13 01:03
18F:→ stlinman : 軟體再快,也不可能快過硬體。一個是加法一個是減法 02/13 01:05
19F:推 sean667cd : 吃麵線錯了嗎。 perplexity 好用啦 讚 02/13 02:10
20F:推 dmx6 : 演算法寫的好比堆硬體效率高啊 02/13 02:12
21F:→ DPP48 : 大家一起吹 02/13 02:37
22F:推 Grothendieck: 幹片加速生成 02/13 02:50
23F:→ yunf : 你們大概還沒想到 他們為什麼要花錢砸在這裡 02/13 05:59
24F:→ cityport : 好的軟體是事半功倍..爛的軟體是事倍功半 02/13 06:12
25F:→ cityport : 就像iPhone即使硬體落後..效能一樣屌虐安卓 02/13 06:14
26F:推 asirk124 : 軟體再怎樣強化都有極限 02/13 06:29
27F:→ Feting : 卷軟體降低硬體需求本來就是必定發生的項目,現在 02/13 07:01
28F:→ Feting : 只是新聞聚焦中國奪版面,實際上全世界都會想做這 02/13 07:01
29F:→ Feting : 件事。但也不代表堆硬體是錯誤的,兩件事本來就不 02/13 07:01
30F:→ Feting : 衝突 02/13 07:01
31F:→ afflic : 軟體怎麼沒差 02/13 07:02
32F:→ afflic : 你用加法跟乘法能一樣嗎 02/13 07:02
33F:推 MacBookAir12: API 多少錢先說吧 02/13 07:25
34F:→ Lowpapa : 超級鬼故事 02/13 07:48
35F:推 kshssoar : 覺得軟體沒差的,怎麼不用14700+5090在win95上 02/13 08:09
36F:→ kshssoar : 看跑不跑得動愛爾登法環 02/13 08:09
37F:推 ohsho62 : 都說是豆包了 02/13 09:12
38F:噓 Wolverin5566: 盜版0成本啊 02/13 09:25
39F:推 Noberman : 台灣:點線麵 02/13 09:29
40F:推 LAURANCE : 炸豆包好吃 02/13 09:38
41F:→ ich51 : 講的好像美國人都不會寫軟體一樣了 02/13 09:54
42F:→ fenix220 : 腦包 02/13 09:58
43F:→ Casper50 : 台灣推出的會叫草包嗎 02/13 11:09
44F:推 phoenixtwo : 中國科技在比誰比較會吹牛吧 02/13 17:53
45F:噓 cityhunter04: 設備成本、人工成本、用電成本、一堆成本都不算… 02/13 21:48
46F:→ cityhunter04: 超便宜! 02/13 21:48