作者pl132 (pl132)

看板Tech_Job

標題

[新聞]不，你無法用 600 萬美元複製一個 DeepSee

時間Wed Jan 29 10:58:37 2025

不，你無法用 600 萬美元複製一個 DeepSeek R1 https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/ 中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市，關鍵在於其相對低廉的訓練成本，不過深入分析其過程就知道，並不是花 600 萬美元就能複製一個相同的模型。無論華爾街玩的是什麼套路，DeepSeek R1 模型真正讓人驚歎的，是它極度便宜的訓練成本，根據 DeepSeek 宣稱，訓練成本僅 557.6 萬美元，幾乎是其他科技巨頭大型語言模型的十分之一成本，這個費用也差不多是一位 AI 主管的年薪而已。這個驚人的宣示實際上未必如此驚天動地，我們需要一步步拆解他們的模型訓練方式，就能了解其中奧妙。首先，DeepSeek 和 R1 模型並非一步登天，R1 模型的訓練費用其實和去年底發佈的 V3 模型相同，而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。在 V2 模型裡，他們導入了兩個重要的元件：DeepSeekMoE 和 DeepSeekMLA，前者代表了多重專家混合（Mixture of Experts），和 ChatGPT4 一樣，他們將訓練出的 AI 分為多種專家，根據對話內容調用合適領域的專家，以達成更精準而高效率的回應。後者則是多頭潛在注意力機制（Multi-Head Latent Attention），在 AI 對話中，需要載入模型和文本，每個 token 需要對應的 key 和 value，MLA 則能夠壓縮 value 的儲存空間，進而減少記憶體需求。 https://is.gd/gzBeWB ▲DeepSeek V3 模型架構圖。（Source：Github）到了 V3 模型，他們再根據以上基礎，導入負載平衡和多重 token 預測機制，進一步提升訓練效率，根據 DeepSeek 宣稱，訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時，依每工時 2 美元推算，整體訓練成本就是 557.6 萬美元。而 R1 模型的訓練成本據稱與 V3 模型相同，換言之，想要做出 R1 模型，並不是拿 H800 跑 280 萬個工時就能做出來，還必須有前置研究、反覆實驗和前置演算法架構。相反地，從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下，甚至有自己的優勢，既然 DeepSeek 是開源架構，就代表其他科技巨頭可以用相似的模組，投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組，如此則能獲得十倍於 DeepSeek R1 的成果。從這個角度來看，你覺得 NVIDIA 有什麼好緊張的嗎？ -- 推 pb220918:不爽可以當禽獸五樓是禽獸!! 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → Davisss:我是禽獸我真爽我在騎1樓 10/04 22:13 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1738119530.A.F11.html

1^F：推 boards : 如果成本這麼低 112.78.81.247 01/29 10:59

2^F：→ boards : 全世界的核電廠也該關閉了 112.78.81.247 01/29 10:59

3^F：→ boards : 中國拉一根暗管，偷接OpenAI 、Gemi 112.78.81.247 01/29 11:00

4^F：→ boards : ni ，資料還會回傳中國！ 112.78.81.247 01/29 11:00

5^F：→ tgyhuj01 : 台灣已經關了阿你質疑台灣政府? 36.227.83.81 01/29 11:11

6^F：推 bella1815 : DeepSeek有5萬個H100，礙於禁令不 61.228.165.120 01/29 11:27

7^F：→ bella1815 : 能明言 61.228.165.120 01/29 11:27

8^F：→ kevinmeng2 : 世界怎麼跟得上台灣？終於跟上了 219.70.152.87 01/29 11:47

9^F：推 shter : 又不是只有訓練AI要用電，現在一堆 1.169.73.118 01/29 12:27

10^F：→ shter : 雲端服務算力主機在做其他應用產品 1.169.73.118 01/29 12:28

11^F：→ shter : 幾年前那些大數據資料中心越存越多 1.169.73.118 01/29 12:29

12^F：→ shter : 累積下去能源需求只會擴張而已 1.169.73.118 01/29 12:29

13^F：推 kingof303 : 一看就知道中國在騙人多呆才相信 61.227.212.152 01/29 12:42

14^F：噓 cityhunter04: 最大的優勢就是會幫忙言論審查…厲 114.24.100.161 01/29 12:48

15^F：→ cityhunter04: 害厲害！ 114.24.100.161 01/29 12:48

16^F：推 zombiechen : 前天吹deep search 的帳號今天都躲 118.171.11.104 01/29 13:00

17^F：→ zombiechen : 起來不見了 118.171.11.104 01/29 13:00

18^F：推 drea : DS厲害的是晶片不用算入成本，無敵 111.252.83.115 01/29 13:13

19^F：推 peter6666712: 十倍工時 = 十倍成果笑了 1.200.246.84 01/29 13:19

20^F：推 afking : 問就是繼續買進 49.217.130.119 01/29 13:53

21^F：推 kaltu : 這整個成本什麼時候audit報告會出來 100.8.245.106 01/29 14:05

22^F：→ kaltu : ？ 100.8.245.106 01/29 14:05

23^F：→ jhangyu : 有夠lag，berkley實驗室 101.9.131.231 01/29 14:17

24^F：→ jhangyu : 已經用30美元複製成果了還在洗 101.9.131.231 01/29 14:17

25^F：噓 straggler7 : 糾結在成本怎麼算沒太大意義 36.229.59.188 01/29 14:24

26^F：推 admon : 成本也許誇大但從結果論看並不是全 125.224.210.22 01/29 14:53

27^F：→ admon : 假 125.224.210.22 01/29 14:53

28^F：噓 jason90814 : 「並不是拿 H800 跑 280 萬個工時180.217.192.111 01/29 15:03

29^F：→ jason90814 : 就能做出來，還必須有前置研究、反180.217.192.111 01/29 15:03

30^F：→ jason90814 : 覆實驗和前置演算法架構」這段到底180.217.192.111 01/29 15:03

31^F：→ jason90814 : 在公殺小，阿人家研究跟架構都開源180.217.192.111 01/29 15:03

32^F：→ jason90814 : 了，GPT那種閉源的才是無法複製吧180.217.192.111 01/29 15:03

33^F：推 jason90814 : 還在提晶片價格的也是頗ㄏ租房跟180.217.192.111 01/29 15:08

34^F：→ jason90814 : 買房搞不清楚180.217.192.111 01/29 15:08

35^F：推 hensel : MOE的e不用先訓練喔 36.230.44.78 01/29 15:09

36^F：噓 jackey0117 : 開源的優勢屌打那些貴森森的商用的 116.241.209.33 01/29 15:27

37^F：→ cphe : 這樣講這不就代表中國的AI研究實力 42.79.160.68 01/29 15:38

38^F：→ cphe : 更強嗎 42.79.160.68 01/29 15:38

39^F：推 Alphaz : 坐等GAI卷到免費支那加油好嗎 150.117.201.51 01/29 15:59

40^F：推 swimbert : 哇終於有人承認模型更好了 123.204.137.86 01/29 16:09

41^F：推 samarium : 有部分理工男對核電跟中國特別有感 49.216.129.35 01/29 16:38

42^F：→ samarium : 覺柯柯 49.216.129.35 01/29 16:38

43^F：→ boards : https://i.imgur.com/lZuXZhu.jpeg 101.10.44.11 01/29 16:53

44^F：→ boards : 你各位啊~不要再傳啦！ 101.10.44.11 01/29 16:53

45^F：→ boards : 今天用電佔比： 101.10.44.11 01/29 16:53

46^F：→ boards : 再生能源45%是核電4.3%的十多倍 101.10.44.11 01/29 16:53

47^F：推 naushtogo : 中國講的數字你也信？ 1.146.134.27 01/29 17:03

48^F：→ oopsskimo : 訓練自己的AI出來發大財223.139.131.221 01/29 17:10

49^F：噓 navysoider : 有關中國跟共產黨的話題會沒有答案 1.200.140.93 01/29 17:17

50^F：→ navysoider : ，共產黨的人工智慧 1.200.140.93 01/29 17:17

51^F：→ BoXeX : 在想本板文組是不是有點多啊 111.250.18.76 01/29 17:30

52^F：推 b258963147 : 越卷越好，坐等 gpt免費嘻嘻 111.254.15.138 01/29 17:43

53^F：→ much0112 : 如果結果只是演算法上的問題114.174.185.237 01/29 18:21

54^F：→ much0112 : 而不是工具上的限制114.174.185.237 01/29 18:21

55^F：→ much0112 : 美國AI大戰等著敗114.174.185.237 01/29 18:21

56^F：→ much0112 : 1億人拼不過14億人114.174.185.237 01/29 18:21

57^F：推 MVPkobe : 確實最後一段跟我想法一致 42.72.87.167 01/29 19:19

58^F：推 bella1815 : 連美國人口多少都錯的離譜 61.228.165.120 01/29 20:04

59^F：→ lavign : LLM都還在吃2017 Transformer老本 42.71.91.63 01/30 05:46

60^F：推 npkalala : 同意51樓，真的有人以為要達到人腦 42.77.24.135 01/30 10:02

61^F：→ npkalala : 思考只有架構問題，一堆文組 42.77.24.135 01/30 10:02

62^F：推 Brioni : 有明確進步還蠻屌的203.204.115.205 01/31 22:34

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Tech_Job 板

[新聞]不，你無法用 600 萬美元複製一個 DeepSee

熱門看板

贊助商連結