作者Lushen (pttlushen)
看板Stock
標題[新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預
時間Fri Jan 24 19:13:02 2025
原文標題:
Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
原文連結:
https://www.jiqizhixin.com/articles/2025-01-24-2
發布時間:2025/01/24
記者署名:機器之心
原文內容:
「工程師正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。」
DeepSeek 開源大模型的陽謀,切切實實震撼著美國 AI 公司。
最先陷入恐慌的,似乎是同樣推崇開源的 Meta。
最近,有 Meta 員工在美國匿名職場社群 teamblind 上面發布了一個貼文。貼文提到,國內 AI 新創公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌,因為在前者的低成本高歌猛進下,後者無法解釋自己的超高預算的合理性。
原文如下:
這一切始於 DeepSeek-V3,它在基準測試中就已經讓 Llama 4 落後。更糟的是那個「擁有 550 萬訓練預算的不知名中國公司」。
工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。
管理階層擔心如何證明龐大的生成式 AI 組織的成本是合理的。當生成式 AI 組織中的每個「領導」的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的「領導」時,他們要如何面對高層?
DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機密信息,但這些很快就會公開。
這本來應該是一個以工程為重點的小型組織,但是因為很多人想要參與進來分一杯羹,人為地膨脹了組織的招聘規模,結果每個人都成了輸家。
https://i.imgur.com/hKZ6h5W.png
貼文中提到的 DeepSeek-V3 和 DeepSeek-R1 分別發佈於 2024 年 12 月 26 日和 2025 年 1 月 20 日。
其中,DeepSeek-V3 在發佈時提到,該模型在多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等其他開源模型,並在性能和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet 不分伯仲。
不過,更引人注目的是,這個參數量高達 671B 的大型語言模型訓練成本僅 558 萬美元。具體來說,它的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與後訓練的訓練,總共也只有 278.8 H800 GPU Hours。相比之下,Meta 的 Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。
https://i.imgur.com/mJn5POl.png
而最近發布的 DeepSeek-R1 效能更猛 —— 在數學、程式碼、自然語言推理等任務上,它的效能比肩 OpenAI o1 正式版。而且模型在發布的同時,權重同步開源。很多人驚呼,原來 DeepSeek 才是真正的 OpenAI。 UC Berkeley 教授 Alex Dimakis 則認為, DeepSeek 現在已經處於領先位置,美國公司可能需要迎頭趕上了。
https://i.imgur.com/NLhp4Nj.png
看到這裡,我們不難理解為何 Meta 的團隊會陷入恐慌。如果今年推出的 Llama 4 沒有點硬本事,他們「開源之光」的地位岌岌可危。
有人指出,其實該慌的不只 Meta,OpenAI、Google、Anthropic 又何嘗沒有受到挑戰。 「這是一件好事,我們可以即時看到公開競爭對創新的影響。」
https://i.imgur.com/gQ5fHDH.png
還有人擔心起了英偉達的股價,表示「如果 DeeSeek 的創新是真的,那麼 AI 公司是否真的需要那麼多顯示卡?」
https://i.imgur.com/HIFcTx6.png
不過,也有人質疑,DeepSeek 究竟是靠創新還是靠蒸餾 OpenAI 的模型取勝?有人回覆說,這可以從他們的發布的技術報告中找到答案。
https://i.imgur.com/HIFcTx6.png
目前,我們還無法確定貼文的真實性。
不知道 Meta 後續會如何回應,即將到來的 Llama 4 又會達到怎樣的表現。
心得/評論:
Meta工程師在TeamBlind(一個匿名的職涯討論區,需要經過公司Email驗證)爆料中國的DeepSeek對內部影響很大
DeepSeek R1訓練成本550萬美元 可能比一個Meta大頭的年薪還便宜
DeepSeek 這件事情也不光是中國自己在吹噓
看了一下 Twitter/Reddit 美國AI工業界、學術界反響非常大
DeekSeek 的母公司幻方量化產出 DeepSeek 的故事也在 Twitter 廣受討論
https://i.imgur.com/NLhp4Nj.png
DeepSeek R1 開源+論文公開應該會推進一波AI界的發展
DeepSeek 後續發展值得關注一下
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.55.152 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1737717185.A.FD4.html
1F:推 pmes9866 : 中又贏 01/24 19:14
DeepSeek 訓練成本低+跑起來的成本極低(硬體需求)
自己實際使用體感不覺得他贏 OpenAI
不過以成本場景來說真的是巨大的創新
美國知名的 AI 分析機構 Artificial Analysis
對 DeepSeek 的成本分析
https://i.imgur.com/0GRkj6Q.png
2F:→ agassi001 : 股價該跌了吧 01/24 19:15
3F:推 wts4832 : too good to be true 01/24 19:15
4F:→ moom50302 : 贏了贏了都贏了 01/24 19:15
5F:推 Plumpy : 贏麻了 01/24 19:16
6F:噓 s1612316 : 花大錢還輸別人 是設備的問題還是人的問題 01/24 19:16
7F:推 kenbbc12321 : ai本來就可以減少運算,達到一樣的效果 01/24 19:18
8F:推 lpmybig : 真實性先打問號 01/24 19:18
DeepSeek R1 程式碼、論文都開源+公開了
https://github.com/deepseek-ai/DeepSeek-R1
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
9F:→ appledick : 美國484真的滿廢的 01/24 19:18
10F:→ appledick : 難怪只能靠制裁來贏人了 01/24 19:19
11F:推 lc85301 : 美國的時代早就過去了 01/24 19:19
12F:推 zhi5566 : 輸了就在砍人啊 01/24 19:19
13F:推 kuosos520 : deepseek有開源,也有offline,鬼故事來了 01/24 19:20
14F:推 aegis43210 : 因為西台灣為了管制,一堆問題不能回答,自然也不算 01/24 19:20
15F:→ aegis43210 : 錯誤 01/24 19:20
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:25:15
16F:推 KrisNYC : DS就開源的 輸了就算了 裁部門 丟模型 01/24 19:22
17F:→ furbyyeh : 硬體需求果然是吹的 01/24 19:22
18F:→ KrisNYC : 拿DS去從頭開始而已 01/24 19:22
19F:推 stlinman : 降本增效 遙遙領先 中國人可以贏兩次 01/24 19:22
20F:推 rrazer : 中又贏 ,遙遙領先 01/24 19:22
21F:推 momochacha : 沒空 阿祖現在忙著舔川普 01/24 19:22
22F:→ KrisNYC : 你就當作花錢蓋了個蚊子館又拆掉 GDP增加了 就這樣 01/24 19:22
23F:→ KrisNYC : 寫一大篇不知道想幹嘛 01/24 19:22
24F:推 Lowpapa : 美國早就輸慘了 01/24 19:23
25F:推 godog : 看到某族群崩潰狂酸的樣子 就覺的好笑 哈哈哈 01/24 19:23
26F:推 aegis43210 : 只要慶豐帝仍在位,美國就不會輸 01/24 19:24
27F:推 iamsosmart : 中國贏了,台積電嚇哭了,輝達沒有用了,美國七大 01/24 19:24
28F:→ iamsosmart : 科技股都淚奔了 01/24 19:24
29F:推 huabandd : 整理重點好嗎 01/24 19:25
網景公司創始人(美國公司;世界第一個廣泛使用的瀏覽器)
Facebbok、eBay、HP 董事會成員
風投
Marc Andreessen
幫你整理了重點
https://i.imgur.com/SmUbN8M.png
Deepseek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen — and as open source, a profound gift to the world.
DeepSeek 翻譯:
https://i.imgur.com/5zX1uf2.png
30F:推 ImHoluCan : 亞洲專門搞詐騙的 01/24 19:26
31F:推 poeoe : 中國本來在軟體就算強的 還能加班加到爆 01/24 19:26
32F:推 strlen : 不就魔改技術很猛?不然當年GPT3怎麼不是中國開發 01/24 19:27
33F:推 winsonpz : 看智障聳動標題就知道是中吹假新聞 01/24 19:27
34F:推 zpeople0116 : 歐美日常,幹輸人翻桌 01/24 19:28
35F:→ winsonpz : 然後又一堆壯世代在那瞎講胡吹 01/24 19:29
36F:推 ImHoluCan : 美國人很天真,很容易被詐騙,看看小米保時捷,那 01/24 19:29
37F:→ ImHoluCan : 真的是保時捷嗎 01/24 19:29
38F:推 spa41260 : 算力過剩,丸子 01/24 19:29
39F:噓 pagenotfound: 上次在那邊吹中國突破5奈米的公司 已經屍骨無存了 01/24 19:29
40F:推 matlab1106 : 又要像電車一樣輸了就翻桌嗎? 01/24 19:29
41F:噓 ck326 : 中吹日常,吹了半天強國還在通縮 01/24 19:30
42F:→ ImHoluCan : 對岸要是真的,早就大吹特吹 01/24 19:30
43F:→ asjh612 : 沒有外媒新聞? 怎麼只有中國跟twitter來源 01/24 19:30
44F:→ mic73528 : 遙遙領先 雙贏就是中國贏兩次 01/24 19:31
45F:推 Blastodern : 彎道超車吹了三十年還在超,這個彎道到底有多長啦 01/24 19:31
46F:→ Blastodern : ,笑爛 01/24 19:31
48F:→ ImHoluCan : 小米蘇7=美國老邏輯=保時捷怕拉沒拉,但真的擺上台 01/24 19:32
49F:→ ImHoluCan : 面真的是保時捷嗎 01/24 19:32
50F:推 Dix123 : 已經都開源了 怎麼還有人反智阿... 01/24 19:33
51F:推 jacktypetlan: 完蛋 算力過剩 overbooking 台G NV攔腰斬都不夠 01/24 19:33
52F:→ jacktypetlan: NV至少1/4膝蓋斬 歐印放空 台股一萬二見 01/24 19:33
53F:推 kotorichan : 美國再挖角或制裁 就好 01/24 19:34
54F:推 bella1815 : 看到某族群自嗨的樣子就覺得好笑 01/24 19:34
55F:推 INIKS : 美國創意,中國實作,中美如果真正合作,早就登陸火 01/24 19:34
56F:→ INIKS : 星了,可惜國家這個沒用的概念依然存在,地球村遙遙 01/24 19:34
57F:→ INIKS : 無期 01/24 19:34
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:39:47
58F:→ ImHoluCan : 當初嘴台積電,也大力挖台積電的大將,對啊晶圓廠 01/24 19:34
59F:→ ImHoluCan : 可以生產啊,但真的能ㄧ直突破? 01/24 19:34
60F:推 ck326 : 開源又怎樣?笑死 01/24 19:35
61F:推 poeoe : 開源就是全世界的人都能直接驗證 這也不是中國自己 01/24 19:35
62F:→ poeoe : 在吹啦 01/24 19:35
63F:推 z23061542 : OK收到 以放空美台股 大力ALL IN鹿谷 01/24 19:35
64F:→ asjh612 : 開源又怎樣 原po也沒覺得他贏openai啊 01/24 19:35
65F:→ ImHoluCan : 詐騙集團,當然不能犯低接錯誤,你能看到的當然要 01/24 19:36
66F:→ ImHoluCan : 給你看你想看的 01/24 19:36
67F:推 kotorichan : 沒三小路用 中國直接武統是最有用的 01/24 19:36
68F:→ asjh612 : 自爽又贏 跟 開源 哪門子關係? 01/24 19:37
69F:→ ImHoluCan : 笑死中國要是真的能搞出來,當初中芯肯定能搞出來 01/24 19:37
70F:→ asjh612 : 每個llm都在吹自己很強 實際體驗就是那死樣子 01/24 19:37
71F:→ a12838910 : 中國軟體很強啊 抖音 小紅書 台灣? 01/24 19:38
72F:推 andy810306 : 台灣給那狗屎薪資想要找誰寫軟體?笑死 01/24 19:38
73F:→ aloness : 這本來就是 在等待程式架構進化,縮減算力 01/24 19:39
74F:推 jasonfun44 : 老早都去AWSGCP租就好,做LLM跟本不會賺錢 01/24 19:39
75F:→ aloness : 舊的程式架構自然需要突破天際的算力 01/24 19:39
76F:推 ImHoluCan : 對岸是小米蘇7保時捷,然後吹說你開保時捷嗎? 01/24 19:39
77F:推 ck326 : 台灣軟體很爛啊,應該說台灣沒有軟體,所以呢? 01/24 19:40
78F:推 Dix123 : 簡單來說 AI的這個嶄新的領域配上開源 本來就很容易 01/24 19:40
79F:→ Dix123 : 做出超強的突破了 不一定是中國 美國隨時也會趕上 01/24 19:40
80F:→ jasonfun44 : 馬斯克也是吹 01/24 19:40
81F:推 poeoe : 這其實也是好事 如果能讓需要的算力降低 那能省很多 01/24 19:40
82F:→ poeoe : 電 01/24 19:40
83F:→ Dix123 : 你遙想個人電腦和網路剛開始的時候 駭客橫行的時候 01/24 19:40
84F:推 bj45566 : 股板無腦中黑:不管啦,中國只會抄襲而已而已啦,一 01/24 19:40
85F:→ bj45566 : 定是偷美國的!原始碼都公開在網上了?不可能!看得 01/24 19:40
86F:→ bj45566 : 到的人一定是眼睛孽障太重,我什麼都看不到!(嘶喊) 01/24 19:40
87F:→ aloness : 中國軟體工程師戰力本來就不差 01/24 19:40
88F:→ Dix123 : 當你還在用數據機玩天堂的時候 可能想過幾年後馬上 01/24 19:41
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:45:10
89F:→ ImHoluCan : 對岸很多都是抄美國,卡卡西董嗎? 小米蘇7吹成保 01/24 19:41
90F:→ ImHoluCan : 時捷 01/24 19:41
91F:→ Dix123 : 變月租吃到飽? 01/24 19:41
92F:推 ixiuxiudan : 別急 01/24 19:41
93F:→ asjh612 : 怎會熱血親中的人在高潮啊 01/24 19:42
94F:→ ImHoluCan : 對岸只會卡卡西,但真的有那個創意與技術? 接下來 01/24 19:42
95F:→ ImHoluCan : 真的能持續? 01/24 19:42
96F:推 s90002442 : 完蛋 今天股價砍爛 01/24 19:42
97F:→ kevinmeng2 : 拿meta這垃圾比較就好像拿intel跟台積電比 01/24 19:42
98F:→ peter98 : META再裁個15%工程師吧 01/24 19:44
99F:推 jinx5566 : 突破AI臨界點了? 01/24 19:44
100F:噓 raymonde : ai 是不是關門放狗 01/24 19:45
101F:→ aaa95308 : 樓上把軟體跟半導體製造放在一起比較的...好喔 01/24 19:48
102F:推 bj45566 : 說 Meta 是廢物的好像完全不知道 Meta 在 AI 開源碼 01/24 19:48
103F:→ bj45566 : 界是抗霸子 wwww 而且 DS 贏的也不只是 Meta Llama 01/24 19:48
104F:推 t0314796 : 報告 所以會影響到什麼?想抄答案! 01/24 19:48
105F:推 jiansu : 這個成果是中國其他公司都震驚吧 開源很好 科技不 01/24 19:49
106F:→ jiansu : 應該分國界 競爭也不分你我 生死看淡 不服就幹 01/24 19:49
107F:噓 ken123321987: 美國狗下棋輸人就翻桌 等中國強起來一定算帳 01/24 19:49
108F:推 BIGETC : 一個專案五千萬能弄 五百萬常常也可以 科科 01/24 19:50
109F:→ asjh612 : 不過仔細想想 這篇股點是什麼? meta利空? 01/24 19:50
110F:→ BIGETC : 不過五千萬弄大家都會很舒服 何必真的編五百 01/24 19:50
111F:推 djbell : 繼續裁員 01/24 19:51
112F:推 boy1031 : 鋼鐵家電手機電車都能卷翻,美歐日,憑什麼AI不能 01/24 19:51
113F:→ boy1031 : 卷,至少也要分走3成市場 01/24 19:51
114F:推 amethystboy : 便宜治百病 01/24 19:54
115F:→ asjh612 : 還是這篇是台積nv利空 大家不需要那麼多運算資源? 01/24 19:55
116F:推 super0949 : Meta股價毫無反應 01/24 19:55
117F:→ keyneslan : 這樣如何對股東與投資機構交代 01/24 19:55
118F:→ CYL009 : 用低階顯卡AI性能就能和用高階的比了 反正美國錢很 01/24 19:55
119F:→ CYL009 : 多 嘻嘻 01/24 19:55
120F:→ pieceioriX : 為何高低成本的方案不能共存? 01/24 19:56
121F:推 oldEn15 : 產能過剩要來了 啾咪 01/24 19:56
122F:推 s1612316 : 五千億鎂 有多少會進口袋 01/24 19:56
123F:推 bj45566 : DeepSeek 最大的影響就是證明中國能用不到 1/10 的 01/24 19:56
124F:→ bj45566 : 預算和更少、更便宜低階的 AI 晶片達成甚至超越美 01/24 19:56
125F:→ bj45566 : 國頂尖 AI 公司(s)狂開資源做出的大語言模型效能 01/24 19:56
126F:推 ggbi4zzz : 中國黑開始胡言亂語 01/24 19:56
127F:→ CYL009 : 現在深度探索全部開源給你 誰還要用高價裝備操作AI 01/24 19:57
128F:→ CYL009 : 嘻嘻 01/24 19:57
129F:→ CYL009 : 最近這幾天美國科技業真的瘋了 一直再找出為什麼可 01/24 19:58
130F:→ CYL009 : 以這麼便宜成本弄出來ww 01/24 19:58
131F:推 eriker : 我怎麼看起來再說deepseek造假 01/24 19:58
132F:推 uller : 中國黑科技 猛了 01/24 19:58
133F:→ eriker : meta試著用h100訓練了15個開源的deepseek結果數據都 01/24 19:59
134F:→ eriker : 不如paper宣稱的 01/24 19:59
135F:→ shorty5566 : 既然都開源了接下來就看能不能照刻出來啊 現在吹這 01/24 20:01
136F:→ shorty5566 : 麼早都不怕跟之前超導體一樣翻車嗎? 01/24 20:01
137F:→ eriker : 這根本就是沒辦法reproduce吧 meta工程師拿你程式碼 01/24 20:01
138F:→ eriker : 訓練這麼多次都拿不到你的結果 01/24 20:01
139F:噓 qazwsx0128 : 笑死,就算成本降低需求只會更多,直到人手一個客 01/24 20:01
140F:→ qazwsx0128 : 製ai 01/24 20:01
141F:推 dongdong0405: 哈哈哈中國進來卷 01/24 20:02
142F:→ eriker : 那正常人用更爛的gpu或是deepseek宣稱的h800不是也 01/24 20:03
143F:→ eriker : 不辦法訓練出來嗎 01/24 20:03
144F:推 bj45566 : 拿 AI 比高階晶圓製造的真的笑死!中國在 AI 領域一 01/24 20:03
145F:→ bj45566 : 直都能和美國爭霸,中國在 AI 頂尖會議的論文發表和 01/24 20:03
146F:推 ck326 : 看起來是 nvda ,tsm 股價準備崩潰,什麼你說市場沒 01/24 20:03
147F:→ ck326 : 反應?怎麼會? 01/24 20:03
148F:→ bj45566 : 美國一直都是互有領先(之前中國 AI 強在 CV, PR, 01/24 20:03
149F:→ bj45566 : 美國強在 LLM, NLP -- 但現在看起來美國的強項不太 01/24 20:03
150F:→ bj45566 : 妙) 01/24 20:03
151F:→ eriker : 中國不意外 只能騙騙外行人 01/24 20:03
152F:推 kingofsdtw : 果然演算法是最重要的 01/24 20:04
153F:推 shorty5566 : 而且看不懂為啥對nv是利空 如果是真的那那些csp用 01/24 20:04
154F:→ shorty5566 : 現在已有的算力不是更猛 需求只會更多吧 發展越快 01/24 20:04
155F:→ shorty5566 : 越好 01/24 20:04
156F:→ eriker : 之前就懶得認真看deepseek 結果一看根本在騙白癡 01/24 20:05
157F:→ appledick : 這讓我想到智慧型手機android平台 一開始的硬體不 01/24 20:06
158F:→ appledick : 夠強 真的是要靠各家用軟體調效來拼順暢度 01/24 20:06
159F:噓 squeakywheel: 就是美國抄襲中國啦 某族群最愛嘴的 01/24 20:06
160F:→ appledick : 後來硬體強到靠北 軟體就不用調效了 硬體隨便淦都爆 01/24 20:06
161F:→ appledick : 淦順 01/24 20:06
162F:推 bj45566 : 無腦中黑已經進入催眠自己的最高境界了 wwww wwww 01/24 20:06
163F:推 eriker : 中國人應該沒想到這次翻船 meta真的拿他的h100檢查d 01/24 20:08
164F:→ eriker : eepseek造假 01/24 20:08
165F:推 ilGroundhog : 搜尋一了一下DS在寫作編碼不如GPT但是推理媲美 01/24 20:08
166F:→ asjh612 : 超越美國製造的llm言之過早吧 每個新的出來都說贏 01/24 20:09
167F:推 bj45566 : 最近 AI 界最大的醜聞反而是 OpenAI o3 涉嫌在數學 01/24 20:09
168F:→ bj45566 : 能力測驗上作弊喔,嘻嘻 01/24 20:09
169F:→ ilGroundhog : 重點是訓練便宜如果大規模訓練確實可能會顛覆AI市場 01/24 20:09
170F:→ eriker : 通常中國人ai論文喜歡造假說超越sota 但畢竟沒人會 01/24 20:10
171F:→ eriker : 這樣會浪費一堆算力證明造假 01/24 20:10
172F:→ ilGroundhog : 如果可以便宜泛用的話對NV就不是好消息 01/24 20:10
173F:→ asjh612 : 然後講中國ai paper 之前就聽過中國的有些是吹的 01/24 20:10
174F:推 joygo : 正在用 只能說 好用 01/24 20:11
175F:推 koll : 那麼厲害何必害怕晶片制裁狂拉貨?用爛晶片就好 01/24 20:11
176F:→ asjh612 : 講別人無腦黑中 自己才無腦親中 笑死 01/24 20:11
177F:推 mcgrady12336: 未來AI就中美有量能切入啊 01/24 20:11
178F:→ eriker : 但這次被meta抓到deepseek造假 好慘 01/24 20:12
179F:→ joygo : 最近剛好在玩google 的和這隻 互相 01/24 20:12
180F:推 andy810306 : 某樓是不是在酸所有IC設計啊,應該用7奈米就好啊, 01/24 20:12
181F:→ andy810306 : 一直想推先進製程幹嘛XDDD 01/24 20:12
182F:→ JoeyChen : 歸結是成本的問題對吧? 01/24 20:13
183F:→ andy810306 : 是不是廢到只能靠製程來掩蓋廢物設計能力啊 01/24 20:13
184F:→ eriker : 不過我猜之後這種文會繼續洗 反正普通人也不懂ai 01/24 20:13
185F:→ b9513227 : 你們慢慢吵 哥買tsm nv等看戲 01/24 20:13
186F:推 bj45566 : 科技界名人包括 UC Berkeley 的 AI 教授都幫 DeepSe 01/24 20:13
187F:→ bj45566 : ek 背書說它是 AI 的 "breakthrough" 了,股板鍵盤 01/24 20:13
188F:→ bj45566 : 俠覺得自己比那些專家還懂 wwww wwww 01/24 20:13
189F:推 s213092921 : Deepseek用閹割版H800就能做到, 01/24 20:13
190F:推 shiowshay : 真的超強,只是不知道為什麼他無法回答我1989年6月4 01/24 20:14
191F:→ shiowshay : 日有什麼歷史事件 01/24 20:14
192F:→ asjh612 : nlp更好吹sota 反正自製dataset 別人亂做 自己認真 01/24 20:14
193F:推 asdf70114 : 終於要遙遙領先了 01/24 20:14
194F:→ appledick : 中黑病發作 01/24 20:14
195F:推 SunRoy : 英偉達的股價下跌 我就信 01/24 20:14
196F:推 joygo : 谷歌的很爛 問股票問題不敢回答 chatgpt比較大膽 01/24 20:14
197F:→ appledick : 哥布林不要只會網上酸 拿出東西比較有意義 01/24 20:15
198F:→ eriker : 怎麼不敢回答meta訓練15次 開源的deepseek結果數據 01/24 20:15
199F:→ eriker : 不如paper宣稱的? 01/24 20:15
200F:推 sid3 : 有競爭是好事 今年韓媒也有新聞 01/24 20:15
201F:→ asjh612 : 教授也會被騙啊 笑死 以為教授多懂 早就沒在做實驗 01/24 20:16
202F:→ b9513227 : 我快笑死 問中國最新jdk版本是啥 跟我說17 01/24 20:16
203F:→ eriker : 這不是造假不然是什麼 01/24 20:16
204F:→ asjh612 : 是不是沒讀過研究所阿 還吹教授 01/24 20:17
205F:推 Gipmydanger : 中國贏麻了,只好加大禁令了 01/24 20:17
207F:推 ilGroundhog : 對台積應該沒很大的影響就算少了輝達的訂單還有其他 01/24 20:18
208F:推 bj45566 : 是啦,中國發表在 AI 論文都是吹的、假的!要隨論 01/24 20:18
209F:→ bj45566 : 文附上的原始碼也都是假的!那些全世界 AI 專家組 01/24 20:18
210F:→ bj45566 : 成的審稿 TPC 都是一群白癡廢物,怎麼可能比股板鍵 01/24 20:18
211F:→ bj45566 : 盤俠更懂 AI 是吧? wwww 01/24 20:18
212F:→ eriker : 還是meta工程師都廢物 有一堆h100 還訓練不好deepse 01/24 20:18
213F:→ eriker : ek 01/24 20:18
214F:推 andy810306 : 某樓自己能力差讀水貨研究所找廢物教授,以為美國 01/24 20:19
215F:→ andy810306 : 教授跟你教授一樣廢,●●比雞腿,真的笑死 01/24 20:19
216F:推 tomatobus : 教授審論文不會去嘗試reproduce吧,除非他叫底下的 01/24 20:20
217F:→ tomatobus : 博士生去試 01/24 20:20
218F:推 sa87a16 : 12億人口免費的運算怎麼輸 01/24 20:20
219F:推 ilGroundhog : DS的初始模型是META的模型只是變得更有效率 01/24 20:20
220F:推 bj45566 : 反正股板的無腦中黑覺得自己比所有業界、學界的知名 01/24 20:21
221F:→ bj45566 : 專家都還要懂 AI wwww wwww 01/24 20:21
222F:推 eriker : 更好笑的是pytorch就meta的 開源還要比三小 01/24 20:21
223F:→ tomatobus : 如果meta工程師無法reproduce,那可能真的有什麼貓 01/24 20:21
224F:→ tomatobus : 膩。企業一定是最緊張的 01/24 20:21
225F:→ asjh612 : 笑死 開始嘴別人教授喔 實際上就是這樣啦 國外也是 01/24 20:21
226F:→ asjh612 : AI paper一堆 真的沒人有空一篇一篇跟你對 01/24 20:22
228F:→ s213092921 : 預言了 01/24 20:23
229F:推 bj45566 : 頂尖會議那些學界業界最知名的專家的審稿委員當然會 01/24 20:24
230F:→ bj45566 : 試跑隨論文附上的原始碼啊 -- 萬一原始碼有錯只有你 01/24 20:24
231F:→ bj45566 : 抓不出來,你直接名聲掃地好嗎 01/24 20:24
232F:推 ilGroundhog : 如果成功還是需要訓練模型 只是算力降低很多 01/24 20:24
233F:→ s213092921 : 2千多塊閹割版的H800只要訓練兩個月就超越Meta chat 01/24 20:24
234F:→ s213092921 : GPT,美國可憐啊 01/24 20:24
235F:推 eriker : 中國在paper也喜歡造假硬體 明明用h100還說自己用h8 01/24 20:25
236F:→ eriker : 00或是3080 01/24 20:25
哥
我沒有看到任何所謂Meta工程師沒辦法reproduce的資料來源@@
可以請你提供一下嗎
237F:推 bj45566 : 美國一流大學教授就算是五六十歲都還在自己做研究、 01/24 20:26
238F:→ bj45566 : 寫程式,井底之蛙覺得自己比 UC Berkeley 教授還厲 01/24 20:26
239F:→ bj45566 : 害,哈哈哈哈 01/24 20:26
240F:推 lepidoptera : 便宜很好啊 大家股價修正一下 重新開始 01/24 20:27
241F:推 ntr203 : nv有什麼好怕的,越強的晶片不就代表可能做出越強 01/24 20:27
242F:→ ntr203 : 的ai 01/24 20:27
243F:→ appledick : 反觀台灣在AI運算這一塊484完全沒了 01/24 20:28
AI製造供應鏈台灣應該還是掌握得牢牢的
AI模型目前看起來是真的沒料
幾乎都是拿別人的成果fine-tune、扶不上牆
244F:→ appledick : NV沒啥好怕啊 軟體寫的好跟硬體強又不抵觸 01/24 20:28
245F:→ shorty5566 : 真的 看不太懂對nv利空在哪 用現在最強的nv去算不 01/24 20:29
246F:→ shorty5566 : 是更好更令人興奮嗎 而且入門門檻降低對整個ai發展 01/24 20:29
247F:→ shorty5566 : 都是好事 集中在幾個大型csp才不好 01/24 20:29
249F:→ s213092921 : 版的H800顯卡,中黑趕快面對現實吧 01/24 20:29
這紅媒吧?
251F:推 lon0623 : 台灣人力有限,與其發展AI運算,倒不如找應用端 01/24 20:30
252F:推 bj45566 : 無腦中黑已經無所不用其極在催眠自己一切都是假的 w 01/24 20:30
253F:→ bj45566 : www pathetic SORE losers !!! 01/24 20:30
254F:→ appledick : 中國一堆都是去拿Mac mini來跑meta的模型 便宜又可 01/24 20:31
255F:→ appledick : 以玩 01/24 20:31
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 20:32:09
256F:推 h0103661 : 這完全開源,是假的早就被抓了吧 01/24 20:31
257F:→ s213092921 : 中國用2048張閹割版H800顯卡訓練兩個月就能超車Meta 01/24 20:31
258F:→ s213092921 : 及GPT,誰要花大錢買一堆NV最新顯卡? 01/24 20:31
259F:→ lon0623 : 不覺得台灣的做法有什麼錯誤,又不是有上億人口 01/24 20:31
260F:→ h0103661 : 還是要先跟研究生解釋什麼叫開源 01/24 20:31
261F:推 eriker : 你這篇的Lisan al …他說的就是這個意思 01/24 20:32
262F:→ shorty5566 : 反過來說你用nv最強的顯卡去跑不是能進步得更快嗎 01/24 20:32
263F:→ shorty5566 : ?還是你覺得ai的發展已經到盡頭了? 01/24 20:32
264F:→ eriker : 他不是說meta訓練了15次deepseek v3結果還是比他們 01/24 20:33
https://i.imgur.com/mJn5POl.png
尷尬
他在說Meta用LLAMA 3的訓練成本可以訓練DeepSeek-V3 15次
much better model
這大概國中英文
要不是你語言能力有缺陷
就是真的很純的中黑
265F:→ eriker : 宣稱的差嗎 01/24 20:33
266F:噓 ggian123 : Don’t look up 大陸人還生活在水深火熱 01/24 20:33
267F:→ shorty5566 : 挫勒蛋的絕對是那些開發模型的公司吧 01/24 20:33
268F:推 lon0623 : 你覺得你想得到的NV想不到嗎? 01/24 20:33
269F:→ lon0623 : NV有他厲害的地方,不是只有算力 01/24 20:34
270F:推 chanceiam : 連繁體中文都不能回答的模型 01/24 20:34
271F:→ eriker : 所以meta驗證了deepseek放出來的程式碼跟模型 發現 01/24 20:34
272F:→ eriker : 他們造假 01/24 20:34
273F:→ eriker : …. 建議你看英文 01/24 20:34
是你的英文能力有缺陷。
我建議你別搞笑了
這真的在扯中黑的腿
274F:→ jjjj222 : 高鐵, 六代機, 核融合, LLM, 每天吹, 吹完就沒了 01/24 20:35
275F:推 scitamehtam : deepseek我有用,真的蠻好用的 01/24 20:35
276F:→ shorty5566 : 開發模型的公司即將進入紅海 倒是nv只怕大家都改用 01/24 20:35
277F:→ shorty5566 : asic,但是門檻降低以後小型玩家可以進場,那些小 01/24 20:35
278F:→ shorty5566 : 型玩家也沒能力調教asic 還是要跟nv買通用gpu 01/24 20:35
279F:→ jjjj222 : 功能也就是騙騙白痴.. 特別是中國白痴 01/24 20:36
280F:推 ilw4e : 就跟當初阿法狗一樣啊,deepmind搞出來後面一堆圍 01/24 20:36
281F:→ ilw4e : 棋AI小模型一下全出來了。純軟體你只是靠暴力解算力 01/24 20:36
282F:→ ilw4e : 堆,人家自然有優化後的更好解法,沒看openai也在回 01/24 20:36
283F:→ ilw4e : 頭做優化跟即時的深度運算 01/24 20:36
284F:→ scitamehtam : 我兩種都下載,都有用,後來都用deepseek 01/24 20:36
285F:推 eriker : 開始抹中黑了? 01/24 20:38
連國中英文都不會
還想在這邊大談
還嗆我去讀英文原文
中黑搞不好都不承認你是隊友
如果你是中黑這會顯得除了無腦黑中國沒有什麽思辨能力=.=
286F:推 kotorichan : 他能改用中芯晶片訓練更好 01/24 20:38
287F:推 tsubasawolfy: 不然老黃幹嘛賣那台掌中型的AI機 01/24 20:39
288F:→ CLinna : 國人捲出來的AI要打倒喝下午茶的工程師了嗎 01/24 20:39
289F:推 poeoe : 那個英文很明顯在說15倍啦…… 01/24 20:39
290F:推 s0920151048 : 這不能說中國好話 01/24 20:39
292F:推 eriker : 造假就造假還在那護航 01/24 20:40
293F:推 ilw4e : 好像很多人誤以為AI是哪家先搞出AGI就贏了,現實是 01/24 20:40
294F:→ ilw4e : 就算搞出以後所有人知道該怎麼做很快就會用自己的 01/24 20:40
295F:→ ilw4e : 方法一樣能跟上,效率更好成本更低 01/24 20:40
296F:→ tsubasawolfy: 另外推特翻譯那個GOOGLE翻得沒錯 01/24 20:40
297F:→ shorty5566 : 他訓練還是要基於nv的gpu 用中芯的怎麼訓練 01/24 20:40
298F:推 tomatobus : 笑了,原來尼的出處是那,還以為尼有什麼meta內部的 01/24 20:40
299F:→ tomatobus : 消息 01/24 20:40
300F:→ tsubasawolfy: 我覺得這比較像吹很久的edge AI踏出第一步 01/24 20:41
302F:→ eriker : 那你抹中黑是怎麼回事? 01/24 20:41
303F:→ appledick : 好啦 假的啦 造假啦 中黑贏了 可以吧 01/24 20:41
那個英文能力在這邊大談
強烈建議看看eriker的推文真的超好笑
304F:→ eriker : 這樣是ok的 我都在講deepseek 01/24 20:42
305F:推 bj45566 : 無腦中黑在眾人面前證實了自己連簡單的英文都看不 01/24 20:42
306F:→ bj45566 : 懂胡扯亂翻譯,嘻嘻 wwww wwww 01/24 20:42
307F:推 poeoe : Meta訓練的預算拿來訓練Deepseek 都至少能訓練15次 01/24 20:42
308F:→ poeoe : 了 01/24 20:42
309F:→ tonyshan : 簡體的可以SKIP了 01/24 20:42
310F:推 good5755 : 關鍵字:開源程式碼 01/24 20:42
311F:→ appledick : meta 484太多冗員了啊 01/24 20:43
312F:推 Fegnzi : 那些反智的人看不懂開源是什麼沒辦法,逢中就反真的 01/24 20:43
313F:→ Fegnzi : 沒救 01/24 20:43
314F:→ eriker : 所以質疑deepseek造假就是中黑? 01/24 20:43
可以質疑的
不過哥你的行為真的相當反智
跟中國人民說祖國疫苗No1差不多 只是顏色不一樣而已
都是避著眼睛只相信自己相信的
315F:噓 distantblc : 急了 01/24 20:44
316F:→ eriker : 只會做人身攻擊 01/24 20:44
317F:推 scitamehtam : 質疑? 不是不行吧,要合邏輯… 01/24 20:44
318F:→ eriker : 你在繼續 01/24 20:44
319F:→ scitamehtam : 不然不就變成抹屎? 01/24 20:45
320F:推 littenVenus : 這次中國真的會贏2次喔 01/24 20:45
321F:→ appledick : deepseek如果不是中國研究我覺得你應該就不會質疑了 01/24 20:45
322F:→ VicLien : 中國的天賦點在紅海化 厲害了 01/24 20:45
323F:推 bj45566 : 胡扯亂翻譯人家公開的英文說明(而且是用很簡單的英 01/24 20:46
324F:→ bj45566 : 文)說是無腦都還太客氣了好嗎? wwww wwww 01/24 20:46
325F:→ appledick : 中國某些地方真的就是強啊 當然某些地方是不敢恭維 01/24 20:46
326F:→ scitamehtam : 先玩過再說..,我兩套都玩過,deepseek真的不錯 01/24 20:46
327F:→ eriker : 如果deepseek不是中國的還會這樣罵人嗎? 01/24 20:46
328F:→ scitamehtam : 小心釣魚,看他自己表演就好,建議啦 01/24 20:47
329F:→ scitamehtam : 沒邏輯的講話最大聲 01/24 20:47
330F:→ eriker : 我沒差 反正我不會罵人 我只評論deepseek 01/24 20:48
331F:→ scitamehtam : 最近這版衛兵執勤很認真,桶了幾波了,自己小心 01/24 20:48
332F:推 epephanylo : (看戲 01/24 20:48
333F:→ eriker : 反倒是某些人小心 01/24 20:48
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 20:49:43
334F:推 bj45566 : 評論?胡亂翻譯人家的英文也敢叫做評論?笑死人有 01/24 20:49
335F:→ bj45566 : 夠好笑 wwwww 01/24 20:49
336F:噓 Kazetachinu : 一堆ai大老都中國人 哪天超車都不意外 軟體這種東西 01/24 20:50
337F:→ Kazetachinu : 限制沒有硬體這麼多 01/24 20:50
338F:→ asjh612 : 不過這篇推文這麼火熱 沒半個人貼實例對話XDD 01/24 20:50
339F:→ brella : 垃圾新聞 01/24 20:50
340F:→ asjh612 : 之前gpt在紅的時候 還有gpt幫忙回應的截圖 01/24 20:50
341F:→ asjh612 : 覺得好的 可不可以務實點 去玩幾個例子貼來看看 01/24 20:51
342F:推 yueayase : 大驚小怪,這種前沿的技術,本來就是湖鄉合作,及互 01/24 20:51
343F:→ yueayase : 相競爭的 01/24 20:51
344F:→ asjh612 : 讓我見識見識哪些是你們覺得好 哪些是回應差的 01/24 20:51
346F:推 duriamon : deepseek有手機app啊!自己下載來用用看不就知道了 01/24 20:52
347F:→ duriamon : ?用email就可以註冊了。 01/24 20:52
348F:→ yueayase : 湖鄉=>互相 01/24 20:52
349F:→ scitamehtam : 剛好今天才在用.. 01/24 20:52
350F:→ scitamehtam : 反倒是批評的?…. 01/24 20:52
351F:→ holebro : 中國軟體強度上下限差很大 遇過一堆中國客戶連用AI 01/24 20:53
352F:→ holebro : 幫忙寫sql寫shell script寫yaml都不會= = 01/24 20:53
353F:→ scitamehtam : 我兩套都常用啦,我自己112csie,也有研究ai主題 01/24 20:53
354F:推 kakiandkaka : 笑翻,被反向 01/24 20:53
355F:→ duriamon : 樓上可以要他用正體中文回答。 01/24 20:53
358F:→ scitamehtam : 倒是爬蟲後,發現一堆嘴的頭頭是道,結果背景令人 01/24 20:53
359F:→ scitamehtam : 驚訝XDDD 01/24 20:53
360F:推 ezreal1315 : 這就是第一個開頭的和跟班的差距啊 第一個一定要砸 01/24 20:54
361F:→ ezreal1315 : 大錢開發 後面的當然可以降低成本 01/24 20:54
362F:→ asjh612 : 就是不想註冊阿... 試想會黑的怎會想用 01/24 20:54
363F:→ scitamehtam : 沒用過說的好像很熟一樣XDD 實事求是XDD 01/24 20:55
364F:→ ezreal1315 : 哪個行業不是這樣 開拓者都是要付出最多的 01/24 20:55
365F:推 s213092921 : 問題是開拓者能否一直保持領先優勢,看看Nokia跟Mot 01/24 20:56
366F:→ scitamehtam : 所以我說,爬蟲後的心得,就是推文自己小心,最近審 01/24 20:56
367F:→ scitamehtam : 查異己言論很勤勞的 01/24 20:56
368F:→ s213092921 : o蘿拉的下場 01/24 20:56
370F:推 NCUking : DeepSeek是猛在CP值超級高 01/24 20:56
371F:推 TIPPK : 台灣軟體公司好少 01/24 20:56
372F:推 bj45566 : 連註冊都沒有就拼命在黑? wwww 人家台大資工親自 01/24 20:57
373F:→ bj45566 : 試用還截圖給你耶 01/24 20:57
374F:→ NCUking : OpenAI 目前還是領頭羊沒問題 01/24 20:57
375F:噓 zebra101 : 笑死,人家明明在說META用了15倍的預算,更好的GPU 01/24 20:57
376F:推 guanting886 : 我覺得一般用戶蠻鼓勵開發團隊都跳進甕被練蠱 01/24 20:57
377F:→ zebra101 : ,卻訓練出了比DS更差的模型,英文到底怎麼讀的,co 01/24 20:57
378F:→ zebra101 : uld have看不懂嗎? 01/24 20:57
379F:→ NCUking : 台灣搞LLM只能玩微調套皮 01/24 20:57
380F:推 ezreal1315 : 所以說 買大盤真安心啊 20年前市值前10公司跟現在 01/24 20:57
381F:→ ezreal1315 : 比已經大洗盤 01/24 20:57
382F:→ deangogi : 所以上面eriker說的meta復現準確度 有原文嗎? 01/24 20:58
383F:推 scitamehtam : 我平常兩個都在玩啊,我沒說chatgpt不好吧? 01/24 20:58
384F:推 duriamon : AI領域大陸那邊跟美國的差距本來就不大,有在關心AI 01/24 20:58
385F:→ duriamon : 相關研究的大概都知道在說什麼,尤其中文大語言模型 01/24 20:58
386F:→ duriamon : 就唯一只有大陸那邊的能打,反觀台灣研發的真的很爛 01/24 20:58
387F:→ duriamon : ,呵呵! 01/24 20:58
388F:推 eriker : 沒有 嘻嘻 01/24 20:58
389F:推 symeng : 暫時觀望 01/24 20:59
390F:→ asjh612 : 你問他llm吹很厲害的 有多少在搞啊 誰有空每個都試 01/24 20:59
391F:推 ezreal1315 : 我覺得不用太緊張啦 人家用H800真的能超越openai 01/24 20:59
392F:→ deangogi : 你說的如果是原po貼的那段翻譯 應該是你翻譯的問題 01/24 20:59
393F:→ ezreal1315 : 我相信股價早就被灌下來灌爛了 那些大戶一定第一 01/24 20:59
394F:→ ezreal1315 : 個跑的 01/24 20:59
395F:噓 zebra101 : 那個eriker連最基本的英文都讀不懂 01/24 20:59
396F:推 aac219oo : 我看有很多人都不知道自己用的網站是用vue3寫的 01/24 20:59
397F:推 w300204 : costdown誰的比得過華人 01/24 21:00
398F:推 NCUking : 中國軟體實力本來就是天下第二了 01/24 21:00
400F:→ abc21086999 : 中國特色社會主義式的AI 01/24 21:00
401F:→ ezreal1315 : 或者是就算如此 巨頭也不會降低支出 怕被同行超越 01/24 21:01
402F:推 Samurai : 先不說是不是真的,但逢中必反那個鳥樣,酸別人砸 01/24 21:01
403F:→ Samurai : 錢研發有夠莫名其妙 01/24 21:01
404F:→ asjh612 : copilot claude gemini gpt llmam 每個新出的都sota 01/24 21:01
405F:推 duriamon : 還有人以為是costdown啊?不虧是台灣代工老舊代工思 01/24 21:01
406F:→ duriamon : 維,那些發展AI的人才經費花費成本真算下來哪裡cost 01/24 21:01
407F:→ duriamon : down了? 01/24 21:01
408F:→ abc21086999 : Gemini thinking 答的就沒問題 01/24 21:02
410F:噓 gstym : 中國晶片都可以去買別人的晶片來磨改名字了== 01/24 21:02
411F:推 scitamehtam : 說真的chatgpt也能回答這題XDD 01/24 21:02
412F:→ asjh612 : 搞不懂別人的問題點 還在以為我在黑中國 01/24 21:03
413F:→ duriamon : 台灣的老問題上次已經講過了,目前全世界先進的未來 01/24 21:03
414F:→ duriamon : 科技領域除了「我們有台積電」之外每一個能打的。 01/24 21:03
415F:→ scitamehtam : 但好笑的是,拿這題當評斷AI的標準XDD 01/24 21:03
416F:→ asjh612 : 問題是 現在每個llm都吹自己最強 當我是llm測試員哦 01/24 21:03
417F:→ scitamehtam : 很顯然不是理工人吧XD 01/24 21:03
418F:→ Mytsb2421 : 美國變成copy cat 01/24 21:04
419F:推 iaminnocent : deepseek不採用預標數據集(也就是先由人類標記數 01/24 21:04
420F:→ iaminnocent : 據再給模型訓練)而是直接採用強化學習,自己訓練 01/24 21:04
421F:→ iaminnocent : 自己,並且透過他們的局部Token啟動機制,可以減少 01/24 21:04
422F:→ iaminnocent : 使用量,這也是為什麼Deepseek能夠大幅降低訓練成 01/24 21:04
423F:→ iaminnocent : 本的原因,不確定OpenAi 或是其他AI模型,為什麼沒 01/24 21:04
424F:→ iaminnocent : 有進行強化學習 01/24 21:04
425F:→ scitamehtam : 所以才說,爬蟲後,再看一次推文會很有趣啊XD 另, 01/24 21:04
426F:→ scitamehtam : 你知道ptt主機放哪?XD 01/24 21:04
427F:推 Samurai : 意識形態死腦筋沒救,拿六四事件當評斷AI標準XD 01/24 21:04
429F:推 s213092921 : 因為美國只相信大力出奇蹟那套,砸錢砸算力 01/24 21:05
430F:推 Lenney33 : 成本更低 美國科技巨頭情何以堪 01/24 21:05
431F:→ iaminnocent : 但是這確實是對AI界投下震撼彈吧,不過OpenAI改用 01/24 21:05
432F:→ iaminnocent : 自主強化學習,不知道是否可以 01/24 21:05
433F:噓 abc21086999 : 理工人又在打手槍自慰啊 01/24 21:06
434F:→ abc21086999 : 會審查訊息的AI就算在某方面超越其他人也是不可能 01/24 21:06
435F:→ abc21086999 : 普吉的 01/24 21:06
436F:→ abc21086999 : *普及 01/24 21:06
437F:推 tw77769 : 阿姨的機會來了 01/24 21:06
438F:→ iaminnocent : DEEPSEEK 的數據集也許確實有部份來自ChatGPT,但 01/24 21:07
439F:→ iaminnocent : 這並不影響他確實是一個蠻厲害的模型 01/24 21:07
440F:推 bj45566 : 又有人硬要扯到晶片了。公開的論文告訴你實驗環境、 01/24 21:07
441F:→ bj45566 : 算法流程、效能評比;原始碼放在大家都可以下載的 G 01/24 21:07
442F:→ bj45566 : itHub 上,這要怎麼作弊??? 01/24 21:07
443F:推 scitamehtam : 就事論事,如果你說會不會普及,那就另外一題了, 01/24 21:07
444F:→ scitamehtam : 請另闢蹊徑吧 01/24 21:07
445F:推 a558815 : Deepseek 是真的有些東西啊 01/24 21:07
446F:推 tsubasawolfy: OPENAI的O3就是RL壓 聖誕節前的13天倒數也有RL出現 01/24 21:08
447F:→ tsubasawolfy: O3就是O1 RL來的 省去訓練成本 01/24 21:08
448F:推 ggbi4zzz : 美國人都害怕被中國ai超越,還有中國黑認為是在吹 01/24 21:09
449F:→ ggbi4zzz : 牛逼而已 01/24 21:09
450F:推 minazukimaya: 還好它開源 同樣的演算法創新讓資源更多的美國科技 01/24 21:09
451F:→ minazukimaya: 巨頭來用 以他們握有的訓練資源能產出更驚人的結果 01/24 21:09
453F:→ eett811025 : 碼農996用肝跟你拼了 01/24 21:10
454F:推 bread1110 : 這鯨魚真的邪門 花少少的預算幹大事 meta最好撐住啊 01/24 21:11
455F:推 minazukimaya: 但感覺AGI和技術奇點的時間又被提前了....... 01/24 21:11
456F:→ s213092921 : 中國AI公司因為算力受限,只好動腦另闢蹊徑,走出一 01/24 21:11
457F:→ s213092921 : 片天,高階晶片也是一樣的道理 01/24 21:11
458F:噓 qazwsx0128 : 夠便宜我就自己訓練一個 01/24 21:11
459F:→ minazukimaya: 這才是最恐怖的吧 感覺2030年前就要奇點了 01/24 21:11
460F:推 iaminnocent : 那就對啦O3開始用RL的話,大概又會反超吧 01/24 21:12
461F:→ fywei : 真的好恐慌 zzz 嚇死人 只好再睡一下 01/24 21:12
462F:推 nfsong : 開源的 只能導入 01/24 21:12
463F:噓 ishdtt598 : 跟文組講那麼多幹嘛 笑死 01/24 21:12
464F:→ nfsong : 論文都出了 01/24 21:12
465F:推 eliteark : 繼續吹起來 我要看到血流成河 01/24 21:13
466F:推 LBJshit : 傻鳥真的很傻很北七 一直那邊說DS造假 我還以為是真 01/24 21:13
467F:→ LBJshit : 的有什麼內幕勒。結果他媽的是英文太爛根本自己完全 01/24 21:13
468F:→ nfsong : 跟股票一樣 有錢人不會輸 01/24 21:13
469F:→ LBJshit : 搞錯 連下面有中文的正確翻譯也不看 01/24 21:13
470F:→ nfsong : 導入以後 3000e 的就更猛 01/24 21:13
471F:推 cay86714 : AI究極鬼故事! 01/24 21:14
472F:→ nfsong : 550萬就這麼猛 3000e的 6倍猛 01/24 21:14
473F:推 iaminnocent : 那個貼文確實是說Meta的訓練費用都可以訓練15次Dee 01/24 21:14
474F:→ iaminnocent : pseek了 01/24 21:14
475F:→ shorty5566 : 傻鳥真的北七 前幾天還看到黃仁勳去中國就瘋狂崩潰 01/24 21:14
476F:→ shorty5566 : 的 01/24 21:14
477F:推 duriamon : OpenAI的問題是核心科學家走了 01/24 21:14
478F:→ gn7722 : 就跟現在的預算一樣 01/24 21:15
479F:→ iaminnocent : O3我記得之前altman有貼出他的比較,好像比O1強不 01/24 21:15
480F:→ iaminnocent : 少,但是當然費用很貴,如果OpenAi把這個開源的機 01/24 21:15
481F:→ iaminnocent : 制拿來用不知道行不行 01/24 21:15
482F:→ cay86714 : 如果這是真的那麼那些CSP之後的資本支出根本不用那 01/24 21:16
483F:→ cay86714 : 麼高嘻嘻 01/24 21:16
484F:推 g27834618 : 訓練費降低是利多啊 趕緊出殺手級應用才是正軌 01/24 21:16
485F:推 littenVenus : 老黃484蛋雕惹QQ 01/24 21:17
486F:推 duriamon : 訓練費代表所需的時間成本、算力跟電費等,自己想想 01/24 21:17
487F:→ duriamon : 看囉! 01/24 21:17
488F:→ littenVenus : 電力需求應該也不用那麼多吧 01/24 21:17
489F:→ cay86714 : 不過這件事沒多久前國內投資圈就有一些人知道了, 01/24 21:18
490F:→ cay86714 : 就看市場什麼時候反應了嘻嘻 01/24 21:18
491F:→ iaminnocent : OpenAI比較像是他有很多資訊,當你詢問他時,他會 01/24 21:18
492F:→ iaminnocent : 依據他的知識庫中去找尋資料,並且給你。DEEPSEEK 01/24 21:18
493F:→ iaminnocent : 則是有很多專門的朋友,會依據問的問題,分配給適 01/24 21:18
494F:→ iaminnocent : 合的專門朋友去找資料回答(也就是不會全部Token調 01/24 21:18
495F:→ iaminnocent : 動,可以減少Token使用量) 01/24 21:18
496F:推 beesee : 訓練方式很華人 01/24 21:19
497F:→ littenVenus : 窩是上禮拜看節目聽一個物理學博士在分析 01/24 21:20
498F:推 Samurai : 老黃沒差吧,算力永遠不夠,相同算力能做的事情更 01/24 21:20
499F:→ Samurai : 多了,加速科技發展,是軟體公司要頭痛了,拼肝拼 01/24 21:20
500F:→ Samurai : 軟體效率拼不過華人 01/24 21:20
501F:推 s213092921 : 國外有大神用兩台M3晶片的蘋果電腦搭載運行Deepseek 01/24 21:20
502F:→ s213092921 : 邏輯模型XDD 01/24 21:20
503F:推 usereminem : 一堆人仇中仇到腦子壞掉了 可悲 01/24 21:20
504F:推 yusanhu : 厲害 01/24 21:21
505F:→ littenVenus : DS是分區塊 各領域專門訓練 01/24 21:21
506F:推 duriamon : 沒錯,deepseek是MoA架構。 01/24 21:22
507F:推 minazukimaya: 演算法創新會反過來創造出新的算力需求啊 因為對智 01/24 21:22
508F:→ minazukimaya: 能的追求沒有上限 更高效的演算法=更快到奇點 01/24 21:23
509F:噓 tw19930419 : 一堆低能中黑 看了就好笑 01/24 21:23
510F:推 ilw4e : 哈哈黑黑不知道一堆模型都會說他是chatgpt,因為監 01/24 21:24
511F:→ ilw4e : 督學習步驟最多人用的就是拿chatgpt當那個監督模型 01/24 21:24
513F:噓 cosmite : 剛問了美國地47屆總統是誰,連這個都答不出來,資 01/24 21:24
514F:→ cosmite : 料庫還停在2023(模型為DeepSeekV3) 01/24 21:24
516F:推 bj45566 : OpenAI o3 是非開源碼啊,而且最近被揭露它表現最 01/24 21:24
517F:→ bj45566 : 驚人的 FrontierMath 指標有作弊的嫌疑!相關的英 01/24 21:24
518F:→ bj45566 : 文報導和討論不少,這裏給一個實例! 01/24 21:24
520F:→ cosmite : ChatGPT-4則沒有問題 01/24 21:25
522F:推 fattyeddie : 連ai都能卷 了不起我的國 01/24 21:26
523F:→ bj45566 : P.S. 那隻看不懂國中等級英文的中黑歡迎繼續跳出來 01/24 21:26
524F:→ bj45566 : 吶喊丟人現世 wwww wwww 01/24 21:26
525F:→ duriamon : 因為deepseek不用運轉那麼多參數來產生回答,而Open 01/24 21:26
526F:→ duriamon : AI的必須要,所以以電力消耗、算力消耗跟微型化來說 01/24 21:26
527F:→ duriamon : 都不利,但也不是代表這樣不好。我是覺得OpenAI自從 01/24 21:26
528F:→ duriamon : 變成Altman的玩物之後,進步幅度有限,反而吹噓成分 01/24 21:26
529F:→ duriamon : 增加了,呵呵! 01/24 21:26
530F:推 minazukimaya: DeepSeek有價值的地方不是它自身模型有多強.. 01/24 21:26
531F:→ minazukimaya: 而是他提出的創新可以被其他有更大訓練集和更多算力 01/24 21:27
532F:推 KOKEY : 差別在喝的茶葉或咖啡比較貴啦 01/24 21:27
533F:→ minazukimaya: 的公司複用 01/24 21:27
534F:→ duriamon : 強的是訓練的方式,裡面的秘密我相信應該沒有開源, 01/24 21:27
535F:→ duriamon : 呵呵! 01/24 21:27
536F:推 bj45566 : 現在面臨作弊醜聞的反而是美國 & 世界最強的非開源 01/24 21:28
537F:→ bj45566 : 碼 OpenAI o3 01/24 21:28
538F:推 DCapple : 又贏了又贏了,中国贏兩次 01/24 21:28
539F:推 tw19930419 : 那叫做他沒有使用網路 不是他不會 問這種沒鑑別度的 01/24 21:28
540F:→ tw19930419 : 蠢問題要證明什麼 01/24 21:28
541F:推 Samurai : 不要再搞笑了,他的資料庫到2023年根本就不是什麼 01/24 21:29
542F:→ Samurai : 缺陷,只差在有沒有網路搜尋最新資訊而已 01/24 21:29
543F:推 minazukimaya: DeepSeek很公開啊 演算法和工程改進都寫在論文裡 01/24 21:29
544F:推 littenVenus : 那個博士認為 因為成本優勢 注定美國以外地區會傾 01/24 21:29
545F:→ littenVenus : 向DS 所以DS將是最後贏家 01/24 21:29
546F:→ minazukimaya: 真的是還好它夠公開 01/24 21:30
547F:推 raygod : 加大制裁 01/24 21:30
548F:→ minazukimaya: 不過它也是站在一堆前輩肩上 現在給人站肩膀 這就是 01/24 21:30
549F:推 Samurai : 意外的是DS竟然這麼大方公開研究方法 01/24 21:30
550F:→ minazukimaya: 科學研究啊 01/24 21:30
551F:推 runacat : 論文都出來了 01/24 21:31
552F:推 QuuEgg : 哇啊,削價競爭欸 01/24 21:32
553F:推 bj45566 : DeepSeek 如果在演算流程上沒有開創性的突破,美國 01/24 21:33
554F:→ bj45566 : 業界大老絕對不會用 "breakthrough" 來形容啦,這 01/24 21:33
555F:→ bj45566 : 個字義和 "cost down" 或 "內卷" 相差十萬八千里 - 01/24 21:33
556F:→ bj45566 : - 而且 " cost down" 是標準的台式英文 01/24 21:33
557F:推 wchang : 好到不可思議的好,就是假的 01/24 21:33
558F:→ wchang : 跟運動員吃禁藥一樣,不是apple 對apple 01/24 21:33
559F:推 Mosskappa : Buy the rumor 01/24 21:34
560F:推 tpkgo : 讓子彈飛一會兒~~~~ 01/24 21:34
561F:推 minazukimaya: 令人恐懼的反而是模型的效率一日千里 對齊的研究牛 01/24 21:35
562F:→ minazukimaya: 步慢行... 01/24 21:35
563F:→ minazukimaya: 根本是直通文明毀滅的最短路線XD 01/24 21:36
564F:→ tonyshan : 看起來就改進一個東西 就吹到天上去 01/24 21:36
565F:→ minazukimaya: DeepSeek把人類文明的毀滅倒數時鐘又撥快了一格 01/24 21:36
566F:推 tompi : DS API的費用是 o1 的1/30 01/24 21:37
567F:→ minazukimaya: DeepSeek可不止改進一個東西 論文都有 白話技術文也 01/24 21:37
568F:推 tsubasawolfy: 不用擔心OPENAI 那個瘋子