Stock 板


LINE

※ 引述《LimYoHwan (gosu mage)》之銘言: : 標題: : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : 來源: : Futu : 網址: : https://tinyurl.com/ydrtdbu8 : 內文: : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : Flash Thinking Experimental提煉出來的。 : https://i.imgur.com/kFg9GjU.jpeg : 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1 : 。 : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1 : 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。 : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力 : ,甚至可以媲美 Reinforcement Learning(強化學習)。 : OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好 : 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間? : S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法: : 核心思想: : 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力? : 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率 : ! : 結果證明,這種方法比 OpenAI o1-preview 還要好! : 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍 : 然很強! : 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。 : 論文下載 : https://arxiv.org/pdf/2501.19393 連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯, 終於從59000筆訓練資料中, 找到一組1000筆AI訓練資料, 可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。 其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。 成本:不到50美元。 也是只看 fine-tune 1000題,一次的成本。 而且,試了不知道幾次, 終於找到一次, 可以在部分考卷上贏一個很爛的模型。 媒體文章中,忽略不計的成本,至少包含: base模型訓練的成本(至少占成本99%) 研究人員不斷試錯找1000題的成本。 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。 其他錯誤資訊,媒體的內文寫: 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。 完全錯誤。原始論文寫: 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調 結論: 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。 一堆外行人,連論文都不看,在造假新聞。 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1738887278.A.575.html
1F:推 fedona : 股版人看不懂英文 02/07 08:17
2F:→ cafein : 讚 02/07 08:17
3F:推 herculus6502: 反正這裏是股版 02/07 08:36
4F:推 GOOGLEISGOD : 專業 02/07 08:42
6F:推 AGODC : 這就如同酒精釀造工藝,一般不懂的人認知上它就是某 02/07 08:46
7F:→ AGODC : 蒸餾原理,只是有加上一些前後加工的工序,本質上對 02/07 08:46
8F:→ AGODC : 一般人來說用「蒸餾」這個辭最好理解啊,未來這種類 02/07 08:46
9F:→ AGODC : 蒸餾或前後資料篩選再tune的東西會一籮筐,前面幾個 02/07 08:46
10F:→ AGODC : 還分得出來差異,到後面出來幾百幾千個時,誰還分得 02/07 08:46
11F:→ AGODC : 出來用哪個方法?反而叫蒸餾是一般人最好理解的 02/07 08:46
12F:推 aaa80563 : 不然為什麼一堆-0.06的噴上天 02/07 08:48
13F:推 maxangel : 台灣媒體就不讀書 當然不會認真寫 02/07 08:50
14F:推 Laviathan : 蒸餾不一定是監督式學習,但微調是監督式學習,樓 02/07 08:50
15F:→ Laviathan : 上怎麼可以說都一樣叫蒸餾 02/07 08:50
16F:→ wr : 簡單來說 只要你能從六萬筆資料中找到那1000筆資料 02/07 08:51
17F:→ wr : 你就可以弄出跟gemini很接近的能力 02/07 08:51
18F:→ wr : 也就是說 如何找到那1000筆資料的技術應該可以賣錢 02/07 08:53
19F:推 dani1992 : 按你描述是從Gemini蒸餾微調Qwen沒錯啊 02/07 08:54
20F:→ wr : 至於訓練出來的東西 就隨便應用端去天馬行空了 02/07 08:54
21F:推 gift1314520 : 笑不給他資料庫看他怎麼學習 02/07 08:58
22F:推 LDPC : 大大 建議你自刪 這就是蒸餾。是你自己不懂 02/07 09:01
23F:推 p122607 : 這也是蒸餾的一種… 02/07 09:05
24F:噓 Lowpapa : 整篇誤導 02/07 09:06
25F:推 laidawn : 推,看不懂 02/07 09:06
26F:推 LDPC : 作者自己paper都說 1000題從gemini thinking distil 02/07 09:08
27F:→ LDPC : l 02/07 09:08
28F:→ LDPC : 這已經不是你第一次亂嗆 結果自己搞錯=_= 02/07 09:09
29F:→ LDPC : paper 第一頁 右下方就講distilled from gemini thi 02/07 09:10
30F:→ LDPC : nking experimental 02/07 09:10
31F:推 ab4daa : 穩 02/07 09:12
32F:推 kungwei : 專業給推 02/07 09:13
33F:推 y800122155 : 貼出來騙人下車的啊 02/07 09:13
34F:推 LDPC : 哪來專業..=_= 02/07 09:14
35F:推 oopFoo : 必須推。s1來蹭r1的。s1論文根本就不實際,也不實用 02/07 09:27
36F:推 oopFoo : s1這篇論文只是來騙篇數的。phd的悲哀。 02/07 09:32
37F:→ emind : 論文主旨是test-time compute 也放在標題了。Ilya 02/07 09:40
38F:→ emind : 在2024 Neurips 也講inference time compute. 02/07 09:40
39F:→ emind : 宣傳成本什麼的很好笑 02/07 09:41
40F:→ DrTech : 這篇論文的distilled意思,與前幾年大家在做transfo 02/07 10:14
41F:→ DrTech : rmer模型時的蒸餾,完全不同意思。是違反學術常規定 02/07 10:14
42F:→ DrTech : 義,自創的定義,意思是用Gemini 模型,生成新的訓 02/07 10:14
43F:→ DrTech : 練資料。硬扯沒意義,論文實際上跑出來的分數就是大 02/07 10:14
44F:→ DrTech : 輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫 02/07 10:14
45F:→ DrTech : 。 02/07 10:14
46F:推 Denny224 : 推一個 這才是認知中的學術研究 02/07 10:15
47F:→ DrTech : 我對於研究成果沒有否定,但新聞媒體亂報也是事實。 02/07 10:16
48F:→ DrTech : 蒸餾模型model distillation本來是模型權重數量壓縮 02/07 10:23
49F:→ DrTech : 的一種技術。結果這篇文章用的蒸餾,意思是用模型生 02/07 10:23
50F:→ DrTech : 成訓練用的文字資料,不是學術界正式的用語。所以目 02/07 10:23
51F:→ DrTech : 前只能放在arxiv,連正式的學術審稿都沒過。 02/07 10:23
52F:→ DrTech : 基底模型是Qwen2.5-32B,然後少量Gemini模型生成資 02/07 10:30
53F:→ DrTech : 料微調參數,再怎麼蒸餾,硬要扯,也是在蒸餾Qwen2. 02/07 10:30
54F:→ DrTech : 5-32B的能力。 02/07 10:30
55F:→ holien : 現在學術研究為了比快,有人會先放在arrive,宣示 02/07 10:31
56F:→ holien : 自己的成果。 02/07 10:31
57F:→ DrTech : 蒸餾老半天,結果還是輸deepseek-R1阿。論文都寫了 02/07 10:31
58F:→ DrTech : 。 02/07 10:31
59F:→ DrTech : 研究貢獻也不在 "媲美deepseek-R1" 明明就輸很大, 02/07 10:38
60F:→ DrTech : 標題亂寫而已。 02/07 10:38
61F:推 newyorker54 : 我書讀的不多 02/07 10:45
62F:→ newyorker54 : 所以結論是deepseek r1繼續用? 02/07 10:46
63F:推 atpx : 推 02/07 10:46
64F:推 kissa0924307: 結論NVDA續抱 02/07 11:04
65F:推 stlinman : 說個笑話李飛飛不懂學術界正式用語! 02/07 11:11
66F:推 clou : 白痴媒體真的多,不過想想也是因為有這些股市才能賺 02/07 11:12
67F:噓 watashino : 蒸餾沒錯啊 但確實也是在fine tune 02/07 11:18
68F:→ ImHoluCan : 原來是Dr,專業 02/07 11:31
69F:→ ImHoluCan : Dr大真的專業的,很多人看新聞不自己去查一下 02/07 11:33
70F:→ ImHoluCan : 有人會不認識這Dr兄? 還在那反駁Dr兄,以後好人就 02/07 11:36
71F:→ ImHoluCan : 越來越少人發文了 02/07 11:36
72F:噓 HenryLin123 : 這咖我記得業內人士也在推面板股的,我有沒有記錯 02/07 11:56
73F:→ HenryLin123 : ? 02/07 11:56
74F:推 greprep : 推專業良心 02/10 23:49







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP