Stock 板


LINE

現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤 那東西只是讓模型去向鸚鵡一樣 去做文字接龍 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback) 就是要人類針對不同數據給意見 這個是要給標籤 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback 這個人工成本是很大 Deepseek-R1跟大家說 我們不用人類給的feedback了 我們可以免除這塊 大家都在討論的叫做sythetic dataset 這個步驟是來自於你有許多野生數據 但需要加上標籤 那標籤可以拿更強大模型來標註 比方說 一道數學題目 你可以用人類寫解答 或者要拆步驟 每步驟讓gpt-4o寫個答案 這就是所謂synthetic dataset 然後用這組數據去調教模型 這步驟會決定 你的模型多智能 這過程就是call api 現在ai界都這樣幹 缺點就是訓練模型上限就是 原始母模型 這跟傳統蒸留 用模型直接交模型不太依一樣 這種方式就是可以用低成本 接近gpt-4o 但你如果這樣幹 你模型就不能商業化 頂多發表到文章 講你這是怎樣做 最經典例子就是LLaVA那篇 講如何用gpt4o 產生sythetic dataset讓textLLM 變成多模態 直接打爆其他大廠高成本多模態 之前網路上已經有人在討論 到底deepseek有沒有用api去合成數據 https://reurl.cc/A6ab98 https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版) 在training這部分還沒定案之前 大家就先吃瓜看看吧 @@ 但這思路還是有可取之處 就是模型教模型 不要再用人類RLHF去教模型 https://x.com/op7418/status/1884065603184681162 這有點像回到當年alphago那條路線 模型互相教 下面網址是第三方 大家要複製deep-seek R1開源計畫 任何人想參加都可以 https://huggingface.co/blog/open-r1 目前公認是dep-seek R1隱藏了 Replicate the R1-Distill models by distilling a high-quality reasoning dataset from DeepSeek-R1. 上面專案在徵求大家嘗試去製造出合成數據 好了 我要去炸薯條了 @@/ 救救我 ※ 引述《IBIZA (溫一壺月光作酒)》之銘言: : ※ 引述《mangle (mangle123)》之銘言: : : 比較好奇這段: : : 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 : : OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 : : 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識… : : 不過要怎麼定義「與openai 競爭的模型」? 因為deepseek 也沒盈利而且也開源學習,他也承認他不只從chatgpt訓練也參照不少,deep seek 也認為自己是chatgpt : : 所以是真有盜竊疑慮,還是業界常識的互相學習使用? 如何定義這部分 : 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 : AI = 模型的程式碼+訓練 : 能開源的部分只有程式碼, 訓練是看各自調教 : 模型的能力夠, 差不多的調教方式就會得到差不多的結果 : 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強 : 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法 : 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識 : 監督微調: 有了基本能力之後, 模型開始有推理能力 : 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的 : 之前所謂的貼標籤, 就是這個階段 : 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他 : 強化學習: AI自己跟自己練習 : 不管是meta還是google, 之前都是照OpenAI這個成功模式做 : 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車 : 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果 : 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法 : 他的回答是這樣 : https://i.imgur.com/ey5mX61.png : ChatGPT要回答這個問題, 中間要經過很多推理, 譬如他要先理解我的問題 : 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法 : 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例 : 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼 : 有頭有尾, 要生出中間的推理就會比較容易 : 但這裡有個問題 : 你要用蒸餾讓一個模型得到另一個模型類似的能力 : 通常就是需要老師模型產生極大量的練習後結果 : 才能傳授畢生功力給學生模型 : 如果ChatGPT是開源模型, 可以自己部署在自己平台上 : 要做這樣大規模訓練是有可能 : 但ChatGPT無法部署在自己平台 : (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾) : 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練 : 這難度極高啊.... : (ChatGPT剛剛教我另一個方法 : 就是拿一個原本就有ChatGPT4能力的模型 : 這樣只要少量訓練, 就能超越ChatGPT 4 : 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD : 你還是得先得到這個模型啊...就是V3 : 那V3怎麼來?) --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1738171163.A.A6D.html ※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:19:54 ※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:21:13
1F:推 sdbb : 炸薯條,甘薯?馬鈴薯? 01/30 01:22
2F:推 a0808996 : 美國大爺 薯條這種小事 小弟來幫你炸就好 01/30 01:23
3F:→ chordate : 簡單的說就是省掉RLHF的成本? 01/30 01:23
4F:→ a0808996 : 你翹著腳 喝著82年的拉菲 等我服務就好 01/30 01:23
5F:→ jo4 : 答案不就很明顯 難道真的可以無中生有 01/30 01:23
6F:→ sdbb : 推文感覺澀澀的 01/30 01:24
7F:→ jo4 : 如果這麼屌在GPT出來之前早該有了 01/30 01:24
8F:→ good5755 : 裁判、球證、旁證都是我的人 你怎麼跟我鬥? 01/30 01:25
9F:推 TaipeiKindom: 好多英文,不過跟我想的一樣 01/30 01:25
10F:→ sdbb : 可能是因為要先有gpt之流的強大模型 01/30 01:25
11F:→ sdbb : 才能模型教模型 01/30 01:25
12F:→ sdbb : 0到1是最難的 01/30 01:26
13F:→ ken85 : 所以openAI剛開始的數據蒐集 商業化也會危險嗎 01/30 01:26
14F:推 ABC610478 : 專業 01/30 01:29
15F:→ IBIZA : DeepSeek的論文自己說 在沒有任何監督數據的情況下 01/30 01:29
16F:→ IBIZA : 自我演化 01/30 01:29
17F:→ IBIZA : DS是不貼標籤的 01/30 01:29
18F:推 TaipeiKindom: 用AI訓練AI,天網一定就是這樣誕生的 01/30 01:30
19F:推 ntr203 : 找學霸幫我畫重點的意思 靠腰阿如果重點越畫越細, 01/30 01:31
20F:→ ntr203 : 到最後不就等於學霸在答題 01/30 01:31
21F:推 meta41110 : 一個互尻的概念0.0 01/30 01:32
22F:→ jo4 : 自我演化給時間就變AGI了阿 恭喜實現AGI 01/30 01:33
23F:→ jo4 : 幾個月就超越GPT 想必年底就屌打GPT了吧 01/30 01:34
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:41:19
24F:推 sean667cd : LD大是薯條之王,加大是直接一卡車 01/30 01:48
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:59:34
25F:噓 Wolverin5566: 西神壇 01/30 02:04
26F:推 applejone : 我認為是有的 01/30 02:12
27F:推 ProTrader : 從資工人的角度看這種做法很合理啊 01/30 02:35
28F:→ ProTrader : 比較值得討論的是為何會被中國人先做出來 01/30 02:35
29F:→ ProTrader : 照理說 那些大廠裡的資工高手一定想的到 01/30 02:36
30F:→ iamacomic : 矽谷大老發文就是不一樣 01/30 02:41
31F:推 kuso198610 : 大概覺得沒必要?一直疊高階晶片就好了 01/30 05:09
32F:→ morisontw : 不可能沒有監督 機器學習中無監督都是沒意義的東西 01/30 06:31
33F:→ morisontw : 最後有意義的東西都是後來人類賦予上去的 01/30 06:32
34F:→ morisontw : 有些看來沒監督的東西只是你表面看不出來監督 01/30 06:33
35F:→ morisontw : 其實初始都是從人類監督開始的 01/30 06:34
36F:→ morisontw : k-means 分的類你不定義就是看起來很酷的垃圾而已 01/30 06:36
37F:推 dongdong0405: 我已經和同事商量好年後要去賣酸菜魚了(X 01/30 07:22
38F:推 mdkn35 : RL我記得不用給標籤 只需要自訂一個目標 01/30 07:42
39F:→ mdkn35 : 最典型的就是賽車越快到達目的地碰撞越少分數就越高 01/30 07:42
40F:推 mdkn35 : 但llm的回答千百種…好吧應該也算是一種標籤 01/30 07:46
41F:推 wu0119 : 有點不懂,只不過跟我想的差不多。 01/30 08:03
42F:推 KrisNYC : 學到了 01/30 09:01
43F:→ sdbb : 總結就是模型教模型,好班的學生自己教自己 01/30 09:15
44F:→ sdbb : 以前的模型是老師教學生 01/30 09:16
45F:推 mamorui : 補充的是RLHF後衍生的方向是期待AI代替人類reward 01/30 09:43
46F:→ mamorui : ,R1讓模型自訓練 01/30 09:43
47F:→ mamorui : 曾有虛擬老師 https://imgur.com/7qegQQH 01/30 09:44







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP