Tech_Job 板


LINE

建議先去看LATS 比較好理解什麼叫方法論 簡單說R1是一套"如何讓LLM可以做深度思考"的方法論 原本要讓LLM做深度思考 之前的做法一律都是COT 比如把每次LLM的輸入輸出當作一個節點 把多個節點做評分 最終選擇整條鏈評分最高的項目 即MCTS概念 這就像是alphago那樣 每次棋步後面都要估算後面幾十步對於這步的總評分(勝率) LATS就是用LangGraph去實現MCTS的COT 這是方法論 所以可以套用任何LLM 你替換任何LLM LATS都能提升輸出成果 GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質 並非直接讓AI去隨意生成許多條節點再自我評分 而是人工先標註什麼是好推論 因此人工撰寫教科書等級的推論就是o1高成本最主要的因素 (這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD) 就像alphago master需要挖出所有頂尖對局棋譜然後數位化 R1則是捨棄了節點拆步驟思維 直接讓LLM去隨意探索可能方式 在這個情況下R1反而做出了各種有創意的推論方式 就像是alphago zero 自行探索反而下出自己一套邏輯 如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事 實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程 復現的結論也高度一致 使用越優秀的LLM當作基底 可以拿到更好的推論過程 所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1738140736.A.CDC.html
1F:推 tr920 : Openapi 都跳出來質疑有distill 痕 123.194.12.84 01/29 17:02
2F:→ tr920 : 跡了,你回那麼嗆小心被打臉啊 123.194.12.84 01/29 17:02
3F:噓 quartics : 你說的跟本不是什麼新技術,也跟di 42.78.171.125 01/29 17:07
4F:→ quartics : stilled 不衝突 42.78.171.125 01/29 17:07
馬上就飛一隻出來了 不是什麼新技術 那openai google meta怎麼不先做(挖鼻
5F:噓 whizz : 不然這樣啦 deepseek開直播訓練 1.168.110.29 01/29 17:19
6F:→ whizz : 用2000塊 H800訓練來看看啊 1.168.110.29 01/29 17:19
才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了
7F:推 tr920 : 可以用30鎂就復現,那DS花550萬鎂 123.194.12.84 01/29 17:34
8F:→ tr920 : 幹嘛XDD!! 123.194.12.84 01/29 17:34
一個是先人研究出方法 一個只是照用別人的方法 你會說你高中就學會牛頓高斯想幾十年的東西 所以牛頓高斯在浪費人生?
9F:推 tr920 : 以你的邏輯,R1是用人家砸大錢訓練 123.194.12.84 01/29 17:39
10F:→ tr920 : 出來的LLM來前進,那些砸大錢的公 123.194.12.84 01/29 17:39
11F:→ tr920 : 司在浪費人生? 123.194.12.84 01/29 17:39
"可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!" 這句話是你說的又不是我說的 我現在一整個黑人問號
12F:推 tr920 : 一句話啦,你敢保證Deepseek沒有用 123.194.12.84 01/29 17:43
13F:→ tr920 : Distill技術?如果不敢保證,就把 123.194.12.84 01/29 17:43
14F:→ tr920 : 隨便罵人青鳥字眼吞回去 123.194.12.84 01/29 17:43
對不起讓你誤會了 我絕對沒有說你是青鳥
15F:推 master32 : 我是覺得盡量不要一開始就把人打入 111.253.56.238 01/29 18:14
16F:→ master32 : 某一族群,科技板不該這樣 111.253.56.238 01/29 18:14
17F:推 lusifa2007 : 政治立場帶入單純技術討論 碩士用 114.42.230.28 01/29 18:34
18F:→ lusifa2007 : 雞腿換的? 114.42.230.28 01/29 18:34
https://i.imgur.com/2BDUqa7.png 如果要像這樣"純技術討論" 我還是繼續用雞腿吧
19F:推 straggler7 : 純技術討論? 我信你個鬼! 36.229.59.188 01/29 18:55
20F:→ aria0520 : 但我也不是耶XD 單純就事論事103.224.201.110 01/29 19:20
21F:→ aria0520 : 看我以往推文就知道我不是XD103.224.201.110 01/29 19:21
抱歉 我不該說你是青鳥
22F:推 ctw01 : 這樣受益良多感謝,另外想詢問因為 180.218.44.106 01/29 19:26
23F:→ ctw01 : deepseek 似乎沒有公開他們這套方 180.218.44.106 01/29 19:26
24F:→ ctw01 : 法論是對哪個LLM模型,現在openai 180.218.44.106 01/29 19:26
25F:→ ctw01 : 質疑distill 是質疑他們使用的LLM 180.218.44.106 01/29 19:26
26F:→ ctw01 : 對chatgpt distill然後再用這套方 180.218.44.106 01/29 19:26
27F:→ ctw01 : 法論嗎? 180.218.44.106 01/29 19:26
這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD
28F:→ ctw01 : 因為本身不是做NLP相關的,以前也 180.218.44.106 01/29 19:27
29F:→ ctw01 : 沒接觸多少ai研究,如果問了蠢問題 180.218.44.106 01/29 19:27
30F:→ ctw01 : 敬請見諒 180.218.44.106 01/29 19:27
LLM終於來到了zero的時代 我對這點是蠻興奮的 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13
31F:→ BoXeX : 反而覺得distill還好 那些模型 111.250.18.76 01/29 20:19
32F:→ BoXeX : 在訓練時也沒少盜用別人著作權文章 111.250.18.76 01/29 20:20
33F:→ lavign : LATS也是用MCTS,只是評分方式改成 220.134.57.143 01/29 20:32
34F:→ lavign : 用LLM自己的機率函式? 220.134.57.143 01/29 20:32
自己把生出來的subtree再丟給LLM自己評分擇優 不一定是打分數 只要能選較好的路徑 當然衍生方式就很多 要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD 或者專門訓練一個評分系統 發下一篇 博士生要論文生論文就是這樣做 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12
35F:推 tanby : 知識蒸餾要有模型 OpenAI沒有公開 111.250.8.222 01/29 22:33
36F:→ tanby : 模型 DS頂多用OpenAI模型去標注數 111.250.8.222 01/29 22:33
37F:→ tanby : 據 111.250.8.222 01/29 22:33
38F:推 janeration : 沒有公開不代表DS拿不到啊 101.9.190.172 01/30 00:33
39F:噓 pig2014 : 反對你的人就說是青鳥是三小,反民 123.195.185.38 01/30 18:01
40F:→ pig2014 : 進黨也不要反到這麼弱智操,很丟返 123.195.185.38 01/30 18:01
41F:→ pig2014 : 民進黨派的臉 123.195.185.38 01/30 18:01
只會噓文的ID 花這麼久才找到這麼小的噓點 ※ 編輯: KanzakiHAria (36.231.97.33 臺灣), 01/30/2025 18:42:03







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP