作者KanzakiHAria (神崎・H・アリア)
看板Tech_Job
标题Re: [新闻]不,你无法用 600 万美元复制一个 DeepSee
时间Wed Jan 29 16:52:14 2025
建议先去看LATS 比较好理解什麽叫方法论
简单说R1是一套"如何让LLM可以做深度思考"的方法论
原本要让LLM做深度思考 之前的做法一律都是COT
比如把每次LLM的输入输出当作一个节点
把多个节点做评分 最终选择整条链评分最高的项目 即MCTS概念
这就像是alphago那样 每次棋步後面都要估算後面几十步对於这步的总评分(胜率)
LATS就是用LangGraph去实现MCTS的COT 这是方法论 所以可以套用任何LLM
你替换任何LLM LATS都能提升输出成果
GPT-o1(原q* project)采用人工先写好大量的推论步骤去保证COT品质
并非直接让AI去随意生成许多条节点再自我评分 而是人工先标注什麽是好推论
因此人工撰写教科书等级的推论就是o1高成本最主要的因素
(这也是CloseAI藏起来的主因 这个很贵不能给其他人看到XD)
就像alphago master需要挖出所有顶尖对局棋谱然後数位化
R1则是舍弃了节点拆步骤思维 直接让LLM去随意探索可能方式
在这个情况下R1反而做出了各种有创意的推论方式
就像是alphago zero 自行探索反而下出自己一套逻辑
如同LATS可以替换任何的LLM R1也可以使用任何的LLM去做这件事
实验室复现R1是指拿一个LLM 做这个方法论 看可以拿到AI怎麽做推论过程
复现的结论也高度一致 使用越优秀的LLM当作基底 可以拿到更好的推论过程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS类似
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.98.6 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1738140736.A.CDC.html
1F:推 tr920 : Openapi 都跳出来质疑有distill 痕 123.194.12.84 01/29 17:02
2F:→ tr920 : 迹了,你回那麽呛小心被打脸啊 123.194.12.84 01/29 17:02
3F:嘘 quartics : 你说的跟本不是什麽新技术,也跟di 42.78.171.125 01/29 17:07
4F:→ quartics : stilled 不冲突 42.78.171.125 01/29 17:07
马上就飞一只出来了 不是什麽新技术 那openai google meta怎麽不先做(挖鼻
5F:嘘 whizz : 不然这样啦 deepseek开直播训练 1.168.110.29 01/29 17:19
6F:→ whizz : 用2000块 H800训练来看看啊 1.168.110.29 01/29 17:19
才刚讲完马上就来两个青鸟XDDDD 都有实验室用30镁就复现了
7F:推 tr920 : 可以用30镁就复现,那DS花550万镁 123.194.12.84 01/29 17:34
8F:→ tr920 : 干嘛XDD!! 123.194.12.84 01/29 17:34
一个是先人研究出方法 一个只是照用别人的方法
你会说你高中就学会牛顿高斯想几十年的东西 所以牛顿高斯在浪费人生?
9F:推 tr920 : 以你的逻辑,R1是用人家砸大钱训练 123.194.12.84 01/29 17:39
10F:→ tr920 : 出来的LLM来前进,那些砸大钱的公 123.194.12.84 01/29 17:39
11F:→ tr920 : 司在浪费人生? 123.194.12.84 01/29 17:39
"可以用30镁就复现,那DS花550万镁干嘛XDD!" 这句话是你说的又不是我说的
我现在一整个黑人问号
12F:推 tr920 : 一句话啦,你敢保证Deepseek没有用 123.194.12.84 01/29 17:43
13F:→ tr920 : Distill技术?如果不敢保证,就把 123.194.12.84 01/29 17:43
14F:→ tr920 : 随便骂人青鸟字眼吞回去 123.194.12.84 01/29 17:43
对不起让你误会了 我绝对没有说你是青鸟
15F:推 master32 : 我是觉得尽量不要一开始就把人打入 111.253.56.238 01/29 18:14
16F:→ master32 : 某一族群,科技板不该这样 111.253.56.238 01/29 18:14
17F:推 lusifa2007 : 政治立场带入单纯技术讨论 硕士用 114.42.230.28 01/29 18:34
18F:→ lusifa2007 : 鸡腿换的? 114.42.230.28 01/29 18:34
https://i.imgur.com/2BDUqa7.png 如果要像这样"纯技术讨论" 我还是继续用鸡腿吧
19F:推 straggler7 : 纯技术讨论? 我信你个鬼! 36.229.59.188 01/29 18:55
20F:→ aria0520 : 但我也不是耶XD 单纯就事论事103.224.201.110 01/29 19:20
21F:→ aria0520 : 看我以往推文就知道我不是XD103.224.201.110 01/29 19:21
抱歉 我不该说你是青鸟
22F:推 ctw01 : 这样受益良多感谢,另外想询问因为 180.218.44.106 01/29 19:26
23F:→ ctw01 : deepseek 似乎没有公开他们这套方 180.218.44.106 01/29 19:26
24F:→ ctw01 : 法论是对哪个LLM模型,现在openai 180.218.44.106 01/29 19:26
25F:→ ctw01 : 质疑distill 是质疑他们使用的LLM 180.218.44.106 01/29 19:26
26F:→ ctw01 : 对chatgpt distill然後再用这套方 180.218.44.106 01/29 19:26
27F:→ ctw01 : 法论吗? 180.218.44.106 01/29 19:26
这麽说很有可能 deepseek v3本身应该就是干了很多资料XD
28F:→ ctw01 : 因为本身不是做NLP相关的,以前也 180.218.44.106 01/29 19:27
29F:→ ctw01 : 没接触多少ai研究,如果问了蠢问题 180.218.44.106 01/29 19:27
30F:→ ctw01 : 敬请见谅 180.218.44.106 01/29 19:27
LLM终於来到了zero的时代 我对这点是蛮兴奋的
※ 编辑: KanzakiHAria (36.231.98.6 台湾), 01/29/2025 19:44:13
31F:→ BoXeX : 反而觉得distill还好 那些模型 111.250.18.76 01/29 20:19
32F:→ BoXeX : 在训练时也没少盗用别人着作权文章 111.250.18.76 01/29 20:20
33F:→ lavign : LATS也是用MCTS,只是评分方式改成 220.134.57.143 01/29 20:32
34F:→ lavign : 用LLM自己的机率函式? 220.134.57.143 01/29 20:32
自己把生出来的subtree再丢给LLM自己评分择优 不一定是打分数 只要能选较好的路径
当然衍生方式就很多 要不要另外用一个LLM专门做路径的评分? 就可以发下一篇XD
或者专门训练一个评分系统 发下一篇 博士生要论文生论文就是这样做
※ 编辑: KanzakiHAria (36.231.98.6 台湾), 01/29/2025 20:44:12
35F:推 tanby : 知识蒸馏要有模型 OpenAI没有公开 111.250.8.222 01/29 22:33
36F:→ tanby : 模型 DS顶多用OpenAI模型去标注数 111.250.8.222 01/29 22:33
37F:→ tanby : 据 111.250.8.222 01/29 22:33
38F:推 janeration : 没有公开不代表DS拿不到啊 101.9.190.172 01/30 00:33
39F:嘘 pig2014 : 反对你的人就说是青鸟是三小,反民 123.195.185.38 01/30 18:01
40F:→ pig2014 : 进党也不要反到这麽弱智操,很丢返 123.195.185.38 01/30 18:01
41F:→ pig2014 : 民进党派的脸 123.195.185.38 01/30 18:01
只会嘘文的ID 花这麽久才找到这麽小的嘘点
※ 编辑: KanzakiHAria (36.231.97.33 台湾), 01/30/2025 18:42:03