Stock 板


LINE

现在全网路上的开源数据资料是属於pre-training端 大多都是野生数据 无标签 那东西只是让模型去向鹦鹉一样 去做文字接龙 但第二阶段训练会用到RLHF (Reinforcement Learning from Human Feedback) 就是要人类针对不同数据给意见 这个是要给标签 所以你才会听到狗家之前要求全公司员工去给意见让Gemini前身 Bard 去做人类feedback 这个人工成本是很大 Deepseek-R1跟大家说 我们不用人类给的feedback了 我们可以免除这块 大家都在讨论的叫做sythetic dataset 这个步骤是来自於你有许多野生数据 但需要加上标签 那标签可以拿更强大模型来标注 比方说 一道数学题目 你可以用人类写解答 或者要拆步骤 每步骤让gpt-4o写个答案 这就是所谓synthetic dataset 然後用这组数据去调教模型 这步骤会决定 你的模型多智能 这过程就是call api 现在ai界都这样干 缺点就是训练模型上限就是 原始母模型 这跟传统蒸留 用模型直接交模型不太依一样 这种方式就是可以用低成本 接近gpt-4o 但你如果这样干 你模型就不能商业化 顶多发表到文章 讲你这是怎样做 最经典例子就是LLaVA那篇 讲如何用gpt4o 产生sythetic dataset让textLLM 变成多模态 直接打爆其他大厂高成本多模态 之前网路上已经有人在讨论 到底deepseek有没有用api去合成数据 https://reurl.cc/A6ab98 https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版) 在training这部分还没定案之前 大家就先吃瓜看看吧 @@ 但这思路还是有可取之处 就是模型教模型 不要再用人类RLHF去教模型 https://x.com/op7418/status/1884065603184681162 这有点像回到当年alphago那条路线 模型互相教 下面网址是第三方 大家要复制deep-seek R1开源计画 任何人想参加都可以 https://huggingface.co/blog/open-r1 目前公认是dep-seek R1隐藏了 Replicate the R1-Distill models by distilling a high-quality reasoning dataset from DeepSeek-R1. 上面专案在徵求大家尝试去制造出合成数据 好了 我要去炸薯条了 @@/ 救救我 ※ 引述《IBIZA (温一壶月光作酒)》之铭言: : ※ 引述《mangle (mangle123)》之铭言: : : 比较好奇这段: : : 尽管蒸馏是AI业界常见做法,但DeepSeek若利用蒸馏技术来打造自家模型,并与OpenAI竞 争,将违反OpenAI服务条款,因此产生疑虑。 : : OpenAI的服务,或是「利用输出结果,来开发与OpenAI竞争的模型」。 : : 各个ai 大语言模型不是都会互相参照比较和训练吗? 我以为这是业界常识… : : 不过要怎麽定义「与openai 竞争的模型」? 因为deepseek 也没盈利而且也开源学习,他也承认他不只从chatgpt训练也参照不少,deep seek 也认为自己是chatgpt : : 所以是真有盗窃疑虑,还是业界常识的互相学习使用? 如何定义这部分 : 各家互相参考, 指的是训练方法还有训练的文本挑选, 蒸馏不太一样 : AI = 模型的程式码+训练 : 能开源的部分只有程式码, 训练是看各自调教 : 模型的能力够, 差不多的调教方式就会得到差不多的结果 : 训练方法更好, 或是文本品质越高、越多样、量越多, 模型就越强 : 自从OpenAI爆红以来, 大公司的LLM模型都是遵循OpenAI的训练方法 : 预先训练: 拿大量文本让AI模型学习基本语言能力、基本知识 : 监督微调: 有了基本能力之後, 模型开始有推理能力 : 这时候由人类介入, 告诉模型怎麽想是对的, 怎麽想是错的 : 之前所谓的贴标签, 就是这个阶段 : 奖励建模: 把对错的判断建立模型, AI想对了, 这个模型就奖励他 : 强化学习: AI自己跟自己练习 : 不管是meta还是google, 之前都是照OpenAI这个成功模式做 : 所以这些公司能做的就是拚算力, 透过更大量的训练, 希望最终可以暴力超车 : 但蒸馏就不同, 蒸馏是直接拿另一个模型的推理结果, 让另一个模型照着得到同样结果 : 譬如我要我刚刚问ChatGPT, 要他给举例说明什麽是拟人法 : 他的回答是这样 : https://i.imgur.com/ey5mX61.png : ChatGPT要回答这个问题, 中间要经过很多推理, 譬如他要先理解我的问题 : 这里面就牵涉到, 他要理解我讲的拟人法是修辞当中的拟人法 : 然後再从这一个理解, 去思考拟人法的意思是甚麽, 最後再想出一个符合范例 : 蒸馏的话, 就是学生模型已经预先知道这个问题的答案是甚麽 : 有头有尾, 要生出中间的推理就会比较容易 : 但这里有个问题 : 你要用蒸馏让一个模型得到另一个模型类似的能力 : 通常就是需要老师模型产生极大量的练习後结果 : 才能传授毕生功力给学生模型 : 如果ChatGPT是开源模型, 可以自己部署在自己平台上 : 要做这样大规模训练是有可能 : 但ChatGPT无法部署在自己平台 : (刚刚有人说ChatGPT 2可以, 但蒸馏顶多只能逼近老师, 用ChatGPT 2只能蒸出垃圾) : 所以要做蒸馏只能透过API, 而要透过API做几千万甚至几亿规模的蒸馏训练 : 这难度极高啊.... : (ChatGPT刚刚教我另一个方法 : 就是拿一个原本就有ChatGPT4能力的模型 : 这样只要少量训练, 就能超越ChatGPT 4 : 但原本就有ChatGPT 4能力的新模型难道自己会生出来吗XD : 你还是得先得到这个模型啊...就是V3 : 那V3怎麽来?) --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.21.72.78 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1738171163.A.A6D.html ※ 编辑: LDPC (76.21.72.78 美国), 01/30/2025 01:19:54 ※ 编辑: LDPC (76.21.72.78 美国), 01/30/2025 01:21:13
1F:推 sdbb : 炸薯条,甘薯?马铃薯? 01/30 01:22
2F:推 a0808996 : 美国大爷 薯条这种小事 小弟来帮你炸就好 01/30 01:23
3F:→ chordate : 简单的说就是省掉RLHF的成本? 01/30 01:23
4F:→ a0808996 : 你翘着脚 喝着82年的拉菲 等我服务就好 01/30 01:23
5F:→ jo4 : 答案不就很明显 难道真的可以无中生有 01/30 01:23
6F:→ sdbb : 推文感觉涩涩的 01/30 01:24
7F:→ jo4 : 如果这麽屌在GPT出来之前早该有了 01/30 01:24
8F:→ good5755 : 裁判、球证、旁证都是我的人 你怎麽跟我斗? 01/30 01:25
9F:推 TaipeiKindom: 好多英文,不过跟我想的一样 01/30 01:25
10F:→ sdbb : 可能是因为要先有gpt之流的强大模型 01/30 01:25
11F:→ sdbb : 才能模型教模型 01/30 01:25
12F:→ sdbb : 0到1是最难的 01/30 01:26
13F:→ ken85 : 所以openAI刚开始的数据蒐集 商业化也会危险吗 01/30 01:26
14F:推 ABC610478 : 专业 01/30 01:29
15F:→ IBIZA : DeepSeek的论文自己说 在没有任何监督数据的情况下 01/30 01:29
16F:→ IBIZA : 自我演化 01/30 01:29
17F:→ IBIZA : DS是不贴标签的 01/30 01:29
18F:推 TaipeiKindom: 用AI训练AI,天网一定就是这样诞生的 01/30 01:30
19F:推 ntr203 : 找学霸帮我画重点的意思 靠腰阿如果重点越画越细, 01/30 01:31
20F:→ ntr203 : 到最後不就等於学霸在答题 01/30 01:31
21F:推 meta41110 : 一个互尻的概念0.0 01/30 01:32
22F:→ jo4 : 自我演化给时间就变AGI了阿 恭喜实现AGI 01/30 01:33
23F:→ jo4 : 几个月就超越GPT 想必年底就屌打GPT了吧 01/30 01:34
※ 编辑: LDPC (76.21.72.78 美国), 01/30/2025 01:41:19
24F:推 sean667cd : LD大是薯条之王,加大是直接一卡车 01/30 01:48
※ 编辑: LDPC (76.21.72.78 美国), 01/30/2025 01:59:34
25F:嘘 Wolverin5566: 西神坛 01/30 02:04
26F:推 applejone : 我认为是有的 01/30 02:12
27F:推 ProTrader : 从资工人的角度看这种做法很合理啊 01/30 02:35
28F:→ ProTrader : 比较值得讨论的是为何会被中国人先做出来 01/30 02:35
29F:→ ProTrader : 照理说 那些大厂里的资工高手一定想的到 01/30 02:36
30F:→ iamacomic : 矽谷大老发文就是不一样 01/30 02:41
31F:推 kuso198610 : 大概觉得没必要?一直叠高阶晶片就好了 01/30 05:09
32F:→ morisontw : 不可能没有监督 机器学习中无监督都是没意义的东西 01/30 06:31
33F:→ morisontw : 最後有意义的东西都是後来人类赋予上去的 01/30 06:32
34F:→ morisontw : 有些看来没监督的东西只是你表面看不出来监督 01/30 06:33
35F:→ morisontw : 其实初始都是从人类监督开始的 01/30 06:34
36F:→ morisontw : k-means 分的类你不定义就是看起来很酷的垃圾而已 01/30 06:36
37F:推 dongdong0405: 我已经和同事商量好年後要去卖酸菜鱼了(X 01/30 07:22
38F:推 mdkn35 : RL我记得不用给标签 只需要自订一个目标 01/30 07:42
39F:→ mdkn35 : 最典型的就是赛车越快到达目的地碰撞越少分数就越高 01/30 07:42
40F:推 mdkn35 : 但llm的回答千百种…好吧应该也算是一种标签 01/30 07:46
41F:推 wu0119 : 有点不懂,只不过跟我想的差不多。 01/30 08:03
42F:推 KrisNYC : 学到了 01/30 09:01
43F:→ sdbb : 总结就是模型教模型,好班的学生自己教自己 01/30 09:15
44F:→ sdbb : 以前的模型是老师教学生 01/30 09:16
45F:推 mamorui : 补充的是RLHF後衍生的方向是期待AI代替人类reward 01/30 09:43
46F:→ mamorui : ,R1让模型自训练 01/30 09:43
47F:→ mamorui : 曾有虚拟老师 https://imgur.com/7qegQQH 01/30 09:44







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP