Stock 板


LINE

※ 引述《LimYoHwan (gosu mage)》之铭言: : 标题: : 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型 : 来源: : Futu : 网址: : https://tinyurl.com/ydrtdbu8 : 内文: : 李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名 : 叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe : ek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 : Flash Thinking Experimental提炼出来的。 : https://i.imgur.com/kFg9GjU.jpeg : 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1 : 。 : S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1 : 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。 : S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力 : ,甚至可以媲美 Reinforcement Learning(强化学习)。 : OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好 : 的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间? : S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法: : 核心思想: : 如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力? : 方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率 : ! : 结果证明,这种方法比 OpenAI o1-preview 还要好! : 最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍 : 然很强! : 此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。 : 论文下载 : https://arxiv.org/pdf/2501.19393 连结或内文,完全是错的。 根本是脑残媒体在乱写。与论文事实不符。 先说论文结论: 模型表现: 经过不断的做实验试错, 终於从59000笔训练资料中, 找到一组1000笔AI训练资料, 可以在"部分考卷"上赢 OpenAI的一个很烂的模型,o1-preview。 其他考卷考出来的分数,依然惨输给 deepseek-R1,ChatGPT-o1。 成本:不到50美元。 也是只看 fine-tune 1000题,一次的成本。 而且,试了不知道几次, 终於找到一次, 可以在部分考卷上赢一个很烂的模型。 媒体文章中,忽略不计的成本,至少包含: base模型训练的成本(至少占成本99%) 研究人员不断试错找1000题的成本。 多组1000题,再用 Gemini 模型,产生fine-tune资料的成本。 其他错误资讯,媒体的内文写: 研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0。 完全错误。原始论文写: 先准备 59000笔训练资料,在不断的用各种方式,选1000笔资料,再将1000笔 Gemini 2.0 Flash Thinking 改写训练资料。 最後再用这些资料fine-tune Qwen2.5-32B-Instruct模型。 真的要乱写,也要写成蒸馏 Qwen2.5-32B的能力,而不是蒸馏 Gemini。 而且这种做法严格来说不叫蒸馏,叫fine-tune微调 结论: 研究没问题,找到了一种成本较低的流程,可产生可思考模型。但效果很一般。 一堆外行人,连论文都不看,在造假新闻。 媲美OpenAI-o1,deepseek-r1,连论文都没这样写,纯媒体造假。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.31.161 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1738887278.A.575.html
1F:推 fedona : 股版人看不懂英文 02/07 08:17
2F:→ cafein : 赞 02/07 08:17
3F:推 herculus6502: 反正这里是股版 02/07 08:36
4F:推 GOOGLEISGOD : 专业 02/07 08:42
6F:推 AGODC : 这就如同酒精酿造工艺,一般不懂的人认知上它就是某 02/07 08:46
7F:→ AGODC : 蒸馏原理,只是有加上一些前後加工的工序,本质上对 02/07 08:46
8F:→ AGODC : 一般人来说用「蒸馏」这个辞最好理解啊,未来这种类 02/07 08:46
9F:→ AGODC : 蒸馏或前後资料筛选再tune的东西会一箩筐,前面几个 02/07 08:46
10F:→ AGODC : 还分得出来差异,到後面出来几百几千个时,谁还分得 02/07 08:46
11F:→ AGODC : 出来用哪个方法?反而叫蒸馏是一般人最好理解的 02/07 08:46
12F:推 aaa80563 : 不然为什麽一堆-0.06的喷上天 02/07 08:48
13F:推 maxangel : 台湾媒体就不读书 当然不会认真写 02/07 08:50
14F:推 Laviathan : 蒸馏不一定是监督式学习,但微调是监督式学习,楼 02/07 08:50
15F:→ Laviathan : 上怎麽可以说都一样叫蒸馏 02/07 08:50
16F:→ wr : 简单来说 只要你能从六万笔资料中找到那1000笔资料 02/07 08:51
17F:→ wr : 你就可以弄出跟gemini很接近的能力 02/07 08:51
18F:→ wr : 也就是说 如何找到那1000笔资料的技术应该可以卖钱 02/07 08:53
19F:推 dani1992 : 按你描述是从Gemini蒸馏微调Qwen没错啊 02/07 08:54
20F:→ wr : 至於训练出来的东西 就随便应用端去天马行空了 02/07 08:54
21F:推 gift1314520 : 笑不给他资料库看他怎麽学习 02/07 08:58
22F:推 LDPC : 大大 建议你自删 这就是蒸馏。是你自己不懂 02/07 09:01
23F:推 p122607 : 这也是蒸馏的一种… 02/07 09:05
24F:嘘 Lowpapa : 整篇误导 02/07 09:06
25F:推 laidawn : 推,看不懂 02/07 09:06
26F:推 LDPC : 作者自己paper都说 1000题从gemini thinking distil 02/07 09:08
27F:→ LDPC : l 02/07 09:08
28F:→ LDPC : 这已经不是你第一次乱呛 结果自己搞错=_= 02/07 09:09
29F:→ LDPC : paper 第一页 右下方就讲distilled from gemini thi 02/07 09:10
30F:→ LDPC : nking experimental 02/07 09:10
31F:推 ab4daa : 稳 02/07 09:12
32F:推 kungwei : 专业给推 02/07 09:13
33F:推 y800122155 : 贴出来骗人下车的啊 02/07 09:13
34F:推 LDPC : 哪来专业..=_= 02/07 09:14
35F:推 oopFoo : 必须推。s1来蹭r1的。s1论文根本就不实际,也不实用 02/07 09:27
36F:推 oopFoo : s1这篇论文只是来骗篇数的。phd的悲哀。 02/07 09:32
37F:→ emind : 论文主旨是test-time compute 也放在标题了。Ilya 02/07 09:40
38F:→ emind : 在2024 Neurips 也讲inference time compute. 02/07 09:40
39F:→ emind : 宣传成本什麽的很好笑 02/07 09:41
40F:→ DrTech : 这篇论文的distilled意思,与前几年大家在做transfo 02/07 10:14
41F:→ DrTech : rmer模型时的蒸馏,完全不同意思。是违反学术常规定 02/07 10:14
42F:→ DrTech : 义,自创的定义,意思是用Gemini 模型,生成新的训 02/07 10:14
43F:→ DrTech : 练资料。硬扯没意义,论文实际上跑出来的分数就是大 02/07 10:14
44F:→ DrTech : 输OpenAI-o1或deepseek-r1。新闻写媲美本来就是乱写 02/07 10:14
45F:→ DrTech : 。 02/07 10:14
46F:推 Denny224 : 推一个 这才是认知中的学术研究 02/07 10:15
47F:→ DrTech : 我对於研究成果没有否定,但新闻媒体乱报也是事实。 02/07 10:16
48F:→ DrTech : 蒸馏模型model distillation本来是模型权重数量压缩 02/07 10:23
49F:→ DrTech : 的一种技术。结果这篇文章用的蒸馏,意思是用模型生 02/07 10:23
50F:→ DrTech : 成训练用的文字资料,不是学术界正式的用语。所以目 02/07 10:23
51F:→ DrTech : 前只能放在arxiv,连正式的学术审稿都没过。 02/07 10:23
52F:→ DrTech : 基底模型是Qwen2.5-32B,然後少量Gemini模型生成资 02/07 10:30
53F:→ DrTech : 料微调参数,再怎麽蒸馏,硬要扯,也是在蒸馏Qwen2. 02/07 10:30
54F:→ DrTech : 5-32B的能力。 02/07 10:30
55F:→ holien : 现在学术研究为了比快,有人会先放在arrive,宣示 02/07 10:31
56F:→ holien : 自己的成果。 02/07 10:31
57F:→ DrTech : 蒸馏老半天,结果还是输deepseek-R1阿。论文都写了 02/07 10:31
58F:→ DrTech : 。 02/07 10:31
59F:→ DrTech : 研究贡献也不在 "媲美deepseek-R1" 明明就输很大, 02/07 10:38
60F:→ DrTech : 标题乱写而已。 02/07 10:38
61F:推 newyorker54 : 我书读的不多 02/07 10:45
62F:→ newyorker54 : 所以结论是deepseek r1继续用? 02/07 10:46
63F:推 atpx : 推 02/07 10:46
64F:推 kissa0924307: 结论NVDA续抱 02/07 11:04
65F:推 stlinman : 说个笑话李飞飞不懂学术界正式用语! 02/07 11:11
66F:推 clou : 白痴媒体真的多,不过想想也是因为有这些股市才能赚 02/07 11:12
67F:嘘 watashino : 蒸馏没错啊 但确实也是在fine tune 02/07 11:18
68F:→ ImHoluCan : 原来是Dr,专业 02/07 11:31
69F:→ ImHoluCan : Dr大真的专业的,很多人看新闻不自己去查一下 02/07 11:33
70F:→ ImHoluCan : 有人会不认识这Dr兄? 还在那反驳Dr兄,以後好人就 02/07 11:36
71F:→ ImHoluCan : 越来越少人发文了 02/07 11:36
72F:嘘 HenryLin123 : 这咖我记得业内人士也在推面板股的,我有没有记错 02/07 11:56
73F:→ HenryLin123 : ? 02/07 11:56
74F:推 greprep : 推专业良心 02/10 23:49







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP