作者dansy (Eye Taiwan)
看板Stock
标题Re: [情报] 50美元训练出媲美DeepSeek R1
时间Thu Feb 6 21:09:21 2025
大家都被训练成本给迷惑
说穿了训练AI就像培养人才
真正重点是"教材内容正确性",以及"学习成果的评价回馈" (就是老师要改作业)
对应的是"输入资料正确性",并且存在"有效的回馈机制来修正权重"
资料部分虽然OpeAI/Gemini基本已经将网际网路上公开资料爬完
但还有许多真正有用的专利知识属於商业机密
但只要是机密就不会公开,所以各家AI模型压根没有学习的机会
(这也是多数公司想用开源DS做本地训练&部署的原因--保密)
而回馈机制则需要建立一个能够足够精确的虚拟真实世界系统
才能让AI在其中去进行各种试错,得到回馈进而学习
但这明显互相矛盾
人类正是因为知识不足,故无法打造出一个"足够真实的虚拟世界"给AI做回馈用
所以这就造成现有的大模型能创作、能画画、能唱歌
但对於多数需要物理、逻辑能力的进阶用户并无明显助益
毕竟专家都会读paper/google,大模型只是再帮你浓缩整理一次公开资料罢了
即便再怎麽加强推理过程机制,但缺乏足够真实的虚拟系统给AI试错
也就没有回馈作用,起不到让AI持续修正权重(进化)的作用
简而言之现阶段即便奥特曼再怎麽嘴炮,孙正义有再多钱砸
训练出来的LLM终究是google浓缩器、PPT产生器、诗词吟唱器罢了
※ 引述《ImHoluCan (爷)》之铭言:
: 好的
: google 要不要把昨天财报上的说750亿设备支出
: 变成50美元支出?
: 李飞飞能直接表明蒸馏Google
: Google 最好不知道还给你研究所蒸馏
: 那昨天Google 财报2025还要支出750亿呢?
: 还是明天台湾派人去蒸馏meta Google chatGPT?
: 看看他们要不要给蒸馏
: ※ 引述《LimYoHwan》之铭言
: : 标题:
: : 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型
: : 来源:
: : Futu
: : 网址:
: : https://tinyurl.com/ydrtdbu8
: : 内文:
: : 李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名
: : 叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe
: : ek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0
: : Flash Thinking Experimental提炼出来的。
: : https://i.imgur.com/kFg9GjU.jpeg
: : 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1
: : 。
: : S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
: : 推理时间可控:S1 通过简单的“Wait”机制,控制大模型的思考时间,提高推理能力。
: : S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻,但它揭示了在推理时微调 AI 的潜力
: : ,甚至可以媲美 Reinforcement Learning(强化学习)。
: : OpenAI 和 DeepSeek 早期研究发现,AI 在回答问题时“思考得更久”,往往能得出更好
: : 的答案。但过去并没有清楚解释:如何在推理阶段控制 AI 的思考时间?
: : S1 的创新点: S1 论文提供了推理时间扩展(Inference Scaling)的具体实现方法:
: : 核心思想:
: : 如何在不改变 AI 训练过程的情况下,提高 AI 解决复杂问题的能力?
: : 方法:让 AI 在推理时“多想几秒”,自动检查自己的答案,从而减少错误,提高正确率
: : !
: : 结果证明,这种方法比 OpenAI o1-preview 还要好!
: : 最重要的是:而且只用了 1000 道题! 这比一般 AI 训练的数据少了 800 倍,但效果仍
: : 然很强!
: : 此外,该模型可以在笔记本电脑上运行,并且其训练成本仅为 6 美元。
: : 论文下载
: : https://arxiv.org/pdf/2501.19393
: ----
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.253.240.81 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1738847363.A.943.html
1F:→ ssarc : 这样不够吗? 02/06 21:13
2F:→ jo4 : 现在都在用AI探索未知的知识了像蛋白质 02/06 21:13
3F:→ jo4 : 如果公司机密也当成未知的知识 被AI破解也早晚而已 02/06 21:14
4F:推 sheng76314 : 没阿 DS推理不用人类介入 自己跟自己对羿 02/06 21:16
下棋是最好回馈的机制,根据规则就能判断胜负,丝毫没有模糊的空间
但物理方程式的推导呢?
AI能够根据思维链轻松创造出几百个前所未有的方程式
但AI怎麽验证对错? 怎麽去验证是否符合人类所处的宇宙?
5F:→ sheng76314 : 少了人类打标签 02/06 21:16
6F:→ angusyu : 所以你真的懂生成式AI? 02/06 21:21
建议您先去了解,为何黄仁勳要创造一个虚拟工厂,来训练AI机器人的原因吧!
7F:嘘 PureAnSimple: 过程中的烟花 不重要的软体 不用一直理它 发文 02/06 21:22
8F:→ PureAnSimple: 更是浪费 02/06 21:22
9F:推 Shiang1225 : 好吧那AI还是拿来作meme吧 02/06 21:22
10F:推 stlinman : 别的先不扯,目前光是AI LLM可以自己去生成思维链 02/06 21:23
11F:推 breathair : 如果只是这样,干嘛花一堆钱堆算力?堆 02/06 21:24
12F:→ breathair : 算力不会提升模型的智力吗?同样拥有全 02/06 21:24
13F:→ breathair : 世界的资料,智商140跟90差异会很明 02/06 21:24
14F:→ breathair : 显吧? 02/06 21:24
15F:→ stlinman : (CoT)就够厉害了!学习反馈LR就够让人期待未来。 02/06 21:25
16F:→ stlinman : 强调一下我说的生成思维链是像围棋一样去想"棋路"。 02/06 21:28
同上 下棋有明确胜负,不重复解释
各种回馈写法并不是重点,而是AI如何能得到"是否符合人类世界"的回馈?
就像爱因斯坦推导狭义相对论方程,但还是需要爱丁顿在非洲观察日食来验证
除非人类能创造出一个无限逼近於现实世界的虚拟系统,能让AI在其中无限试错学习
否则任何自回馈都只是幻觉罢了
17F:→ pujos : 李飞飞定义里AI有两个面向,语言跟行动 02/06 21:43
18F:推 ImHoluCan : AI大师要带领台湾组AI team 吗? 02/06 21:43
19F:→ pujos : 她们现在在做的就是行动那部份,语言已经是上一趴的 02/06 21:44
20F:→ pujos : 事了 02/06 21:44
21F:→ ImHoluCan : 你以为AI 只有LLM ? 02/06 21:44
22F:推 wallace366 : 推这篇文章,能否真的做出世界模型,仿造真实世界物 02/06 21:45
23F:→ wallace366 : 理规则才是ai能够实际应用的重点。 02/06 21:45
24F:→ pujos : 我们行为举止很直觉的事,现在要转化成电子输出还很 02/06 21:45
25F:→ pujos : 困难 02/06 21:45
26F:→ ImHoluCan : 黄董2月不是有讲? 你AI大师怎麽不上台? 02/06 21:46
27F:→ ImHoluCan : 台厂有半岛体厂已在用机器人,就Nvidia 搞的,你没 02/06 21:47
28F:→ ImHoluCan : 看过? 02/06 21:47
现有的逻辑都是PLC预先编程写好的 好像还没见过能即时自主推论的机器人在线上
29F:→ kinda : 理论物理学家要什麽回馈?轻小说家有去过异世界? 02/06 21:47
30F:→ ImHoluCan : 真的不进产线的ㄧ堆肥猫,不知道台厂有在搞这块 02/06 21:48
※ 编辑: dansy (111.253.240.81 台湾), 02/06/2025 21:55:05
31F:→ ImHoluCan : 机器人早就在搞,对岸也早在搞,是台湾ㄧ般人除了 02/06 21:51
32F:→ ImHoluCan : 产线仔有些会看到,其它大肥猫都没进产线,还以为 02/06 21:51
33F:→ ImHoluCan : 黄董搞机器人是乱讲 02/06 21:51
34F:推 ImHoluCan : 难怪台湾没有DeepSeek ,我也是代工仔 02/06 21:53
35F:→ pujos : 你连看都看不懂人家在搞什麽,还工厂... 02/06 21:55
36F:→ scott01 : 只要申请专利就是公开技术了 各国的专利申请机构都 02/06 22:34
37F:→ scott01 : 能查到专利内容 找不到的是被公司列为机密文件的技 02/06 22:34
38F:→ scott01 : 术 但通常也能透过一些研讨会找到线索 02/06 22:34
39F:推 ohha0221 : 其实随便一个产品的硬体设计图就机密文件了啊 AI再 02/07 01:48
40F:→ ohha0221 : 怎麽会google也捞不到资料啊 除非有人外流到网路上 02/07 01:48
41F:→ ohha0221 : 像这类问题去问AI永远得不到正确答案 02/07 01:49
42F:推 gauurgr1016 : 这篇正解 02/07 07:26
43F:推 parttime : 能力限制了你的想象。 02/07 07:41
44F:嘘 ma721 : 所以你认为你的世界也是幻觉 02/07 09:25
45F:推 a89182a89182: 标准错误答案 02/07 12:45
46F:→ a89182a89182: 不知道你的AI是哪个老辉阿教的 02/07 12:45
47F:→ dildoe : 钱赚得不够的惨业多连机器手臂都没看过QQ 02/07 20:07