作者dansy (Eye Taiwan)

看板Stock

标题

Re: [情报] 50美元训练出媲美DeepSeek R1

时间Thu Feb 6 21:09:21 2025

大家都被训练成本给迷惑说穿了训练AI就像培养人才真正重点是"教材内容正确性"，以及"学习成果的评价回馈" (就是老师要改作业) 对应的是"输入资料正确性"，并且存在"有效的回馈机制来修正权重" 资料部分虽然OpeAI/Gemini基本已经将网际网路上公开资料爬完但还有许多真正有用的专利知识属於商业机密但只要是机密就不会公开，所以各家AI模型压根没有学习的机会 (这也是多数公司想用开源DS做本地训练&部署的原因--保密) 而回馈机制则需要建立一个能够足够精确的虚拟真实世界系统才能让AI在其中去进行各种试错，得到回馈进而学习但这明显互相矛盾人类正是因为知识不足，故无法打造出一个"足够真实的虚拟世界"给AI做回馈用所以这就造成现有的大模型能创作、能画画、能唱歌但对於多数需要物理、逻辑能力的进阶用户并无明显助益毕竟专家都会读paper/google，大模型只是再帮你浓缩整理一次公开资料罢了即便再怎麽加强推理过程机制，但缺乏足够真实的虚拟系统给AI试错也就没有回馈作用，起不到让AI持续修正权重(进化)的作用简而言之现阶段即便奥特曼再怎麽嘴炮，孙正义有再多钱砸训练出来的LLM终究是google浓缩器、PPT产生器、诗词吟唱器罢了 ※ 引述《ImHoluCan (爷)》之铭言： : 好的 : google 要不要把昨天财报上的说750亿设备支出 : 变成50美元支出？ : 李飞飞能直接表明蒸馏Google : Google 最好不知道还给你研究所蒸馏 : 那昨天Google 财报2025还要支出750亿呢？ : 还是明天台湾派人去蒸馏meta Google chatGPT? : 看看他们要不要给蒸馏 : ※ 引述《LimYoHwan》之铭言 : : 标题： : : 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型 : : 来源： : : Futu : : 网址： : : https://tinyurl.com/ydrtdbu8 : : 内文： : : 李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名 : : 叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSe : : ek的R1等尖端推理模型类似。研究人员表示，s1是通过蒸馏法由谷歌推理模型Gemini 2.0 : : Flash Thinking Experimental提炼出来的。 : : https://i.imgur.com/kFg9GjU.jpeg : : 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法，被称为 S1 : : 。 : : S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能！同时匹敌Deepseek R1 : : 推理时间可控：S1 通过简单的“Wait”机制，控制大模型的思考时间，提高推理能力。 : : S1 不是 OpenAI o1 或 DeepSeek R1 的直接复刻，但它揭示了在推理时微调 AI 的潜力 : : ，甚至可以媲美 Reinforcement Learning（强化学习）。 : : OpenAI 和 DeepSeek 早期研究发现，AI 在回答问题时“思考得更久”，往往能得出更好 : : 的答案。但过去并没有清楚解释：如何在推理阶段控制 AI 的思考时间？ : : S1 的创新点： S1 论文提供了推理时间扩展（Inference Scaling）的具体实现方法： : : 核心思想： : : 如何在不改变 AI 训练过程的情况下，提高 AI 解决复杂问题的能力？ : : 方法：让 AI 在推理时“多想几秒”，自动检查自己的答案，从而减少错误，提高正确率 : : ！ : : 结果证明，这种方法比 OpenAI o1-preview 还要好！ : : 最重要的是：而且只用了 1000 道题！这比一般 AI 训练的数据少了 800 倍，但效果仍 : : 然很强！ : : 此外，该模型可以在笔记本电脑上运行，并且其训练成本仅为 6 美元。 : : 论文下载 : : https://arxiv.org/pdf/2501.19393 : ---- --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.253.240.81 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1738847363.A.943.html

1^F：→ ssarc : 这样不够吗？ 02/06 21:13

2^F：→ jo4 : 现在都在用AI探索未知的知识了像蛋白质 02/06 21:13

3^F：→ jo4 : 如果公司机密也当成未知的知识被AI破解也早晚而已 02/06 21:14

4^F：推 sheng76314 : 没阿 DS推理不用人类介入自己跟自己对羿 02/06 21:16

下棋是最好回馈的机制，根据规则就能判断胜负，丝毫没有模糊的空间但物理方程式的推导呢? AI能够根据思维链轻松创造出几百个前所未有的方程式但AI怎麽验证对错? 怎麽去验证是否符合人类所处的宇宙?

5^F：→ sheng76314 : 少了人类打标签 02/06 21:16

6^F：→ angusyu : 所以你真的懂生成式AI? 02/06 21:21

建议您先去了解，为何黄仁勳要创造一个虚拟工厂，来训练AI机器人的原因吧!

7^F：嘘 PureAnSimple: 过程中的烟花不重要的软体不用一直理它发文 02/06 21:22

8^F：→ PureAnSimple: 更是浪费 02/06 21:22

9^F：推 Shiang1225 : 好吧那AI还是拿来作meme吧 02/06 21:22

10^F：推 stlinman : 别的先不扯，目前光是AI LLM可以自己去生成思维链 02/06 21:23

11^F：推 breathair : 如果只是这样，干嘛花一堆钱堆算力？堆 02/06 21:24

12^F：→ breathair : 算力不会提升模型的智力吗？同样拥有全 02/06 21:24

13^F：→ breathair : 世界的资料，智商140跟90差异会很明 02/06 21:24

14^F：→ breathair : 显吧？ 02/06 21:24

15^F：→ stlinman : （CoT）就够厉害了!学习反馈LR就够让人期待未来。 02/06 21:25

16^F：→ stlinman : 强调一下我说的生成思维链是像围棋一样去想"棋路"。 02/06 21:28

同上下棋有明确胜负，不重复解释各种回馈写法并不是重点，而是AI如何能得到"是否符合人类世界"的回馈? 就像爱因斯坦推导狭义相对论方程，但还是需要爱丁顿在非洲观察日食来验证除非人类能创造出一个无限逼近於现实世界的虚拟系统，能让AI在其中无限试错学习否则任何自回馈都只是幻觉罢了

17^F：→ pujos : 李飞飞定义里AI有两个面向，语言跟行动 02/06 21:43

18^F：推 ImHoluCan : AI大师要带领台湾组AI team 吗？ 02/06 21:43

19^F：→ pujos : 她们现在在做的就是行动那部份，语言已经是上一趴的 02/06 21:44

20^F：→ pujos : 事了 02/06 21:44

21^F：→ ImHoluCan : 你以为AI 只有LLM ? 02/06 21:44

22^F：推 wallace366 : 推这篇文章，能否真的做出世界模型，仿造真实世界物 02/06 21:45

23^F：→ wallace366 : 理规则才是ai能够实际应用的重点。 02/06 21:45

24^F：→ pujos : 我们行为举止很直觉的事，现在要转化成电子输出还很 02/06 21:45

25^F：→ pujos : 困难 02/06 21:45

26^F：→ ImHoluCan : 黄董2月不是有讲？你AI大师怎麽不上台？ 02/06 21:46

27^F：→ ImHoluCan : 台厂有半岛体厂已在用机器人，就Nvidia 搞的，你没 02/06 21:47

28^F：→ ImHoluCan : 看过？ 02/06 21:47

现有的逻辑都是PLC预先编程写好的好像还没见过能即时自主推论的机器人在线上

29^F：→ kinda : 理论物理学家要什麽回馈？轻小说家有去过异世界？ 02/06 21:47

30^F：→ ImHoluCan : 真的不进产线的ㄧ堆肥猫，不知道台厂有在搞这块 02/06 21:48

※ 编辑: dansy (111.253.240.81 台湾), 02/06/2025 21:55:05

31^F：→ ImHoluCan : 机器人早就在搞，对岸也早在搞，是台湾ㄧ般人除了 02/06 21:51

32^F：→ ImHoluCan : 产线仔有些会看到，其它大肥猫都没进产线，还以为 02/06 21:51

33^F：→ ImHoluCan : 黄董搞机器人是乱讲 02/06 21:51

34^F：推 ImHoluCan : 难怪台湾没有DeepSeek ，我也是代工仔 02/06 21:53

35^F：→ pujos : 你连看都看不懂人家在搞什麽，还工厂... 02/06 21:55

36^F：→ scott01 : 只要申请专利就是公开技术了各国的专利申请机构都 02/06 22:34

37^F：→ scott01 : 能查到专利内容找不到的是被公司列为机密文件的技 02/06 22:34

38^F：→ scott01 : 术但通常也能透过一些研讨会找到线索 02/06 22:34

39^F：推 ohha0221 : 其实随便一个产品的硬体设计图就机密文件了啊 AI再 02/07 01:48

40^F：→ ohha0221 : 怎麽会google也捞不到资料啊除非有人外流到网路上 02/07 01:48

41^F：→ ohha0221 : 像这类问题去问AI永远得不到正确答案 02/07 01:49

42^F：推 gauurgr1016 : 这篇正解 02/07 07:26

43^F：推 parttime : 能力限制了你的想象。 02/07 07:41

44^F：嘘 ma721 : 所以你认为你的世界也是幻觉 02/07 09:25

45^F：推 a89182a89182: 标准错误答案 02/07 12:45

46^F：→ a89182a89182: 不知道你的AI是哪个老辉阿教的 02/07 12:45

47^F：→ dildoe : 钱赚得不够的惨业多连机器手臂都没看过QQ 02/07 20:07

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

Re: [情报] 50美元训练出媲美DeepSeek R1

热门看板

赞助商连结