作者icrose (人本良心)
看板Stock
标题[新闻] DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也
时间Wed Jan 22 08:58:28 2025
原文标题:DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力
原文连结:
https://finance.sina.com.cn/tech/internet/2025-01-21/doc-inefsutf8860181.shtml
发布时间:2025年01月21日 09:42
记者署名:王兆洋
原文内容:
在DeepSeek V3一个月前惊艳亮相後,它背後的「能量来源」DeepSeek R1系列正式发布。
1月20日,DeepSeek在Huggingface上上传了R1系列的技术报告和各种信息。
按照DeepSeek的介绍,它这次发布了三组模型:1)DeepSeek-R1-Zero,它直接将RL应用於基座模型,没有任何SFT数据,2)DeepSeek-R1,它从经过数千个长思想链(CoT)示例微调的检查点开始应用RL,和3)从DeepSeek-R1中蒸馏推理能力到小型密集模型。
DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高於OpenAI-o1-1217。在MATH-500上,它获得了97.3%的惊人成绩,表现与OpenAI-o1-1217相当,并明显优於其他模型。在编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优於96.3%的人类参与者。对於工程相关的任务,DeepSeek-R1的表现略优於OpenAI-o1-1217。
「RL is all you need」
此次技术报告里披露的技术路线,最让人惊叹的是R1 Zero的训练方法。
DeepSeek R1 放弃了过往对预训练大模型来说必不可少甚至最关键的一个训练技巧——SFT。SFT(微调)简单说,就是先用大量人工标准的数据训练然後再通过强化学习让机器自己进一步优化,而RL(强化学习)简单说就是让机器自己按照某些思维链生成数据自己调整自己学习。SFT的使用是ChatGPT当初成功的关键,而今天R1 Zero完全用强化学习取代了SFT。
而且,效果看起来不错。报告显示,随着强化学习训练过程的进行,DeepSeek-R1-Zero 的性能稳步提升。比如,「在 AIME 2024 上,DeepSeek-R1-Zero 的平均 pass@1 得分从最初的 15.6% 跃升至令人印象深刻 71.0%,达到与 OpenAl-o1-0912 相当的性能水平。这一重大改进突显了我们的 RL 算法在优化模型性能方面的有效性。」
但R1 zero本身也有问题,因为完全没有人类监督数据的介入,它会在一些时候显得混乱。为此DeepSeek用冷启动和多阶段RL的方式,改进了一个训练流程,在R1 zero基础上训练出更「有人味儿」的R1。这其中的技巧包括:
冷启动数据引入—— 针对 DeepSeek-R1-Zero 的可读性和语言混杂问题,DeepSeek-R1 通过引入数千条高质量的冷启动数据进行初始微调,显着提升了模型的可读性和多语言处理能力;
两阶段强化学习——模型通过两轮强化学习不断优化推理模式,同时对齐人类偏好,提升了多任务的通用性;
增强型监督微调——在强化学习接近收敛时,结合拒绝采样(Rejection Sampling)和多领域的数据集,模型进一步强化了写作、问答和角色扮演等非推理能力。
可以看出来,R1系列与GPT,甚至OpenAI的o系列看起来的做法相比,在对待「有监督数据」上都更加激进。不过这也合理,当模型的重点从「与人类的交互」变成「数理逻辑」,前者是有大量的现成的数据的,但後者很多都是停留在脑子里的抽象思考,没有现成数据可以用,而寻找那些奥数大师们一个个罗列和标注他们脑子里的解题思路,显然又贵又耗时。让机器自己产生某种同样存在它自己脑子里的数据链条,是合理的做法。
论文里另一个很有意思的地方,是R1 zero训练过程里,出现了涌现时刻,DeepSeek把它们称为「aha moment」。
技术报告里提到,DeepSeek-R1-Zero 在自我进化过程中展现了一个显着特点:随着测试阶段计算能力的提升,复杂行为会自发涌现。例如,模型会进行「反思」,即重新审视并评估之前的步骤,还会探索解决问题的替代方法。这些行为并非通过明确编程实现,而是模型与强化学习环境交互的自然产物,大大增强了其推理能力,使其能够更高效、更精准地解决复杂任务。
「它突显了强化学习的力量和美丽:与其明确地教模型如何解决问题,我们只需为其提供正确的激励,它就会自主地开发先进的问题解决策略。这一「顿悟时刻」有力地提醒了强化学习在解锁人工智能新水平方面的潜力,为未来更自主、更适应的模型铺平了道路。」
蒸馏,蒸馏,欢迎大家一起来蒸馏
在DeepSeek的官方推文里,所有介绍的重点并不在R1模型技巧或R1模型榜单成绩,而是在蒸馏。
「今天,我们正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线API,对用户开放思维链输出,通过设置 `model='deepseek-reasoner'` 即可调用。DeepSeek 官网与 App 即日起同步更新上线。」
这是它官方发布的头几句话。
DeepSeek在R1基础上,用Qwen和Llama蒸馏了几个不同大小的模型,适配目前市面上对模型尺寸的最主流的几种需求。它没有自己搞,而是用了两个目前生态最强大,能力也最强大的开源模型架构。Qwen 和 Llama 的架构相对简洁,并提供了高效的权重参数管理机制,适合在大模型(如 DeepSeek-R1)上执行高效的推理能力蒸馏。蒸馏过程不需要对模型架构进行复杂修改,减少了开发成本。而且,直接在 Qwen 和 Llama 上进行蒸馏训练比从头训练一个同规模的模型要节省大量的计算资源,同时可以复用已有的高质量参数初始化。
这是DeepSeek打的一手好算盘。
而且,效果同样不错。
「我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。」
此外,在技术方向上,这也给业界带来启发:
对小模型来说,蒸馏优於直接强化学习:从 DeepSeek-R1 蒸馏得到的小模型在多个推理基准(如 AIME 2024 和 MATH-500)上的表现优於直接对小模型进行强化学习。大模型学到的推理模式在蒸馏中得到了有效传递。
DeepSeek比OpenAI更有活力
如果简单来概括R1系列的发布,DeepSeek用巨大的算力和各类资源,训练了一个强大的底层模型——这个叫做R1 zero的模型,在训练过程里直接抛弃了GPT系列为代表的SFT等预训练技巧,直接激进地几乎全部依赖强化学习,造出了一个仅靠自己反思就拥有泛化能力的模型。
然後,因为全是「自我反思」学出来的能力,R1 zero有时候会显得学的有点杂而混乱了,为了能够让人更好使用,DeepSeek用它自己的一系列技巧来让它和真实的场景做了对齐,改造出一个R1。
然後在此基础上,不是自己蒸馏小模型而是用几个最流行的开源框架蒸馏出来了几个最合适尺寸的模型。所有这些都开源给外界参考和使用。
整个过程里,DeepSeek显示出很强的自己自成一派的技术路线和风格。而这种路线正在和OpenAI正面交锋。
OpenAI的o系列此前陆续传出的训练方法上,对於「对齐」基本延续着GPT系列形成的风格,此前一名OpenAI负责训练安全和对齐部分的研究员曾对我们透露,他们内部,所谓安全和与人类对齐,其实和提高模型能力是同一件事。但後来随着o3的预告,同时发生的就是这些人类安全对齐机制的研究员的集体离职。这也让这家公司的创新变得遮遮掩掩,外部看来就是慢下来,且活力减少了。
这样的对比,也让DeepSeek在这个阶段的异军突起显得更让人期待。它比OpenAI更有活力。
从DeepSeek R系列来看,它的对齐放在了R1这个模型的训练阶段里,而R1 zero更像是只追求用最极致的强化学习方法自己练出强大的逻辑能力。人类反馈说喜不喜欢它,这些信息并没有太被混在最初R1 zero里面一起训练。
这继续在把「基础模型」的能力和实际使用的模型分开,最初GPT3和InstructGPT其实就是这样的思路,只不过当时是基础能力和人类偏好分开两阶段完成,现在是更抽象的基础逻辑能力和更强调实用性能和性价比的偏好。这也是为什麽V3之前被发现在文科类的能力上不强的原因。
所以,与「追上o1」相比,DeepSeek R1 zero证明出来的能力,和用它蒸馏出来的V3的惊艳,以及这次它又用Llama和Qwen蒸馏出来的几个小参数模型表现出来的能力,才是这一系列动作的关键。
在与人类交互这件事上,ChatGPT因为有GPT4提供的基础能力後,实现了突破,但OpenAI选择立刻闭源,这样就只有它自己能突破。在泛化出强大的数理推理能力这件事上,DeepSeek V3因为有DeepSeek R1的强大涌现才实现突破,而DeepSeek则把它开源,选择让大家都能一起突破。
DeepSeek对OpenAI的威胁是真实的,接下来的「比拼」会越来越有意思。
心得/评论:
DeepSeek-R1模型问世即爆火,在AI圈热度持续发酵。不到一天,他们公布在GitHub上的论文就获得5000多收藏
英伟达资深科学家、AI Agents业务负责人Jim Fan给予了极高评价,说DeepSeek-R1不仅开源了大量的模型(正式版+6款蒸馏模型),还分享了所有的训练细节和方法,可能是第一个充分展示强化学习(RL)飞轮效应显着,且仍在持续增长的开源项目。
中国对美国的追赶真的到了窒息的程度。openai显然不能叫openai,只能叫closeai了
再发酵几天,我相信nvdia的股价就会受到打击。高成本算力高歌猛进的时代即将终结
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.52.231.221 (中国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1737507516.A.88B.html
1F:→ mini178 : 吹吹吹 支那赢麻了 01/22 09:02
2F:推 PoLyGyNy : 中已经超越美了 看看中芯今年涨多少 台美半导体凉了 01/22 09:04
3F:推 xlaws : 这次赢几次 01/22 09:04
4F:推 tsubasawolfy: 第二名开心说我追平第一名的成果了 但不知道那是第 01/22 09:05
5F:→ tsubasawolfy: 一名多久前搞定跟加上限制後才丢出来的 01/22 09:05
6F:推 hakkacandy : 已下载 小孩爱吃 01/22 09:08
7F:推 s06i06 : 赢麻了 01/22 09:08
8F:→ hakkacandy : 但是人家开源,不要说追平,有 o1 8 9 成功力都很震憾 01/22 09:10
9F:→ hakkacandy : 你只要去买辉达 GPU 就能白嫖内 01/22 09:10
10F:→ GooglePixel : NVDA会受打击?你的模型是跑在人脑上吗 01/22 09:13
低成本会缩小算力需求。deepseek只有chatgpt训练成本1/10
※ 编辑: icrose (123.52.231.221 中国), 01/22/2025 09:14:29
11F:→ TsmcEE : ....Nv是卖铲子的 你再怎麽省力你还是要买铲子啊 01/22 09:13
如果算力只需要1/10,华爲的gpu也显得没那麽短板了
12F:嘘 iamjojo : 中吹又来 股票上根本反指标 嘻嘻 01/22 09:14
※ 编辑: icrose (123.52.231.221 中国), 01/22/2025 09:15:30
13F:推 fbiciamib123: 中国牛逼 01/22 09:15
14F:→ TsmcEE : 那个应该叫单位成本,你单位成本是别人1/10,那你应 01/22 09:18
但是现有总算力需求就是会瞬间减少9/10。nvdia的强需求势头就会跌落
你们説的未来总需求当然可能继续爆炸增长,但是我説的就是目前的短期总需求会暴跌
表现就是股价嘛。
15F:→ TsmcEE : 该是用更好的东西才能拉开差距,怎麽会买降规的东西 01/22 09:18
16F:→ TsmcEE : 来用 01/22 09:18
17F:嘘 chter : HF Leaderboard排第十名,牛逼在哪? 01/22 09:19
18F:嘘 pico80286 : 算力需求无止境,你讲的只是算力会变便宜,然後用 01/22 09:20
19F:→ pico80286 : 的人会变多,算力需求反而会暴增,因为大家都用得起 01/22 09:20
20F:→ pico80286 : 了 01/22 09:20
21F:→ pico80286 : 模型变的便宜,用的人变多,算力需求暴增,营业额上 01/22 09:22
22F:→ pico80286 : 升 01/22 09:22
23F:嘘 ohya111326 : 有人会嫌资源太多吗? 01/22 09:24
24F:嘘 fredsu : 用过就知道,推理能力很弱 01/22 09:26
25F:嘘 mini178 : 股版不能没有你 加油 吹起来 01/22 09:32
26F:嘘 sheep2009 : 用过超难用 难怪开源不敢收钱 01/22 09:32
※ 编辑: icrose (123.52.231.221 中国), 01/22/2025 09:35:44
27F:推 wudishidove : 华为的gpu是甚麽2025笑话吗?你真的以为一般人可以 01/22 09:34
28F:→ wudishidove : 用nv以外的显卡去算ai喔?cuda了解一下 01/22 09:34
29F:嘘 cheug0653 : 吹起来 01/22 09:37
30F:推 stlinman : 一边政府投钱拚算力,一边还在砸钱刻晶片。 01/22 09:47
31F:嘘 bigtree03 : 中又赢 01/22 09:49
32F:推 stlinman : 我家组合牛肉比你家养和牛便宜唷! 你家牧场就会受到 01/22 09:53
33F:→ stlinman : 打击。 01/22 09:53
34F:嘘 breathair : 只有SB以为AI在拼便宜XD 01/22 09:54
DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高於OpenAI-o1-1217。在MATH-500上,它获得了97.3%的惊人成绩,表现与OpenA
I-o1-1217相当
新闻好歹看仔细点
35F:嘘 ToastBen : 遥遥领先 01/22 09:57
36F:嘘 deepdish : 吹 01/22 09:57
※ 编辑: icrose (123.52.231.221 中国), 01/22/2025 10:00:24
37F:推 Pipline : 你快allin 01/22 10:16
38F:嘘 roseritter : 大家一起念 中必最赢 01/22 10:40
39F:推 pwseki206 : 对岸要钱有资金、要量有数据当然赢阿,人家美国学生 01/22 10:46
40F:→ pwseki206 : 没在念书都搞东搞西当然做学问被对岸屌打。只是以後 01/22 10:46
41F:→ pwseki206 : 全球两极化的趋势大概确立了:美国有华盛顿模式、对 01/22 10:47
42F:→ pwseki206 : 岸有北京模式。还当对岸都是一堆笨蛋?人家要玩长期 01/22 10:47
43F:→ pwseki206 : 布局後来居上绝对比只能短期讨好选民的西方强N倍呢 01/22 10:48
44F:推 ola1a1217 : 刚刚试用了一下DeepSeek,回覆内容比chatGPT更精细, 01/22 10:52
45F:推 a731977 : 根本没追平,但开源加很多分 01/22 11:16
46F:嘘 strlen : 说得真好 赶快一键出清 反手放空 财务自由就靠这次 01/22 11:32
47F:推 tompi : 用过 还不错 01/22 11:45
48F:嘘 akimu : 真的用过就知道多难用 01/22 11:56
49F:推 t803010 : 渐悟跟顿悟 01/22 12:04
50F:嘘 Blastodern : 中吹好了啦,後来居上多少年了还在後来居上?制度 01/22 12:56
51F:→ Blastodern : 缺陷让习维尼称帝却换不掉,不但一夜回到解放前, 01/22 12:56
52F:→ Blastodern : 还能再拖住中国20年国运,老子一尊就问你服不服? 01/22 12:56
53F:嘘 breathair : 笑死欸,AI拚的是领先,你CP值赢o1有 01/22 14:23
54F:→ breathair : 屁用,人家都又迭代了,AI不是比便宜 01/22 14:23
55F:→ breathair : 的,不是比较低性能分数高,而是不能跑 01/22 14:23
56F:→ breathair : 在前面就没有意义,不然为什麽要买H系 01/22 14:23
57F:→ breathair : 列?等GB系列不是直接算力成本省十几 01/22 14:23
58F:→ breathair : 倍? 01/22 14:23
59F:→ breathair : 真的傻傻的,完全跑错方向。笑死欸 01/22 14:26
60F:→ breathair : XDDDDDDDD 01/22 14:26
61F:→ sgeneral : 我文组看不懂 但有单我会很尊重 01/22 14:39
62F:推 chaohsiung : 蒸馏就是利用别人训练好的模型啊,跟在屁股後面,还 01/22 17:15
63F:→ chaohsiung : 以为自己很了不起 01/22 17:15
64F:嘘 f11IJ : 开放?我笑了 根本垃圾 01/27 23:29