作者ohlong (强森)
看板Stock
标题Re: [新闻] DeepSeek R1来了,追平o1!它现在不
时间Mon Jan 27 20:36:44 2025
https://reurl.cc/Q5gWM2
这篇有帮大家看过paper了
基本上就是在chain of thought inference 推理的时候
reinforcement跟supervised比例的尝试
数理问题RL比重高点
需要文法的文字问题supervised比重多一点
感觉是training手法的不同
跟model的运算架构没啥关系
我是觉得有点过誉辣
RL天马行空不见得效率会一直比较好
最後还是得靠堆算力
但是deepseek的成功背後代表的事是
人类的思考框架永远比想像中的蠢=_=
找一个蠢蛋去supervised 只会得到一个蠢蛋
※ 引述《kobebrian》之铭言
: 先说 我完全不懂DS的算法 也不懂open ai的算法
: 但既然DS开源 那大家都能使用的情况下 未来AI迭代肯定加速
: 有人说我用1/50的算法就可以做到一样的功能...是啊大家都可以用这套算法的情况下 那
: 还是得拼硬体
: 我用更强大的硬体可以推出更好的产品、服务 除非今天硬体本身的上限到了 没办法再有
: 更好的硬体来加速运算
: 不然这些大公司要怎麽赢过有同样效率、算法的对手?我硬体先用到顶规 再来用软体拼
: 赢 还是有人觉得这些大公司挖金矿敢用次级铲子?
: 就是那些小公司现在也「可能」有本钱下来市场玩 他们可能可以用次一等的铲子来挖 推
: 出没那麽好但便宜的产品 这会让整个硬体的市场扩大 以前只能是最顶规的硬体跟AI有关
: 现在不是
: 而且也就是「可能」而已
: -----
: Sent from MeowPtt on my iPhone
----
Sent from
BePTT on my iPhone 15 Pro
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.139.179.137 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1737981406.A.5D5.html
1F:推 ben108472 : 看股市反应成这样就知道人类真的是白痴 01/27 20:37
2F:推 kobebrian : 没关系 你要当没那麽白痴的那个(不是说你不是白痴 01/27 20:40
3F:→ kobebrian : 也不是骂你白痴 01/27 20:40
4F:推 sd2567 : 不是人很蠢 是你的大脑比想像中更强 01/27 20:45
5F:→ lonelyQQ : 看完了台股完蛋 01/27 20:48
6F:→ lookapen : 这种手法会有专项偏颇的情况, 应该不容易广泛适用 01/27 21:46