作者s213092921 (麦靠贝)
看板Gossiping
标题Re: [问卦] 中国狗DeepSeek 模型好久没升级了
时间Mon Jan 5 11:04:21 2026
※ 引述《ryhma (k歌之王)》之铭言:
: 哈罗 你各位杂质
: 是我小伟辣
: 中国狗的深度求索(DeepSeek)人工智慧还在R1
: 号称五百万美金训练出来的模型
: 打趴欧美各国人工智慧模型
: 好久更新模型惹
: 怎麽办罗福莉会不会被抓去劳改
: 八卦版中国狗赶快来嘘我
: 蓝白狗赶快来嘘
: 西西
元旦Deepseek发表的论文公布名为「流形约束超连接」(Manifold-Constrained Hyper-Connections)的新框架
这项技术透过优化神经网路架构,在仅增加 6.7% 训练时间的情况下大幅提升训练稳定性,这在大型模型训练中被视为非常低且可接受的代价。
这技术可以把大模型做宽,以前的垃圾卡H20都可以拿来训练新的模型
https://youtu.be/1s3dvNr8JzE
Closed AI及Google都不敢挑战的做宽大模型,Deepseek搞定了
近期即将发布的V4模型大概又要屠榜兼价格屠夫了
原理请看下面的新闻内文
该篇论文彻底终结由 AI 教父何恺明团队於 2016 年提出的旧时代霸主:ResNet(深度残差网路)架构
mHC 的核心逻辑,就是替多通道架构加上严格的「流形约束」,犹如为网路讯号聘请了一位精通高深数学的「AI 交通警察」。
DeepSeek 的解方,是巧妙运用「双随机矩阵」(Doubly Stochastic Matrix)规则,搭配 Sinkhorn-Knopp 演算法,为讯号戴上「紧箍咒」。这强制实践了严格的「能量守恒」:保证无论讯号如何混合,流入的总量必须精确等於流出的总量。
这项突破同时达成了 ResNet 时代无法想像的两大目标:
性能爆发:O留多通道互联带来的海量资讯丰富度,实现潜能极大化。
稳定压制:N讯号严格锁定在安全的范围内,完美致敬并超越了 ResNet 当年对「恒等映射」的追求。
稳定性从 3000 狂降至 1.6 成本仅增 6.7%
https://news.cnyes.com/news/id/6296197
-----
Sent from JPTT on my Vivo V2227A.
--
Gossiping 综合 ◎[八卦] 本板没有特定立场
PTT八卦板自创立以来,一直秉持着公正、中立的立场,
以一个自由且不受限制之资讯交流平台而自居,
从而广受国内外人士好评爱戴。
是故,由众多使用者推举出任之板主,
自然需承袭八卦板的一贯作风:
只问对错,不问立场。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.77.122.112 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1767582266.A.CAF.html
1F:→ a27588679: 可以拯救记忆体的价格吗? 180.177.33.135 01/05 11:12
2F:推 applejone: 不行 140.112.14.15 01/05 11:13
3F:推 john371911: 但目前3.2版我觉得智力比其他美国三 36.228.82.252 01/05 11:15
4F:→ john371911: 、四大弱。 36.228.82.252 01/05 11:15
5F:推 Xaymaca: 晶片折旧有支撑了172.218.124.227 01/05 11:15
6F:推 chinagay: 什麽叫3000 1.6 114.34.49.151 01/05 11:17
7F:推 firose: 不关台湾,台湾看热闹就好 122.147.218.96 01/05 12:00