作者icrose (人本良心)

看板Stock

标题

[新闻] DeepSeek放大招！开源「新星」FlashMLA登场：大模型效率

时间Wed Feb 26 01:10:30 2025

原文标题：DeepSeek放大招！开源「新星」FlashMLA登场：大模型效率革命能否破解「AI芯片荒」？原文连接：https://news.qq.com/rain/a/20250225A097R600 发布时间：2025-02-25 21:19 记者署名：朱成祥原文内容： 2月24日上午，DeepSeek（深度求索）发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息，FlashMLA是适用於Hopper GPU（一种英伟达图形处理器架构）的高效MLA（多头潜注意力）解码内核，针对可变长度序列服务进行了优化。在H800（一款英伟达芯片）上可以实现每秒处理3000GB（千兆字节）数据，每秒执行580万亿次浮点运算。有业内观点认为，目前限制DeepSeek推理的主要瓶颈就是显存，FlashMLA则是「以算代存」，可解决推理过程中显存容量不足的问题。对此，PPIO派欧云联合创始人兼CTO王闻宇告诉《每日经济新闻》记者：「（该观点）不完全正确，MLA的本质是在基础算法上的创新，通过将KV的权重矩阵转换到潜空间，实现矩阵的大幅压缩并且不造成精度损失。压缩算法会引入微弱的计算量的增加，但是由此带来的数据存储开销大幅下降，训练及推理速度大幅提升，需要计算的数据总量减少了，总计算量反而减少了，相应的训练和推理速度就会大幅提高。」显存容量成门槛当下，外界普遍使用显存来测算部署DeepSeek各类模型所需要的推理算力。比如根据民生证券研报，像DeepSeek-R1一个专注於实时推理的优化版本，拥有15B参数，推理时激活全部15B参数，显存需求约为30GB（FP16精度），单张NVIDIA A100（英伟达显卡）或单张RTX 4090（英伟达消费级显卡）等显卡可满足需求。像DeepSeek 67B是一个拥有67B参数的大型模型，推理时激活全部67B参数，显存需求约为140GB（FP16精度）。推荐使用4张A100-80G GPU进行多卡并行推理。照此计算，DeepSeek R1「满血版」拥有671B参数，在FP16精度下，需要1.4TB（太字节）显存；在FP8精度下，也需要约700GB显存。如果按照一个服务器8张卡计算，单卡80GB的8卡服务器满足不了「满血版」的推理工作，可能需要多个服务器互连。关於显存是否为限制DeepSeek推理的主要瓶颈，王闻宇认为：「DeepSeek模型与其他主流模型相比，参数量更大，决定了其需要更大容量显存以加载模型权重，显存容量是门槛，不是瓶颈。」那麽，参数量小得多的蒸馏模型是否满足应用需求？王闻宇表示：「蒸馏版本与满血版本相比，参数量少很多，比如Qwen-7B，只有满血版671B的百分之一，参数量少，导致在模型性能上远弱於满血版，如何选择模型取决於实际的应用场景，要求高的场景可能无法用蒸馏版本来满足。」一位不愿具名的算力芯片厂商高管对《每日经济新闻》记者表示：「AI行业从业者，不管是哪个环节的，包括模型公司、AI芯片公司等，都是围绕一个三角形来做的，三角形的三个角分别是提高价值，提高或者保持用户体验，维持或者降低使用成本提高价值就是要能解决更多问题，能解决更难的问题；模型规模起来後，一般来说会降低用户体验、提高成本所以大家都在这个三角形中螺旋式地往上爬。」图片图片来源：受访对象提供大模型效率革命？而FlashMLA，正是在大模型规模变大、能力变强後，在不降低用户体验的基础上降低成本。根据民生证券研报，传统计算方式存在KV（键值）矩阵重复计算的问题，这不仅浪费了大量的计算资源，还会导致显存消耗过大，影响模型的运行效率。而MLA技术解决了这个难题，它通过独特的算法设计，减少了对KV矩阵的重复计算，大大降低了显存的消耗。需要注意的是，目前FlashMLA适配的是英伟达Hopper架构的GPU。若FlashMLA在CUDA生态大幅减少对显存的占用，那麽未来应用到国内算力芯片领域，是否有助於「推理平价」，降低推理成本，推动国产算力芯片在推理领域的使用？沐曦工作人员反馈：「这一周大家都忙着DeepSeek开源周的适配。」另据沐曦官方微信号：「沐曦技术团队在FlashMLA开源後迅速响应，仅用2小时即完成与沐曦GPU的适配工作，并於当日将代码提交至开源社区。」此外，沐曦方面也表示：「FlashMLA通过MLA解码优化与分页KV缓存技术等显着提升硬件利用率，可加速大语言模型解码过程，有效提升响应速度与吞吐量，尤其适用於聊天机器人等实时生成场景。沐曦在适配中应用矩阵吸收算法将低秩投影融入Flash Attention 2核函数，在保证计算效率的同时显着降低显存占用。」 PPIO派欧云王闻宇也表示：「FlashMLA对国内算力芯片具有很大的借鉴价值，通过技术创新，将FlashMLA移植到国内算力芯片上，也可以实现类似CUDA中的减少显存占用和加速效果。」事实上，除了通过算法领域的进步来减少显存占用，也可以从芯片设计角度出发，通过定制化的芯片来增加显存。上述算力芯片公司高管称：「核心问题是HBM（高带宽存储）每GB是DDR（双倍速率同步动态随机存储器）的5x（5倍）价钱，用HBM来存所有权重不划算。」其给出的解决办法是多级存储。他表示：「需要模型来进一步改造，我认为比较理想的软硬件，在未来应该是两级或者多级存储的，比如HBM和DDR都上，HBM更快，DDR更大，所以整个模型都存更大的DDR里面，就像DeepSeek论文里面写的，他们每10分钟刷新一批redundant expert（冗余专家），这批可以放在HBM里面，用户用的时候，大概率从这个redundant expert里面取expert，这样就可以既便宜又快了。」关於MoE结构对算力硬件需求的变化，中金研报认为，可能带来对处理器架构进一步的定制化需求，如更大的计算单元、和更高效的通信kernel（内核）相匹配的设计单元、近存计算单元等，利好DSA（领域专用架构）架构发展。心得/评论： moE其实是上世纪90年代就有的人工智能思路，transformer也是2017年google发布的论文根本不是OPENai专美的东西这两天deepseek集中发布的新开源技术，更证明deepseek全方位的技术及研究能力深入到AI算法、gpu性能彻底释放等AI每一个软硬件及其链接接领域 DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了 deepseek哪里象是一个两三年的大模型公司，综合实力之强，涉及领域之深之广，OPENAI显然落在下风，ds有AI华爲的感觉了大家都説，deepseek是对NVDIA短空长多，只是deepseek武器库太充足了，每次新武器出现就是一次短空新周期，长多不知道何时才能来了XD -- 雪压枝头低，虽低不着泥一朝红日出，依旧与天齐 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.52.214.97 (中国) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1740503434.A.D76.html

1^F：嘘 PureAnSimple: 好了啦超大悲可以了吗？ 02/26 01:11

2^F：推 freshman : 你各位模型卷起来，伺服器继续买 02/26 01:13

3^F：推 allen0080 : 拿来杀股票已经没用了。 02/26 01:13

※ 编辑: icrose (123.52.214.97 中国), 02/26/2025 01:15:27

4^F：推 Alexstar : 虾仁猪心的消息来惹 02/26 01:17

5^F：推 what5566 : 鬼故事也太多了吧这感觉下礼拜会全喷回来 02/26 01:18

6^F：推 stcr3011 : 开源让大家检视 XDD 02/26 01:18

7^F：嘘 kausan : n卡买多少了？多买一点比较有机会赢 02/26 01:22

8^F：→ azhu : 好啦好啦赢赢赢随便了 02/26 01:35

9^F：嘘 nayeonmywife: 所以晶片荒在哪里？中国而已？ 02/26 01:38

10^F：→ Lowpapa : CloseAI真的超鸟 02/26 01:42

11^F：推 ImHoluCan : 中国伺服器GPU那麽猛，对岸游戏GPU怎麽大家还用辉 02/26 01:49

12^F：→ ImHoluCan : 达呢？ 02/26 01:49

13^F：嘘 shiki1988 : 中吹给的礼物谢谢都来不及了 02/26 01:50

14^F：推 kentano : 母公司2015就搞AI资产管理投资 02/26 01:59

15^F：推 liwae : 没有钱就有没有钱的解法不是每人玩魔物都要5090 02/26 02:20

16^F：推 liwae : steam小黄鸭这软体很神奇 02/26 02:23

17^F：推 pkmu8426 : AI终归还是要靠脑袋 02/26 02:26

18^F：→ MTKer5566 : 台湾有没有机壳组装订单？ 02/26 02:47

19^F：推 xeins : 找不金山在哪铲子再多也是浪费电 02/26 03:41

20^F：嘘 skyhawkptt : 阿里巴巴投资500亿欧元布局AI与云计算股价一度暴跌 02/26 03:55

21^F：嘘 skyhawkptt : 超9% 02/26 03:55

22^F：推 naligono : 又一个三角形大师 02/26 04:19

23^F：推 hcwang1126 : 算力是很不够的在美语和简中溢出前 02/26 06:04

24^F：嘘 baboosh : 盗版GPT 结案，下一题 02/26 07:10

25^F：推 doranako : deepseek现在不让人储值用api 02/26 07:15

26^F：推 capssan : 三个月前谁能想到真正的OpenAI居然在中国呵呵 02/26 07:46

27^F：推 keyneslan : 美国还是最强吧 02/26 07:46

28^F：推 s213092921 : 美国的AI霸权已经没了，只剩可超越的差距 02/26 08:11

29^F：→ s213092921 : CloseAI想搞垄断赚取暴利的算盘已经破灭了 02/26 08:11

30^F：推 idletime : 开源但是快还要更快，好还要更好，所以铲子继续卖 02/26 08:18

31^F：嘘 jamesho8743 : 讲啥小 deepseek不用NV? 不用NV了再来洗 02/26 08:21

32^F：嘘 EZTW0000 : 还不是继续从新加坡进NV嘻嘻，这ID也不会有单，来 02/26 08:28

33^F：→ EZTW0000 : 工作 02/26 08:28

34^F：推 syk1104 : OK,中又赢 02/26 08:29

35^F：推 ss218 : 感觉AI说不订快泡沫化了已经到了很多不懂的人出来 02/26 08:36

36^F：→ ss218 : 装专家侃侃而谈的阶段 02/26 08:37

37^F：嘘 deepdish : 阿讲一堆所以怎麽赚钱啊？花钱谁不会 02/26 08:37

38^F：→ stanleyplus : 又赢麻 02/26 08:56

39^F：嘘 liliumeow : 华为是行业百草枯没跟这个"真"openai相提并论 02/26 08:56

40^F：嘘 johnny055279: 中吹去哪里了？出来吹一下啊？ 02/26 09:09

41^F：→ Artymo : 不错，坐等其它开源模型跟进！ 02/26 09:14

42^F：嘘 r40491101 : 恶 02/26 09:16

43^F：嘘 zombiepigman: 盗版 02/26 09:31

44^F：嘘 Syg : 继续唬 02/26 09:34

45^F：→ billionaire : 支那人？ 02/26 10:13

46^F：→ Mytsb2421 : 对岸太厉害了 02/26 10:19

47^F：推 g1254501 : 可怜哪井蛙去问一下满血版的DS用啥跑的好吗。看完 02/26 22:52

48^F：→ g1254501 : 了之後不要吓到尿裤子 02/26 22:52

49^F：嘘 phoenixtwo : 吹牛很会 02/28 12:46

50^F：嘘 skyhawkptt : 陆首家弃用DeepSeek 遭网民攻击！创办人悲吐实情 03/10 15:59

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

[新闻] DeepSeek放大招！开源「新星」FlashMLA登场：大模型效率

热门看板

赞助商连结