作者icrose (人本良心)
看板Stock
标题[新闻] DeepSeek放大招!开源「新星」FlashMLA登场:大模型效率
时间Wed Feb 26 01:10:30 2025
原文标题:DeepSeek放大招!开源「新星」FlashMLA登场:大模型效率革命能否破解「AI芯片荒」?
原文连接:
https://news.qq.com/rain/a/20250225A097R600
发布时间:2025-02-25 21:19
记者署名:朱成祥
原文内容:
2月24日上午,DeepSeek(深度求索)发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息,FlashMLA是适用於Hopper GPU(一种英伟达图形处理器架构)的高效MLA(多头潜注意力)解码内核,针对可变长度序列服务进行了优化。在H800(一款英伟达芯片)上可以实现每秒处理3000GB(千兆字节)数据,每秒执行580万亿次浮点运算。
有业内观点认为,目前限制DeepSeek推理的主要瓶颈就是显存,FlashMLA则是「以算代存」,可解决推理过程中显存容量不足的问题。
对此,PPIO派欧云联合创始人兼CTO王闻宇告诉《每日经济新闻》记者:「(该观点)不完全正确,MLA的本质是在基础算法上的创新,通过将KV的权重矩阵转换到潜空间,实现矩阵的大幅压缩并且不造成精度损失。压缩算法会引入微弱的计算量的增加,但是由此带来的数据存储开销大幅下降,训练及推理速度大幅提升,需要计算的数据总量减少了,总计算量反而减少了,相应的训练和推理速度就会大幅提高。」
显存容量成门槛
当下,外界普遍使用显存来测算部署DeepSeek各类模型所需要的推理算力。比如根据民生证券研报,像DeepSeek-R1一个专注於实时推理的优化版本,拥有15B参数,推理时激活全部15B参数,显存需求约为30GB(FP16精度),单张NVIDIA A100(英伟达显卡)或单张RTX 4090(英伟达消费级显卡)等显卡可满足需求。
像DeepSeek 67B是一个拥有67B参数的大型模型,推理时激活全部67B参数,显存需求约为140GB(FP16精度)。推荐使用4张A100-80G GPU进行多卡并行推理。
照此计算,DeepSeek R1「满血版」拥有671B参数,在FP16精度下,需要1.4TB(太字节)显存;在FP8精度下,也需要约700GB显存。如果按照一个服务器8张卡计算,单卡80GB的8卡服务器满足不了「满血版」的推理工作,可能需要多个服务器互连。
关於显存是否为限制DeepSeek推理的主要瓶颈,王闻宇认为:「DeepSeek模型与其他主流模型相比,参数量更大,决定了其需要更大容量显存以加载模型权重,显存容量是门槛,不是瓶颈。」
那麽,参数量小得多的蒸馏模型是否满足应用需求?王闻宇表示:「蒸馏版本与满血版本相比,参数量少很多,比如Qwen-7B,只有满血版671B的百分之一,参数量少,导致在模型性能上远弱於满血版,如何选择模型取决於实际的应用场景,要求高的场景可能无法用蒸馏版本来满足。」
一位不愿具名的算力芯片厂商高管对《每日经济新闻》记者表示:「AI行业从业者,不管是哪个环节的,包括模型公司、AI芯片公司等,都是围绕一个三角形来做的,三角形的三个角分别是提高价值,提高或者保持用户体验,维持或者降低使用成本提高价值就是要能解决更多问题,能解决更难的问题;模型规模起来後,一般来说会降低用户体验、提高成本所以大家都在这个三角形中螺旋式地往上爬。」
图片
图片来源:受访对象提供
大模型效率革命?
而FlashMLA,正是在大模型规模变大、能力变强後,在不降低用户体验的基础上降低成本。
根据民生证券研报,传统计算方式存在KV(键值)矩阵重复计算的问题,这不仅浪费了大量的计算资源,还会导致显存消耗过大,影响模型的运行效率。而MLA技术解决了这个难题,它通过独特的算法设计,减少了对KV矩阵的重复计算,大大降低了显存的消耗。
需要注意的是,目前FlashMLA适配的是英伟达Hopper架构的GPU。若FlashMLA在CUDA生态大幅减少对显存的占用,那麽未来应用到国内算力芯片领域,是否有助於「推理平价」,降低推理成本,推动国产算力芯片在推理领域的使用?
沐曦工作人员反馈:「这一周大家都忙着DeepSeek开源周的适配。」另据沐曦官方微信号:「沐曦技术团队在FlashMLA开源後迅速响应,仅用2小时即完成与沐曦GPU的适配工作,并於当日将代码提交至开源社区。」
此外,沐曦方面也表示:「FlashMLA通过MLA解码优化与分页KV缓存技术等显着提升硬件利用率,可加速大语言模型解码过程,有效提升响应速度与吞吐量,尤其适用於聊天机器人等实时生成场景。沐曦在适配中应用矩阵吸收算法将低秩投影融入Flash Attention 2核函数,在保证计算效率的同时显着降低显存占用。」
PPIO派欧云王闻宇也表示:「FlashMLA对国内算力芯片具有很大的借鉴价值,通过技术创新,将FlashMLA移植到国内算力芯片上,也可以实现类似CUDA中的减少显存占用和加速效果。」
事实上,除了通过算法领域的进步来减少显存占用,也可以从芯片设计角度出发,通过定制化的芯片来增加显存。
上述算力芯片公司高管称:「核心问题是HBM(高带宽存储)每GB是DDR(双倍速率同步动态随机存储器)的5x(5倍)价钱,用HBM来存所有权重不划算。」
其给出的解决办法是多级存储。他表示:「需要模型来进一步改造,我认为比较理想的软硬件,在未来应该是两级或者多级存储的,比如HBM和DDR都上,HBM更快,DDR更大,所以整个模型都存更大的DDR里面,就像DeepSeek论文里面写的,他们每10分钟刷新一批redundant expert(冗余专家),这批可以放在HBM里面,用户用的时候,大概率从这个redundant expert里面取expert,这样就可以既便宜又快了。」
关於MoE结构对算力硬件需求的变化,中金研报认为,可能带来对处理器架构进一步的定制化需求,如更大的计算单元、和更高效的通信kernel(内核)相匹配的设计单元、近存计算单元等,利好DSA(领域专用架构)架构发展。
心得/评论:
moE其实是上世纪90年代就有的人工智能思路,transformer也是2017年google发布的论文
根本不是OPENai专美的东西
这两天deepseek集中发布的新开源技术,更证明deepseek全方位的技术及研究能力
深入到AI算法、gpu性能彻底释放等AI每一个软硬件及其链接接领域
DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了
deepseek哪里象是一个两三年的大模型公司,综合实力之强,涉及领域之深之广,OPENAI显然落在下风,ds有AI华爲的感觉了
大家都説,deepseek是对NVDIA短空长多,只是deepseek武器库太充足了,每次新武器出现就是一次短空新周期,长多不知道何时才能来了XD
--
雪压枝头低,虽低不着泥
一朝红日出,依旧与天齐
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.52.214.97 (中国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1740503434.A.D76.html
1F:嘘 PureAnSimple: 好了啦 超大悲 可以了吗? 02/26 01:11
2F:推 freshman : 你各位模型卷起来,伺服器继续买 02/26 01:13
3F:推 allen0080 : 拿来杀股票已经没用了。 02/26 01:13
※ 编辑: icrose (123.52.214.97 中国), 02/26/2025 01:15:27
4F:推 Alexstar : 虾仁猪心的消息来惹 02/26 01:17
5F:推 what5566 : 鬼故事也太多了吧 这感觉下礼拜会全喷回来 02/26 01:18
6F:推 stcr3011 : 开源让大家检视 XDD 02/26 01:18
7F:嘘 kausan : n卡买多少了? 多买一点比较有机会赢 02/26 01:22
8F:→ azhu : 好啦好啦 赢赢赢 随便了 02/26 01:35
9F:嘘 nayeonmywife: 所以晶片荒在哪里? 中国而已? 02/26 01:38
10F:→ Lowpapa : CloseAI真的超鸟 02/26 01:42
11F:推 ImHoluCan : 中国伺服器GPU那麽猛,对岸游戏GPU怎麽大家还用辉 02/26 01:49
12F:→ ImHoluCan : 达呢? 02/26 01:49
13F:嘘 shiki1988 : 中吹给的礼物 谢谢都来不及了 02/26 01:50
14F:推 kentano : 母公司2015就搞AI资产管理投资 02/26 01:59
15F:推 liwae : 没有钱就有没有钱的解法 不是每人玩魔物都要5090 02/26 02:20
16F:推 liwae : steam小黄鸭 这软体很神奇 02/26 02:23
17F:推 pkmu8426 : AI终归还是要靠脑袋 02/26 02:26
18F:→ MTKer5566 : 台湾有没有机壳组装订单? 02/26 02:47
19F:推 xeins : 找不金山在哪 铲子再多也是浪费电 02/26 03:41
20F:嘘 skyhawkptt : 阿里巴巴投资500亿欧元布局AI与云计算 股价一度暴跌 02/26 03:55
21F:嘘 skyhawkptt : 超9% 02/26 03:55
22F:推 naligono : 又一个三角形大师 02/26 04:19
23F:推 hcwang1126 : 算力是很不够的 在美语和简中溢出前 02/26 06:04
24F:嘘 baboosh : 盗版GPT 结案,下一题 02/26 07:10
25F:推 doranako : deepseek现在不让人储值用api 02/26 07:15
26F:推 capssan : 三个月前谁能想到真正的OpenAI居然在中国 呵呵 02/26 07:46
27F:推 keyneslan : 美国还是最强吧 02/26 07:46
28F:推 s213092921 : 美国的AI霸权已经没了,只剩可超越的差距 02/26 08:11
29F:→ s213092921 : CloseAI想搞垄断赚取暴利的算盘已经破灭了 02/26 08:11
30F:推 idletime : 开源但是快还要更快,好还要更好,所以铲子继续卖 02/26 08:18
31F:嘘 jamesho8743 : 讲啥小 deepseek不用NV? 不用NV了再来洗 02/26 08:21
32F:嘘 EZTW0000 : 还不是继续从新加坡进NV嘻嘻,这ID也不会有单,来 02/26 08:28
33F:→ EZTW0000 : 工作 02/26 08:28
34F:推 syk1104 : OK,中又赢 02/26 08:29
35F:推 ss218 : 感觉AI说不订快泡沫化了 已经到了很多不懂的人出来 02/26 08:36
36F:→ ss218 : 装专家侃侃而谈的阶段 02/26 08:37
37F:嘘 deepdish : 阿讲一堆 所以怎麽赚钱啊?花钱谁不会 02/26 08:37
38F:→ stanleyplus : 又赢麻 02/26 08:56
39F:嘘 liliumeow : 华为是行业百草枯 没跟这个"真"openai相提并论 02/26 08:56
40F:嘘 johnny055279: 中吹去哪里了?出来吹一下啊? 02/26 09:09
41F:→ Artymo : 不错,坐等其它开源模型跟进! 02/26 09:14
42F:嘘 r40491101 : 恶 02/26 09:16
43F:嘘 zombiepigman: 盗版 02/26 09:31
44F:嘘 Syg : 继续唬 02/26 09:34
45F:→ billionaire : 支那人? 02/26 10:13
46F:→ Mytsb2421 : 对岸太厉害了 02/26 10:19
47F:推 g1254501 : 可怜哪 井蛙去问一下满血版的DS用啥跑的好吗。看完 02/26 22:52
48F:→ g1254501 : 了之後不要吓到尿裤子 02/26 22:52
49F:嘘 phoenixtwo : 吹牛很会 02/28 12:46
50F:嘘 skyhawkptt : 陆首家弃用DeepSeek 遭网民攻击!创办人悲吐实情 03/10 15:59