作者kinda (天天)
看板Stock
标题Re: [新闻] 成本低廉 中国AI初创DeepSeek震撼矽谷
时间Mon Jan 27 18:55:59 2025
前文恕删
: 据报导,DeepSeek仅用2048片H800显示卡 (GPU)、耗时两个月,就训练出了一个6710亿参
: 数的DeepSeek-V3。相较於Meta训练参数量4050亿的Llama 3,用了1万6384片更强的H100
: 显示卡,花了54天。DeepSeek的训练效率提升了11倍。
这比法很不公平
12/6 Meta 免费放出蒸馏过的 llama 3.3 70B
很多项目效能接近llama 3.1 405B
12/27 Deepseek V3 公开
看起来 deepseek V3 快速导入了新开源模型
变强是因为Meta帮他训练+蒸馏大模型
中文强是因为蒸馏了阿里巴巴Qwen2.5模型
训练量少只是因为不用训练大模型
随便搜一下
专家系统 MoE 1994年就有论文(MIT)
蒸馏模型 2015年的论文(Google)
专家系统 + 蒸馏模型2022年有论文(Microsoft)
都不是什麽新东西
新闻中跟gpt-4o和llama 3.1 405B比只是行销手段
如果跟llama 3.3 70B比 两者效能相当
预测花费约少30%
deepseek v3就只是优化/特化的小改版
资料来源:
DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B
https://tinyurl.com/46b2anf7
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.34.251 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1737975363.A.0B7.html
1F:推 clecer : 我比较相信美国ai大神的说法 01/27 18:58
2F:→ saisai34 : 相信是假的 现在可以all in NV @n@a 01/27 19:09
3F:→ pikaq : 中国立即超英赶美,打死我都不信。 01/27 19:48