作者james58899 (james58899)
看板PC_Shopping
标题[心得] 显卡真实 AI 算力整理 GPU AI TOPs
时间Sat Feb 21 17:51:33 2026
之前在巴哈和板上看到用9070XT跑图片生成的文章,突然对跑AI有了兴趣
然後就拉着小伙伴们一起来跑AI,所以肯定要比一下谁显卡跑比较快
结果发现网路上到处都是又稀疏又低精度的膨胀算力,实际几乎用不到
只好从各种官方文件中整理不同精度的实际算力
一查才知道原来我拿9070XT打了半年的游戏结果跑AI也很强
总之先上图
https://i.urusai.cc/8FRjv.png
原始表格:
https://reurl.cc/KOZj1M
https://docs.google.com/spreadsheets/d/1V0LZwM7pADpgszZdZuzNZyXD8Uwvg2b-XavzM14Bz1U
网页汇出版:
https://reurl.cc/MMrdm4
主要看FP16/BF16和INT8/FP8这几行
一般图片生成都是用FP16/BF16少数使用FP8量化,而语言模型大多用FP8/INT8或更低的量化
语言模型更吃记忆体频宽,图片生成更注重算力但也还是吃记忆体频宽
当然这些都是建立在VRAM够用的前提下
如果VRAM不够用就需要频繁将模型的权重在RAM和VRAM之间搬来搬去
由於NVIDIA卡的变种实在太多了,所以仅整理有官方规格或比较有可能拿来跑AI的卡
如果有其他感兴趣的卡,可以先找接近的型号根据Tensor核心数估算一下
或者也可以推文留言,等我哪天有空可能会补充进表格
原本以为想跑AI只能买NVIDIA,结果发现其实Intel和AMD支援性都已经不错了
最新的AMD Windows驱动甚至直接把AI大礼包整进安装工具,直接开箱即用都不用搞半天环境
Intel A770原本以为是游戏卡,结果其实是AI卡,跑AI比跑游戏强多了...
传说中的AI金砖DGX Spark实际上就只有128G很大,实际算力和频宽都还好而已
我觉得如果只是想试试AI的人买个9070XT是个不错的选择
说AMD驱动不行的反正我是半点问题没遇到,真要说也只有爆VRAM的时候有机会崩驱动
但这任何显卡都一样,你VRAM用满了东西就得炸
没炸也只是驱动或系统在尽力把东西搬到RAM而已,搬不了或者来不及搬的时候还是要死
如果主要就是跑AI的话,AMD全家桶用起来也没问题可以考虑AMD R9700
基本上就是有32G VRAM的9070XT,但价格也翻了一倍,不过还是比NV便宜
不然就直上RTX 5090,或者直接攻顶满血的RTX PRO 6000,信老黄肯定没错对吧
在人类突破物理极限或者找到新的AI计算方式之前,多少算力就要多少功耗,没有任何魔法
如果有个东西算力很高那只有两个可能,一个是功耗也很高,另一个就是算力灌水
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.213.184.242 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1771667496.A.A72.html
1F:推 ltytw: 现在硬体贵其实是天网想搞死玩家吧 211.23.223.225 02/21 17:53
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 17:54:44
2F:→ commandoEX: 比非稀疏性能没那麽真,NV有针对稀疏 1.161.86.46 02/21 17:56
3F:→ commandoEX: 运算加速,大语言模型也是稀疏矩阵 1.161.86.46 02/21 17:56
稀疏加速的要求其实很高,矩阵要有一半都是0才能触发
而且还要特定格式的0,不是随便有一半就行
我偏向认为宣传大於实际意义,而且要看稀疏算力直接x2就是了
另外AMD RDNA4其实也支援稀疏加速
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 18:06:47
4F:→ a85139138: A卡跑AI最大的问题是生态不是算力吧 39.9.32.248 02/21 18:03
5F:→ a85139138: 一堆套件都是针对CUDA开发的 39.9.32.248 02/21 18:04
6F:→ a85139138: 要用A卡跑还得先各种debug和配置好环 39.9.32.248 02/21 18:04
7F:→ a85139138: 境 39.9.32.248 02/21 18:05
现在AMD配置难度已经几乎没有了,需要的操作就只有把cuda版pytorch换成rocm版而已
盖在pytorch上的东西都能无缝直接能用,基本上就只有NV那几个黑魔法加速不能用
但最近我看社群也都有搞出替代方案了,实际差距没有想像中那麽大
8F:推 cylinptt: 不知道4090魔改的数据怎麽样 1.169.96.32 02/21 18:05
魔改只有加大VRAM吧,频宽和算力应该是不会变的
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 18:14:17
9F:→ jkiu: spark定位是开发用机,另外它的一个相对amd 49.216.162.107 02/21 18:10
10F:→ jkiu: 的强项是pp,长context的处理速度 49.216.162.107 02/21 18:10
11F:嘘 kf0916: 跑ai买amd真的自找麻烦 111.71.213.117 02/21 18:12
12F:推 lordmi: 只比TOPs意义不大。在模型比较大的时候, 114.136.162.73 02/21 18:13
13F:→ lordmi: 瓶颈往往不在计算而在存储相关操作。同样 114.136.162.73 02/21 18:13
14F:→ lordmi: 的显卡核心计算单元,使用不同的存储架构 114.136.162.73 02/21 18:13
15F:→ lordmi: (例如hbmvslpddr)或者不同的存储布线, 114.136.162.73 02/21 18:13
16F:→ lordmi: 跑模型的速度都会有显着不同。要不为啥高 114.136.162.73 02/21 18:13
17F:→ lordmi: 阶存储涨价涨那麽高? 114.136.162.73 02/21 18:13
表格也有列记忆体频宽,如果知道自己用途就特别吃频宽的话当然挑大的买
其实AMD的Infinity Cache对AI也有奇效,不过这就要软体去相容才能吃到
18F:推 meteor724: 打脸板上推n卡跑ai 42.76.9.186 02/21 18:15
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 18:19:57
19F:推 sorrojvr: 8g vram、12gvram应该不会跑fp32 、16 223.138.33.196 02/21 18:23
20F:→ sorrojvr: 光模型就大的吓人 vram根本不够 223.138.33.196 02/21 18:23
21F:→ sorrojvr: 我觉得跑fp8,Q4k的gguf反而很多人 223.138.33.196 02/21 18:23
22F:→ sorrojvr: 因为很多人显卡只有8g-12gvram 223.138.33.196 02/21 18:23
23F:→ sorrojvr: 需求vram低 跑出来效果也还可以 223.138.33.196 02/21 18:23
24F:推 guanting886: 推原PO认真分享 42.78.136.145 02/21 18:25
25F:推 mizumutsuki: 2060S 8G都能列入表格了,请问9060XT 1.169.205.247 02/21 18:46
26F:→ mizumutsuki: 8G能跑吗 1.169.205.247 02/21 18:46
这是因为我的小伙伴就用那张所以才在表格里
8G对於AI来说真的是很不够用,你需要找低精度量化的模型来跑
27F:→ takanasiyaya: 这看起来就很云,容量才是重点,不 49.216.185.52 02/21 18:47
28F:→ takanasiyaya: 够你根本不能用大模型 49.216.185.52 02/21 18:47
29F:推 s78513221: 简单部署吗...?ollma直接表示不支援 111.71.35.95 02/21 18:49
笑死,我觉得这是ollama本身就特别雷llama.cpp本身用vulkan明明就能跑得很好
AMD AI大礼包里面另一个LM Studio就跑得很开心
30F:推 YCL13: 在跑图这块,A家GPU已经有不错的支援了,但 1.161.178.136 02/21 18:51
31F:→ YCL13: 在跑LLM部分,觉得连CPU的支援都还比不上 1.161.178.136 02/21 18:51
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 18:56:52
32F:推 guogu: 没有6600xt 太苦惹 49.214.10.111 02/21 18:56
6600XT又8G又RDNA2,你还是放过它乖乖打游戏吧
RDNA3才有矩阵加速,然後RDNA4的矩阵加速才是满血的
这也能解释为什麽AMD限制基於AI的FSR4在RDNA4卡才能用
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 19:02:30
33F:推 ttping: 为什麽跳过3080 QAQ 115.43.71.11 02/21 19:10
3080那可怜的VRAM大小,空有算力没用阿,赞叹老黄刀法吧
34F:推 davidex: 借问一下9060XT 16GB能跑AI吗? 36.230.12.222 02/21 19:10
16G肯定是能跑,但算力和频宽都只有9070XT的一半,速度大概也只有一半
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 19:22:10
35F:推 sugoichai: 9060xt不就写在表上吗? 49.216.225.159 02/21 19:23
36F:推 tshu: A770频宽给的够,其实很有诚意 49.215.226.108 02/21 19:25
37F:→ tshu: 一般使用者跑跑fp8过个瘾就行了 49.215.226.108 02/21 19:26
38F:推 YCL13: 不会那麽惨啦,如5060ti能力不到5080的一半 1.161.178.136 02/21 19:27
39F:→ YCL13: ,我实际用起来表现约60%左右,因为PC端也 1.161.178.136 02/21 19:27
40F:→ YCL13: 会有响影,真不要因为觉得自己硬体差就不试 1.161.178.136 02/21 19:27
41F:→ YCL13: ,嚐试後你可能会发现其实没那麽不堪,像我 1.161.178.136 02/21 19:28
42F:→ YCL13: 之前爬国外讨论区时,一堆人只用3060也玩得 1.161.178.136 02/21 19:28
43F:→ YCL13: 很开心 1.161.178.136 02/21 19:28
44F:推 davidex: 喔喔 看到了 居然还优於5060ti呀 36.230.12.222 02/21 19:29
45F:→ commandoEX: 一般定义稀疏矩阵是非零元素<5%的矩阵 1.161.86.46 02/21 19:29
46F:→ commandoEX: 50%非零元素你的矩阵不用做1B,做1M 1.161.86.46 02/21 19:31
47F:→ commandoEX: 的FP8就要3000G记忆体储存 1.161.86.46 02/21 19:31
48F:→ commandoEX: Transformer 的注意力矩阵大概只有 1.161.86.46 02/21 19:32
49F:→ commandoEX: 几亿分之一的非零元素吧 1.161.86.46 02/21 19:33
50F:推 jake255121: 很有价值的整理 39.14.56.185 02/21 19:33
51F:→ commandoEX: 所以稀疏矩阵运算本来就要压缩 1.161.86.46 02/21 19:33
52F:→ commandoEX: 原始矩阵才能做 1.161.86.46 02/21 19:34
53F:→ vsbrm: 主要是软体支援程度 42.77.28.39 02/21 19:35
54F:推 royalblue213: 感谢整理分享 49.216.46.253 02/21 19:37
55F:推 avans: 对穷人来说算力根本无所谓vram大小才是重点 111.241.113.55 02/21 19:38
56F:→ avans: 仍在使用3060 12Gw 111.241.113.55 02/21 19:38
57F:推 a22663564: 很多人就是喜欢品牌迷思,先嘘在说, 180.214.182.79 02/21 19:41
58F:→ a22663564: 虽然我没跑AI,但看原Po的解释觉得没 180.214.182.79 02/21 19:41
59F:→ a22663564: 必要带偏见,毕竟他有实际执行,自己 180.214.182.79 02/21 19:41
60F:→ a22663564: 有用过觉得ok就ok,帮补推 180.214.182.79 02/21 19:41
61F:推 fu1vu03: DGX spark的fp16比5080还强喔?223.137.134.255 02/21 19:54
DGX Spark似乎是满血的FP16,但听说那东西还会过热降频,实际可能更低
没有任何官方资料有给除了FP4以外的算力,而且那价格比5080强应该的吧
※ 编辑: james58899 (49.213.184.242 台湾), 02/21/2026 20:07:08
62F:推 glenmarlboro: 看来19112台币入手的xfx 7900xt真的 114.137.2.210 02/21 20:05
63F:→ glenmarlboro: 不亏 114.137.2.210 02/21 20:05
64F:推 Supasizeit: 觉得AI看跑分的无脑买A卡就好203.204.195.174 02/21 20:10
65F:推 zseineo: 推 1.160.24.86 02/21 20:11
66F:推 ganei: 能跟R9700打对台的就淘宝/咸鱼的4080S改32G118.165.132.219 02/21 20:11
67F:→ ganei: ,原本双12前价钱差不多但涨一波後现在贵一118.165.132.219 02/21 20:11
68F:→ ganei: 截了,改卡保固就看店家佛心跟个人本事118.165.132.219 02/21 20:11
69F:推 ctes940008: 工作用途建议从Pro 6000开始买。 36.237.104.147 02/21 20:40
70F:→ ctes940008: 其他32GB以下都算是游戏用途 36.237.104.147 02/21 20:40
71F:推 saito2190: 从老黄的记忆体频宽就能看出刀法精湛 59.115.159.201 02/21 21:16
72F:推 schula: 4090这样算超值了吧 223.139.5.187 02/21 21:21
73F:推 dos01: 还是那句话210.209.164.247 02/21 22:20
74F:→ dos01: 可以跑 跟买来就能解决问题是两回事210.209.164.247 02/21 22:21
75F:→ dos01: 当可以跑的前提是需要转特定的东西 或者是210.209.164.247 02/21 22:22
76F:→ dos01: 找特定的解决方案 对大多数人只想一键处理210.209.164.247 02/21 22:22
77F:→ dos01: 的人来说基本上就等同於不能跑210.209.164.247 02/21 22:22
78F:推 ireina723: 那就只有gemini gpt能跑了 对阿 36.231.223.203 02/21 22:57
79F:推 htps0763: A卡看跑分就没用 36.239.245.101 02/21 23:14
80F:→ htps0763: 那个ROCm主要用linux开发,win上缺一堆 36.239.245.101 02/21 23:14
81F:→ htps0763: 组件 36.239.245.101 02/21 23:14
82F:→ htps0763: 在等个半年一年,看看ROCm什麽时候实现 36.239.245.101 02/21 23:15
83F:→ htps0763: 它ppt上吹的东西 36.239.245.101 02/21 23:15
我觉得没有到缺一堆东西,而且有缺也能在WSL里面跑起来
人家都敢直接在驱动里面给你AI大礼包了,跑个主流应用不太会有问题
84F:→ Wilson310: A卡主要问题是新应用出来第一时间几乎 123.205.144.28 02/21 23:36
85F:→ Wilson310: 玩不了 123.205.144.28 02/21 23:36
86F:→ Wilson310: 选N卡至少都有尝试的机会 123.205.144.28 02/21 23:37
87F:推 nrsair: A卡算力蛮高的 1.165.160.117 02/21 23:39
88F:→ Aquarius126: 开发训练模型跟应用模型,需求本来就 49.216.134.1 02/22 00:02
89F:→ Aquarius126: 不一样,单纯AI应用的话,说不定如原 49.216.134.1 02/22 00:02
90F:→ Aquarius126: PO说的,不用执着N卡了 49.216.134.1 02/22 00:02
我也试过用9070XT练LoRA,只要把pytorch换rocm版然後关xformers就会动了
91F:推 htps0763: 应用还是很缺,像图片文字辨识,语音转 36.239.245.101 02/22 00:03
92F:→ htps0763: 文字,有很多就是纯cuda开发 36.239.245.101 02/22 00:03
93F:→ htps0763: A卡现在就是尽力去搞llm这些比较热门的 36.239.245.101 02/22 00:04
94F:→ htps0763: 但还有一堆应用在rocm上没有实作 36.239.245.101 02/22 00:04
只要是盖在pytorch上的东西大多都能跑
现在大多也都改用triton在写,直接写cuda的很少了
95F:推 nextpage: 目前老黄给的5系N卡加速NVFP4很有感 114.26.183.195 02/22 00:23
96F:推 e446582284: 结论是买N卡,希望有人能提出一个主 39.15.48.48 02/22 00:32
97F:→ e446582284: 流、N卡不能用的模型打脸我 39.15.48.48 02/22 00:32
98F:→ e446582284: 反过来只限N卡,其他不支援的一抓一 39.15.48.48 02/22 00:33
99F:→ e446582284: 大把 39.15.48.48 02/22 00:33
你说的对,但前提是不考虑钱包,直上PRO 6000肯定最佳解
其实不只N卡vs其他,新N卡vs旧N卡也会有不支援的问题
※ 编辑: james58899 (49.213.184.242 台湾), 02/22/2026 01:41:55
100F:推 dragon6: Spark好鸟 怎麽不是用CUDA 13版220.134.198.114 02/22 01:15
101F:推 xiaotee: 推整理 1.173.147.73 02/22 02:17
102F:→ yangwen5301: 理论和实际速度还是有差的,测demo的 126.217.83.166 02/22 07:56
103F:→ yangwen5301: model两家当然都不错 126.217.83.166 02/22 07:56
104F:→ red0210: 看你所谓的跑 AI 是到什麽程度,一般研 111.83.151.186 02/22 07:58
105F:→ red0210: 究生程度就会发现问题超多 111.83.151.186 02/22 07:58
106F:→ red0210: 不然我还很推用 Mac 跑 AI 呢,unified 111.83.151.186 02/22 07:58
107F:→ red0210: memory 超香 111.83.151.186 02/22 07:58
108F:→ oread168: 7真的有料 终於能到理论蒜粒 1.170.206.241 02/22 09:09
109F:→ oread168: 不过重点还是comfyui有更新amd无脑安装 1.168.190.19 02/22 09:16
110F:→ oread168: 不然肥肥也懒得弄 1.168.190.19 02/22 09:16
111F:推 pomar222: Spark就硬体太新,套件需自己解决一堆 182.233.123.35 02/22 10:35
112F:→ pomar222: 冲突,是给独立工作室做推论用的 182.233.123.35 02/22 10:35
113F:推 pomar222: Ps别买特规线做双机沟通,原本就很勉强 182.233.123.35 02/22 10:39
114F:→ pomar222: 地散热空间,加了那条疯狂发热的特规线 182.233.123.35 02/22 10:39
115F:→ pomar222: ,推论效率直接打折 182.233.123.35 02/22 10:39
116F:→ aaz957658: AMD驱动,信者恒信,不信者终身不碰 122.254.16.87 02/22 10:45
117F:推 trfmk1: 巴哈那篇文章就我写的 27.53.72.181 02/22 11:40
118F:→ trfmk1: 我最近把sage1集中力改写适配A卡 27.53.72.181 02/22 11:40
119F:→ trfmk1: 速度提升20-30% 27.53.72.181 02/22 11:40
121F:推 pomar222: 简言之要搞70b q8或者123b q6推论,买sp 49.214.9.22 02/22 11:57
122F:→ pomar222: ark最划算,其他卡虽然快但ram不够 49.214.9.22 02/22 11:57
123F:推 Rollnmeow: I卡没出B700系列真是可惜 36.227.242.21 02/22 12:00
124F:推 sachialanlus: 3080 有 20G 魔改版本啊 满超值的150.117.132.227 02/22 12:13
125F:→ sachialanlus: 前阵子刚买一张说150.117.132.227 02/22 12:13
126F:→ crazy126: 原来fp16/8是主流 只敢跑fp4换更大参数 114.34.244.154 02/22 14:57
127F:推 kizajan: vram跟ram影响很大,塞不下就没用 114.34.102.156 02/22 15:44
128F:推 keepgoingKH: 感谢实测,amd比想像的要好一点!? 42.73.175.107 02/22 17:09
129F:推 kizajan: 9070xt虽然vram比较小,但跑fp8比7900xt 114.34.102.156 02/22 22:29
130F:→ kizajan: x快,记忆体排程也比较好,rdna4优势 114.34.102.156 02/22 22:29
131F:→ ganei: 支援度先不提,FP4跟INT4要用也得看场合 118.165.152.35 02/23 05:44
132F:推 towe77: 40/5070怎麽算,表格可以判断HBM价值的 1.169.38.212 02/23 17:03
133F:→ ganei: HBM不是万灵丹,要不然那批MI-50洋垃圾不会 111.71.32.33 02/23 18:25
134F:→ ganei: 是那种价钱 111.71.32.33 02/23 18:25
135F:→ thomaschion: 想试AI正确做法是订阅,不是花大钱 39.12.96.246 02/23 19:44
136F:→ thomaschion: 买卡 39.12.96.246 02/23 19:44
线上服务不能涩涩,grok生图最近才被干的很惨
137F:推 DJRobin: 看留言提到支援度就一堆"几乎""大多数"" 211.72.53.140 02/24 11:04
138F:→ DJRobin: "可能""应该"的,不就正好反映二者的价差 211.72.53.140 02/24 11:04
139F:→ DJRobin: 和接受度吗 211.72.53.140 02/24 11:05
因为软体的东西实在不好说
像是包在AMD AI大礼包里的ollama都能开场坏掉
这就像NV独家的DLSS,AMD和Intel都有替代方案
但不代表所有有支援DLSS的游戏都会去支援FSR或XeSS
AI的东西也一样,用了NV独家的东西那肯定是没办法支援
如果用到了就只能乖乖付钱给老黄,或者找其他替代方案
140F:推 ldickee: 感谢整理分享 39.12.169.200 02/24 13:13
※ 编辑: james58899 (49.213.184.242 台湾), 02/24/2026 18:09:27