作者trfmk1 (TRF小兵)
看板PC_Shopping
标题Re: [心得] ComfyUI 7.0 RX 9070XT便携包分享
时间Wed Mar 11 18:01:27 2026
ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite 200260311
https://drive.google.com/file/d/1KeyJg-cudGQ2G0QiThrRKGHDiSQcwEGX/view?usp=sharing
此为没有任何基础模型的便携包
针对RDNA4 RX9070X优化的版本
架构环境
ComfyUI v0.16.4
Python version: 3.13.11
Pytorch version: 2.12.0a0+rocm7.12.0a20260218
triton_windows-3.6.0.post26 20260309
这次主要增加sage-attention triton自定义参数设定
https://drive.google.com/file/d/11PjKHXraivbEeJP-RbJjN0e7KXOJ9TjH/view?usp=sharing
这是修改过後的文件
已经放进去便携包内
在西台湾的QQ群已经测试了一阵子
灵感来自於这里
https://github.com/Dao-AILab/flash-attention/pull/2239
我参考上面文章的flash-attention调优算子
利用gemini针对RNDA架构
优化了sage-attention triton
并且可以使用环境变数加以调整
目前预设使用
set SAGEATTN_M=128
set SAGEATTN_N=16
set SAGEATTN_GM=16
set SAGEATTN_WAVE=4
set SAGEATTN_WARP=4
set SAGEATTN_NSTAGES=1
set SAGEATTN_CAUSAL_STAGE=3
参数说明
1. SAGEATTN_M (BLOCK_M)
定义:Query 分块大小 (Query Block Size)。决定 GPU 一次处理多少列的 Query 矩阵
。
选项:64 (推荐), 128 (激进)。
影响:
越大 (128):理论上能减少读取 K/V 的次数(节省频宽),速度通常较快。
副作用:会占用大量的 SRAM (LDS) 和 暂存器 (VGPR)。
2. SAGEATTN_N (BLOCK_N)
定义:Key/Value 分块大小 (Key/Value Block Size)。决定 GPU 一次读取多少列的 K/V
。
3. SAGEATTN_GM (GROUP_SIZE_M)
定义:L2 Cache 分组大小 (L2 Swizzling)。决定有多少个 Query Block 共用同一份
K/V 数据。
影响:
数值越高:K/V 读取次数越少(省频宽)。
代价:GPU 必须同时在 L2 Cache 里暂存 (M × GM) 这麽大块的输出结果
(Accumulator)。
4. SAGEATTN_WAVE (waves_per_eu)
定义:每个计算单元的波前数量 (Occupancy)。这是 AMD 特有的参数,控制一个 CU
(Compute Unit) 同时跑几个 Wave。
选项:0 (自动), 2 (保守), 4 (激进)。
影响:
越高 (4):能更好地隐藏记忆体延迟,跑分高。但若暂存器不够,会导致核心崩溃或计算
错误。
建议值:2 (稳定) 或 0 (让编译器自己算)。
5. SAGEATTN_WARP (num_warps)
定义:核心并行度 (Warps per Block)。Triton 内部的参数,决定用多少个 Warp 来处
理一个 Block。
选项:2, 4, 8。
影响:必须跟 BLOCK_N 的大小成正比。
6. SAGEATTN_NSTAGES (num_stages)
定义:软体流水线级数 (Software Pipelining)。决定 GPU 要「预先读取」多少块未来
的数据。
选项:1 (不预读), 2 (预读一块)
7. SAGEATTN_CAUSAL_STAGE
定义:核心逻辑阶段。这是 SageAttention 演算法内部的数学逻辑开关。
影响:这不是效能参数,而是正确性参数。
建议值:3 (固定值)。乱改会导致数学逻辑错误,画面会变成杂讯。
总之使用优化过後sage-attention
跑图速度会提昇20~30%
跑WAN2.2一步至少缩短5s
想要自订参数请自行用记事本编辑修改Start.bat
补充一下
Mimalloc优化设定
32GB RAM:平衡配置 (Balance)
set MIMALLOC_PURGE_DELAY=500
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=100
set MIMALLOC_SHOW_STATS=0
64GB RAM:效能优先 (Performance)
set MIMALLOC_PURGE_DELAY=5000
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=500
set MIMALLOC_SHOW_STATS=0
128GB RAM:极限效能 (Extreme / Latency Sensitive)
set MIMALLOC_PURGE_DELAY=-1
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=-1
set MIMALLOC_SHOW_STATS=0
由於我的环境记忆体有128G
预设是调到最高等级
一些跑图数据
Z-image turbo
https://i.imgur.com/4EW0f9z.png
1024x1024
6步 5.82s
4步 3.99s
SD XL illustrious
https://i.imgur.com/9k9n84q.png
1024x1024
20步 6.68s
WAN 2.2 640x480 5s
https://i.imgur.com/IUbxCjy.png
4步 59.51s
SDXL工作流增加自动修脸跟手脚功能
https://i.imgur.com/ypWxNBB.png
目前triton-windows已经有AMD官方人员加入维护
https://github.com/triton-lang/triton-windows/issues/2
看起来AMD是认真的
此便携包可以任意分享
本来就是我闲暇时间自己琢磨玩玩
我其实也不懂Python程式怎麽写
反正有问题就问AI= =
或者爬文章或者跟别人讨教
希望有人能接着发扬光大
甚至去Github社群交流
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.59.186 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1773223293.A.591.html
1F:推 w1222067: 先推 36.233.72.195 03/11 18:20
2F:推 danisaku: 感谢111.249.183.126 03/11 18:45
3F:推 d0178411: 只有79XTX跟4070TIS但还是推 111.71.212.212 03/11 20:12
4F:推 pcfox: 好文推 36.231.117.89 03/11 20:41
5F:推 iceling: 谢谢 114.36.208.158 03/11 21:44
6F:推 zseineo: 推 1.160.11.40 03/11 22:00
7F:推 cowgan78: 大大真的猛 辛苦了!218.173.195.110 03/11 22:15
8F:推 Genie00581: 先推,有空再来研究一下,感谢分享 114.39.96.184 03/12 00:00
9F:推 ganei: 感谢分享,旧版是建议改参数还是把model移118.165.155.171 03/12 00:53
10F:→ ganei: 植到新的资料夹过去比较稳?另外AMD的blog118.165.155.171 03/12 00:53
11F:→ ganei: 上有简易的在Ubuntu底下架ComfyUI的教学了118.165.155.171 03/12 00:55
建议模型先丢过去测试
※ 编辑: trfmk1 (125.229.59.186 台湾), 03/12/2026 00:57:57
12F:推 kovenkoven: 推分享,想请教I2V的工作流跟模型 1.164.30.91 03/12 02:10
13F:→ kovenkoven: 是怎麽选的?我自己尝试产出的影片 1.164.30.91 03/12 02:12
14F:→ kovenkoven: 画风都会剧变,而且边缘很模糊 1.164.30.91 03/12 02:12
15F:推 htps0763: 想问原po有没有用过0221以後的版本,我 36.239.196.19 03/12 02:17
16F:→ htps0763: 的应用用到卷积计算21後速度又下降了 36.239.196.19 03/12 02:17
建议先退回2/18版本
※ 编辑: trfmk1 (125.229.59.186 台湾), 03/12/2026 09:43:36
17F:推 lolicat: 感谢分享 请问我有下载之前的包 是否直接 49.215.240.171 03/12 10:12
18F:→ lolicat: 覆盖就好? 49.215.240.171 03/12 10:12
建议模型、工作流搬过去测试没问题再说
※ 编辑: trfmk1 (39.12.137.126 台湾), 03/12/2026 10:59:16
19F:推 lolicat: 了解 谢谢 49.215.240.171 03/12 11:34
20F:推 htps0763: 我自己的应用目前是停在0220 36.239.196.19 03/12 11:41
21F:→ htps0763: 而且这几个版本之後终於不用关AU的内显 36.239.196.19 03/12 11:42
22F:→ htps0763: 或设定环境变数了 36.239.196.19 03/12 11:42
23F:推 ganei: 转移成功,感谢!一开始浏览器没跟旧版一样 111.71.72.238 03/12 12:34
24F:→ ganei: 自动跳出来还以为开到一半卡住了,自己拉新 111.71.72.238 03/12 12:34
25F:→ ganei: 页面输入IP就成功点亮,跑图提速跟修脸有感 111.71.72.238 03/12 12:34
26F:→ ganei: ,修手反而很少动作,这可能是我自己下提示 111.71.72.238 03/12 12:34
27F:→ ganei: 词的问题... 111.71.72.238 03/12 12:34
28F:推 ss70012: 推推amd rocm加油 36.231.70.113 03/12 13:20
29F:推 aacj2642: 推! 101.8.93.200 03/12 13:51
30F:→ ganei: WAN 2.2的I2V基本上只保证81 frame以内ok ( 111.71.72.238 03/12 14:40
31F:→ ganei: 真人可以拚一下121f),超过之後影片常与pro 111.71.72.238 03/12 14:40
32F:→ ganei: mpt脱节,画质还会出现明显劣化 111.71.72.238 03/12 14:40
33F:推 kizajan: wan22我的经验是81帧做拼接最稳效率最好 114.34.102.156 03/15 17:01
34F:推 franchy: 推推,我小白还在研究怎麽搞 114.44.199.101 03/16 00:49