Re: [心得] ComfyUI 7.0 RX 9070XT便携包分享

时间Wed Mar 11 18:01:27 2026

ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite 200260311 https://drive.google.com/file/d/1KeyJg-cudGQ2G0QiThrRKGHDiSQcwEGX/view?usp=sharing 此为没有任何基础模型的便携包针对RDNA4 RX9070X优化的版本架构环境 ComfyUI v0.16.4 Python version: 3.13.11 Pytorch version: 2.12.0a0+rocm7.12.0a20260218 triton_windows-3.6.0.post26 20260309 这次主要增加sage-attention triton自定义参数设定 https://drive.google.com/file/d/11PjKHXraivbEeJP-RbJjN0e7KXOJ9TjH/view?usp=sharing 这是修改过後的文件已经放进去便携包内在西台湾的QQ群已经测试了一阵子灵感来自於这里 https://github.com/Dao-AILab/flash-attention/pull/2239 我参考上面文章的flash-attention调优算子利用gemini针对RNDA架构优化了sage-attention triton 并且可以使用环境变数加以调整目前预设使用 set SAGEATTN_M=128 set SAGEATTN_N=16 set SAGEATTN_GM=16 set SAGEATTN_WAVE=4 set SAGEATTN_WARP=4 set SAGEATTN_NSTAGES=1 set SAGEATTN_CAUSAL_STAGE=3 参数说明 1. SAGEATTN_M (BLOCK_M) 定义：Query 分块大小 (Query Block Size)。决定 GPU 一次处理多少列的 Query 矩阵。选项：64 (推荐), 128 (激进)。影响：越大 (128)：理论上能减少读取 K/V 的次数（节省频宽），速度通常较快。副作用：会占用大量的 SRAM (LDS) 和暂存器 (VGPR)。 2. SAGEATTN_N (BLOCK_N) 定义：Key/Value 分块大小 (Key/Value Block Size)。决定 GPU 一次读取多少列的 K/V 。 3. SAGEATTN_GM (GROUP_SIZE_M) 定义：L2 Cache 分组大小 (L2 Swizzling)。决定有多少个 Query Block 共用同一份 K/V 数据。影响：数值越高：K/V 读取次数越少（省频宽）。代价：GPU 必须同时在 L2 Cache 里暂存 (M × GM) 这麽大块的输出结果 (Accumulator)。 4. SAGEATTN_WAVE (waves_per_eu) 定义：每个计算单元的波前数量 (Occupancy)。这是 AMD 特有的参数，控制一个 CU (Compute Unit) 同时跑几个 Wave。选项：0 (自动), 2 (保守), 4 (激进)。影响：越高 (4)：能更好地隐藏记忆体延迟，跑分高。但若暂存器不够，会导致核心崩溃或计算错误。建议值：2 (稳定) 或 0 (让编译器自己算)。 5. SAGEATTN_WARP (num_warps) 定义：核心并行度 (Warps per Block)。Triton 内部的参数，决定用多少个 Warp 来处理一个 Block。选项：2, 4, 8。影响：必须跟 BLOCK_N 的大小成正比。 6. SAGEATTN_NSTAGES (num_stages) 定义：软体流水线级数 (Software Pipelining)。决定 GPU 要「预先读取」多少块未来的数据。选项：1 (不预读), 2 (预读一块) 7. SAGEATTN_CAUSAL_STAGE 定义：核心逻辑阶段。这是 SageAttention 演算法内部的数学逻辑开关。影响：这不是效能参数，而是正确性参数。建议值：3 (固定值)。乱改会导致数学逻辑错误，画面会变成杂讯。总之使用优化过後sage-attention 跑图速度会提昇20～30％跑WAN2.2一步至少缩短5s 想要自订参数请自行用记事本编辑修改Start.bat 补充一下 Mimalloc优化设定 32GB RAM：平衡配置 (Balance) set MIMALLOC_PURGE_DELAY=500 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=100 set MIMALLOC_SHOW_STATS=0 64GB RAM：效能优先 (Performance) set MIMALLOC_PURGE_DELAY=5000 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=500 set MIMALLOC_SHOW_STATS=0 128GB RAM：极限效能 (Extreme / Latency Sensitive) set MIMALLOC_PURGE_DELAY=-1 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=-1 set MIMALLOC_SHOW_STATS=0 由於我的环境记忆体有128G 预设是调到最高等级一些跑图数据 Z-image turbo https://i.imgur.com/4EW0f9z.png 1024x1024 6步 5.82s 4步 3.99s SD XL illustrious https://i.imgur.com/9k9n84q.png 1024x1024 20步 6.68s WAN 2.2 640x480 5s https://i.imgur.com/IUbxCjy.png 4步 59.51s SDXL工作流增加自动修脸跟手脚功能 https://i.imgur.com/ypWxNBB.png 目前triton-windows已经有AMD官方人员加入维护 https://github.com/triton-lang/triton-windows/issues/2 看起来AMD是认真的此便携包可以任意分享本来就是我闲暇时间自己琢磨玩玩我其实也不懂Python程式怎麽写反正有问题就问AI= = 或者爬文章或者跟别人讨教希望有人能接着发扬光大甚至去Github社群交流 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.59.186 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1773223293.A.591.html

1^F：推 w1222067: 先推 36.233.72.195 03/11 18:20

2^F：推 danisaku: 感谢111.249.183.126 03/11 18:45

3^F：推 d0178411: 只有79XTX跟4070TIS但还是推 111.71.212.212 03/11 20:12

4^F：推 pcfox: 好文推 36.231.117.89 03/11 20:41

5^F：推 iceling: 谢谢 114.36.208.158 03/11 21:44

6^F：推 zseineo: 推 1.160.11.40 03/11 22:00

7^F：推 cowgan78: 大大真的猛辛苦了！218.173.195.110 03/11 22:15

8^F：推 Genie00581: 先推，有空再来研究一下，感谢分享 114.39.96.184 03/12 00:00

9^F：推 ganei: 感谢分享，旧版是建议改参数还是把model移118.165.155.171 03/12 00:53

10^F：→ ganei: 植到新的资料夹过去比较稳？另外AMD的blog118.165.155.171 03/12 00:53

11^F：→ ganei: 上有简易的在Ubuntu底下架ComfyUI的教学了118.165.155.171 03/12 00:55

建议模型先丢过去测试 ※ 编辑: trfmk1 (125.229.59.186 台湾), 03/12/2026 00:57:57

12^F：推 kovenkoven: 推分享，想请教I2V的工作流跟模型 1.164.30.91 03/12 02:10

13^F：→ kovenkoven: 是怎麽选的?我自己尝试产出的影片 1.164.30.91 03/12 02:12

14^F：→ kovenkoven: 画风都会剧变，而且边缘很模糊 1.164.30.91 03/12 02:12

15^F：推 htps0763: 想问原po有没有用过0221以後的版本，我 36.239.196.19 03/12 02:17

16^F：→ htps0763: 的应用用到卷积计算21後速度又下降了 36.239.196.19 03/12 02:17

建议先退回2/18版本 ※ 编辑: trfmk1 (125.229.59.186 台湾), 03/12/2026 09:43:36

17^F：推 lolicat: 感谢分享请问我有下载之前的包是否直接 49.215.240.171 03/12 10:12

18^F：→ lolicat: 覆盖就好？ 49.215.240.171 03/12 10:12

建议模型、工作流搬过去测试没问题再说 ※ 编辑: trfmk1 (39.12.137.126 台湾), 03/12/2026 10:59:16

19^F：推 lolicat: 了解谢谢 49.215.240.171 03/12 11:34

20^F：推 htps0763: 我自己的应用目前是停在0220 36.239.196.19 03/12 11:41

21^F：→ htps0763: 而且这几个版本之後终於不用关AU的内显 36.239.196.19 03/12 11:42

22^F：→ htps0763: 或设定环境变数了 36.239.196.19 03/12 11:42

23^F：推 ganei: 转移成功，感谢！一开始浏览器没跟旧版一样 111.71.72.238 03/12 12:34

24^F：→ ganei: 自动跳出来还以为开到一半卡住了，自己拉新 111.71.72.238 03/12 12:34

25^F：→ ganei: 页面输入IP就成功点亮，跑图提速跟修脸有感 111.71.72.238 03/12 12:34

26^F：→ ganei: ，修手反而很少动作，这可能是我自己下提示 111.71.72.238 03/12 12:34

27^F：→ ganei: 词的问题... 111.71.72.238 03/12 12:34

28^F：推 ss70012: 推推amd rocm加油 36.231.70.113 03/12 13:20

29^F：推 aacj2642: 推！ 101.8.93.200 03/12 13:51

30^F：→ ganei: WAN 2.2的I2V基本上只保证81 frame以内ok ( 111.71.72.238 03/12 14:40

31^F：→ ganei: 真人可以拚一下121f)，超过之後影片常与pro 111.71.72.238 03/12 14:40

32^F：→ ganei: mpt脱节，画质还会出现明显劣化 111.71.72.238 03/12 14:40

33^F：推 kizajan: wan22我的经验是81帧做拼接最稳效率最好 114.34.102.156 03/15 17:01

34^F：推 franchy: 推推，我小白还在研究怎麽搞 114.44.199.101 03/16 00:49

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

PC_Shopping 板

Re: [心得] ComfyUI 7.0 RX 9070XT便携包分享

热门看板

赞助商连结