作者trfmk1 (TRF小兵)
看板PC_Shopping
標題[心得] RX9070XT 架構ROCm7 SD WebUI 流程測試
時間Sun Oct 12 17:10:16 2025
這是繼上篇的文章的優化
我花了一點時間
測試如何在Win11系統環境下
讓9070XT跑最新的ROCm7
主要參考SD.Next網站上的說明
https://vladmandic.github.io/sdnext-docs/ZLUDA/
使用ROCm團隊架構的PyTorch安裝包
安裝方式參考
https://github.com/ROCm/TheRock
ComfyUI架構ROCm7可以參考下面網址教學
https://xoghfwdske.feishu.cn/docx/J2TmdPNOpoXWwBxOU57cSUjJnRU
架構ROCm7 Stable Diffusion WebUI SD.Next 簡易流程
安裝AMD PyTorch on Windows 測試驅動
https://www.amd.com/en/resources/support-articles/release-notes/RN-AMDGPU-WINDOWS-PYTORCH-PREVIEW.html
安裝AMD HIP SDK 6.4.2
https://www.amd.com/zh-tw/developer/resources/rocm-hub/hip-sdk.html
Git安裝
https://github.com/git-for-windows/git/releases/download/v2.47.1.windows.1/Git-2.47.1-64-bit.exe
Python 3.12.10 安裝
https://www.python.org/ftp/python/3.12.10/python-3.12.10-amd64.exe
https://i.imgur.com/hr83AwA.png
把Python加入PATH 環境變數記得打勾
接著開啟Windows PowerShell可以用指令碼執行
桌面工作列上的視窗圖標案右鍵
選擇以系統管理員身分執行 PowerShell
https://i.imgur.com/yw6VzHz.png
輸入
Set-ExecutionPolicy RemoteSigned
完成後關閉PowerShell
接著開始安裝 Stable Diffusion WebUI SD.Next
準備要安裝的位置新增一個資料夾
我是取名為SD.Next
點進資料夾按右鍵 選擇從終端開啟
呼叫命令提示字元
https://i.imgur.com/JzO58wf.png
依序輸入
git clone
https://github.com/vladmandic/sdnext
cd sdnext
git switch dev
python -m venv venv
venv\Scripts\Activate
python.exe -m pip install --upgrade pip
AMD RDNA4(RX9070、RX9070XT)系列要安裝ROCm7套件安裝指令如下
pip install --index-url
https://d2awnip2yjpvqn.cloudfront.net/v2/gfx120X-all/
torch torchvision torchaudio
這個指令是是直接安裝伺服器最新的套件包
AMD RDNA3(RX7900、RX7800、RX7700、RX7600)系列要安裝ROCm7套件安裝指令如下
pip install --index-url
https://d2awnip2yjpvqn.cloudfront.net/v2/gfx110X-dgpu/ torch torchvision torchaudio
跑完後
確認ROCm7是否正確架構
輸入
rocm-sdk test
看到OK就可以關掉PowerShell
接著在sdnext資料夾下找到webui.bat
按右鍵>顯示其他選項>建立捷徑
https://i.imgur.com/I3nCODQ.png
建立的捷徑按右鍵>內容
把連結後面加入 --use-rocm --autolaunch
https://i.imgur.com/D286MG2.png
以後啟動就開這個捷徑
點即開啟後會跑架構SD.Next的後續動作
跑完會跳出SD.Next WebUI 網頁操作介面
我重複安裝測試好幾次應該沒問題
有問題請自己DEBUG
成功的人恭喜你
正式踏入修練AI煉金術的其中一員
主要模型會放在\sdnext\models\Stable-diffusion下面
這裡使用wai-nsfw-illustrious-sdxl動漫模型來測試
https://civitai.com/models/827184/wai-nsfw-illustrious-sdxl
動漫類提示詞我都抄這裡的
https://seesaawiki.jp/nai_ch/
舉例來個生成個天之罩杯
在中世紀旅館房間躺在床上
https://i.imgur.com/Hi3nSOG.png
用上ROCm7 生成一張圖片1024x1024+RealESRGAN_x4plus_anime_6B 放大1.5倍
只需要7s的時間 如果不升頻5s左右出圖
沒想到效率提升這麼多...
https://i.imgur.com/FIxkZch.png
https://i.imgur.com/vO8XVHH.jpeg
https://i.imgur.com/wDyjWpb.jpeg
https://i.imgur.com/hC7oEBT.jpeg
這就是賽博時代的煉金術
世界的真理之門
追加設定
現在A卡問題點是VAE解碼器很容易爆顯存
我有找到解VAE卡頓的方法
sdnext根目錄下找到webui.py這個檔案
按右鍵在記事本中編輯
加入一段參數
import torch
torch.backends.cudnn.enabled = False
像這樣
https://i.imgur.com/8DwcfvT.png
存檔關閉就好
ComfyUI則是修改main.py這個檔案
我想應該是cudnn這個功能是N卡在用的
ROCm現狀是走兼容CUDA
這功能關閉後就完全不卡
任意切換解析度也是
啟動測試
https://i.imgur.com/KSvHugd.png
算20步縮短到只要4s
算30步縮短到只要6s
https://i.imgur.com/s41Rpx5.png
https://i.imgur.com/FTe2Ga6.png
就算加上超分1.5倍也只是瞬間的事= =
AMD官方正式支持windows系統的ROCm7應該會在10月啦
9070系列應該要起飛了= =
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.59.186 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/PC_Shopping/M.1760260220.A.92B.html
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/12/2025 17:12:24
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/12/2025 17:14:16
1F:推 d030b: 感謝分享 36.226.204.22 10/12 17:21
2F:推 labbat: 時代的發展 27.51.112.165 10/12 17:22
3F:推 heha751019: 期待A卡在AI應用的發展111.253.128.115 10/12 17:24
4F:推 t202202: 太強了 101.10.237.26 10/12 17:29
5F:推 pcfox: 戰未來 36.231.82.151 10/12 17:50
6F:推 ceming: 1024*1024只要10秒內也太快118.232.109.177 10/12 17:52
7F:推 zero790425: 無yolo修正七秒內出圖其實真的很快 39.9.69.56 10/12 17:58
8F:→ ksng1092: grok現在很紅的圖轉影片,不知道能不能 111.248.25.229 10/12 18:00
9F:→ ksng1092: 在本地辦到 111.248.25.229 10/12 18:00
10F:推 tokikaze: 可以啊,wan2.x或hunyuan 36.236.235.114 10/12 18:02
11F:→ tokikaze: wan用A卡跑一樣會在VAE出問題,目前只 36.236.235.114 10/12 18:03
12F:→ tokikaze: 能用CPU處理VAE 36.236.235.114 10/12 18:03
13F:推 sporocyst: 希望能成功打破cuda一家獨大的局面 123.192.240.37 10/12 18:33
14F:推 EBVirus: 很難啦 現在ai發展很快 很競爭,幾乎每 36.239.0.109 10/12 18:39
15F:→ EBVirus: 天都有新模型 而且都要cuda 你是開發ai 36.239.0.109 10/12 18:39
16F:→ EBVirus: 的團隊敢把資源挪到其他地方嗎 36.239.0.109 10/12 18:39
17F:推 arnold3: 看有沒有大量出圖的需求吧 182.234.98.55 10/12 18:42
18F:推 cowgan78: 感謝大大分享,intel顯卡一樣跑幾張就會 61.227.221.63 10/12 19:03
19F:→ cowgan78: 爆掉,看來雙11還是換張16g顯卡來試試 61.227.221.63 10/12 19:03
20F:推 silveryiris: 推 42.73.96.40 10/12 19:22
21F:推 howard10141: 7900XTX的24G有地方用了 1.121.209.95 10/12 19:30
我有更新文章增加RDNA3安裝rcom7套件的指令
22F:推 archangel: 讚讚! 27.242.6.156 10/12 19:42
23F:推 sino6445: 好分享,讚讚 101.10.223.40 10/12 19:43
24F:→ sino6445: 樂見N卡之外的發展,I卡的AI其實也能用 101.10.223.40 10/12 19:43
25F:→ sino6445: ,支援度更沒有A卡好,讚讚 101.10.223.40 10/12 19:43
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/12/2025 20:06:56
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/12/2025 20:10:31
26F:推 ttmm: 推 之後來玩看看 36.227.157.186 10/12 20:16
27F:推 htps0763: 前幾個禮拜弄到wan一直爆就沒玩了,等 36.239.247.242 10/12 20:26
28F:→ htps0763: 更新,最近倒是在試新的ai 去碼工具, 36.239.247.242 10/12 20:26
29F:→ htps0763: 總算搞好torch跟使用amd的硬體編碼器 36.239.247.242 10/12 20:26
30F:→ htps0763: 然後前幾個月llm 的工具總算能在win上 36.239.247.242 10/12 20:28
31F:→ htps0763: 跑滿了,感覺是都慢慢有在完善ai生態了 36.239.247.242 10/12 20:28
32F:推 bdpq: 感謝大大分享教學 27.247.39.86 10/12 20:32
34F:→ pentw: 9070用ComfyUI算約9秒 36.224.166.162 10/12 20:50
35F:→ Ceferino: vae爆ram這個問題至少已經半年還沒解掉 123.193.242.14 10/12 20:52
36F:→ Ceferino: ,真的不行 123.193.242.14 10/12 20:52
我找到解法了
已經更新文章
37F:→ pentw: VAE用分塊就不會爆了 36.224.166.162 10/12 21:08
38F:推 lolicat: 我只是進來看天之罩杯的 123.194.42.140 10/12 21:39
39F:→ b122771: 喔 49.214.8.235 10/12 21:46
40F:推 yesheyman: 最近miniPC都搭配395max+128G 應該有料 70.95.16.251 10/13 03:20
41F:→ yesheyman: 可惜只有RDNA3.5不是4 ROCm7還不支援 70.95.16.251 10/13 03:21
42F:推 avans: 推推心得 111.71.64.187 10/13 08:13
43F:推 litwild: 推個,上個禮拜 9070 9070xt各買一張了223.137.129.253 10/13 08:50
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/13/2025 11:21:05
44F:推 jeff85898: 爆顯存5000買一張mi50 32GB就搞定了 不 27.52.193.223 10/13 11:25
45F:→ jeff85898: 行就兩張 27.52.193.223 10/13 11:25
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/13/2025 11:56:01
46F:推 oread168: 巨大提升 223.138.240.14 10/13 12:11
47F:推 odanaga: rocm好起來了? 104.133.15.97 10/13 13:41
48F:推 kaj1983: 天之罩杯呢?都擋住了 218.166.19.237 10/13 13:52
49F:→ kaj1983: 兄弟你真會選角度,剛好都看不到本體 218.166.19.237 10/13 13:53
50F:→ Chikei: cudnn那個不是因為他只是為了相容N家 211.72.92.133 10/13 14:36
51F:→ Chikei: 是AMD在這邊做了你在第一次跑的時候他會 211.72.92.133 10/13 14:37
52F:→ Chikei: benchmark各種算法,然後挑效能最好的記下 211.72.92.133 10/13 14:37
53F:→ Chikei: LLM這作法沒問題,用第一次跑換取加速 211.72.92.133 10/13 14:38
54F:→ Chikei: 但是算圖換個解析度就要benchmark一次誰受 211.72.92.133 10/13 14:39
55F:→ Chikei: 的了,更別說detailer有一堆解析度的可能 211.72.92.133 10/13 14:39
56F:→ Chikei: 然後最重要的,你叫我benchmark這麼久也才 211.72.92.133 10/13 14:40
57F:→ Chikei: 5%效能差異 211.72.92.133 10/13 14:40
58F:→ Chikei: 可以不用改code,加環境變數 211.72.92.133 10/13 14:41
59F:→ Chikei: MIOPEN_FIND_MODE=2 有一樣的效果 211.72.92.133 10/13 14:42
60F:→ Ceferino: 這個torch.backends.cudnn.enabled = F 39.9.199.212 10/13 16:27
61F:→ Ceferino: alse我兩個禮拜前試過又改回來了,印象 39.9.199.212 10/13 16:27
62F:→ Ceferino: 中在Linux掉速而且wan vae解碼一樣爆 39.9.199.212 10/13 16:27
63F:→ Ceferino: github上一堆鬼方法都試過了,覺得最有 39.9.199.212 10/13 16:29
64F:→ Ceferino: 可能的是在vae解碼時是強制fp32在解的 39.9.199.212 10/13 16:29
65F:→ Ceferino: ,AMD查了半年什麼鬼都沒回應 39.9.199.212 10/13 16:29
我這邊在純win環境下去跑
使用torch.backends.cudnn.enabled = False
這段參數是有效的
第一次運行跑圖不卡
任意切換解析度也不卡
現在就頂多會算到破圖
但也只要重開就好
不像之前卡到驅動會崩潰= =
看對岸有人9070XT跑ComfyUI也是用了參數就正常
https://b23.tv/HXuOwt0
※ 編輯: trfmk1 (125.229.59.186 臺灣), 10/13/2025 17:37:16
66F:→ ganei: mi50不是一直被喊說要踢出新版ROCm 的支援 111.71.36.117 10/13 18:38
67F:→ ganei: 列表了?可惜有32G HBM但核心太老不夠強 111.71.36.117 10/13 18:38
68F:推 cowgan78: 感謝大大分享的參數設定 連intel的arc75 61.227.221.63 10/13 23:52
69F:→ cowgan78: 0也有用!一次生成20張圖都成功 整個只 61.227.221.63 10/13 23:52
70F:→ cowgan78: 有爽 好人一生平安 61.227.221.63 10/13 23:52
71F:推 felaray: 推118.168.198.132 10/14 05:03
72F:推 xiaotee: 推推 223.139.15.201 10/14 10:35
73F:推 brandon50615: 推 42.70.73.150 10/14 17:27
74F:推 s9209122222: 60 樓求 Linux 的 ROCm 使用教學 36.236.92.91 10/17 07:56