作者patvessel (帕特貝賽爾)
看板AI_Art
標題[分享] comfyui 維護簡易手順 (pytorch組件篇)
時間Tue Jan 13 18:17:41 2026
comfyui 安裝維護簡易手順 (pytorch環境與其他組件篇)
上一篇文章我們應該把comfyui本體環境建立完成了
但是那個狀況下有很高的機率 pytorch會使用CPU運算 導致速度慢到想哭
所以這篇文章我們會把pytorch,flash attention,sage attention
等運算組件針對nvidia顯示卡最佳化 來獲得最快的生成速度
理論上AMD顯示卡,INTEL顯示卡,MAC等環境
以及xformer,nunchaku等其他組件也會是類似的邏輯
但我沒有使用 所以沒辦法實測 所以就不亂猜測
有需要的還請諸位自行嘗試
---
1.確認運行在python虛擬環境中
使用命令列開啟目錄 啟動虛擬環境
Windows:
```bash
.\.venv\Scripts\activate
```
Linux:
```bash
source .venv/bin/activate
```
(後續所有操作都在虛擬環境中進行)
---
2.更新pytorch相關組件
在安裝之前 我們通常會需要確認顯示卡支援到哪個版本的cuda
因此建議先更新顯示卡的驅動程式+cuda toolkit到最新版本後
打開命令列 運行下列命令
```bash
nvidia-smi
```
就能在表格的第一行看到
NVIDIA-SMI的版本 驅動程式的版本 CUDA的版本
需要注意的是 CUDA toolkit運作時是向前相容的
我們不需要為了配合最新版本的cuda (如目前最新版本似乎為13.1)
而硬要找最新版的套件 只要尋找相容性最高的版本來使用就可以了
這邊我的顯示卡是RTX3000系和RTX5000系 所以cuda我選擇13.0
可以根據你的顯示卡和驅動程式支援程度選擇
pytorch也是相同邏輯
建議依照你後續想裝的組件的相容版本選擇相容性最高的最新版
例如雖然已經有2.10 但因為一堆組件都還沒有人做2.10的編譯輪子
所以我選擇2.9.1
因此本次我打算安裝的就是PyTorch2.9.1+cu130
2.1 解除安裝舊版本(建議)
非必要但可以避免版本衝突(特別是不同 CUDA 版本的組件混雜)
帶來的很多奇怪問題
```bash
pip uninstall torch torchvision torchaudio
```
2.2
安裝針對硬體最佳化的 PyTorch
建議使用 PyTorch 官方的 index-url 來抓取特定版本的wheel
以下以2.9.1+cu130為示例
```bash
pip install torch==2.9.1 torchvision torchaudio --index-url
https://download.
pytorch.org/whl/cu130
```
* 如果遇到 No matching distribution found
可以在
https://download.pytorch.org/whl/
確認與你的Python和cuda版本對應的組件是否已經發布
2.3
檢查ComfyUI 識別到的環境是否正確:
```bash
python -c "import torch; print(f'Torch version: {torch.__version__}'); print(f
'CUDA available: {torch.cuda.is_available()}'); print(f'CUDA version: {torch.
version.cuda}')"
```
預期輸出:
```text
Torch version: 2.9.1+cu130
CUDA available: True
CUDA version: 13.0
```
3.更新(安裝)flash attention
3.1 移除現有flash attention
```bash
pip uninstall flash_attn
```
3.2 尋找符合你的OS和方才安裝之PyTorch版本的flash attention wheel
建議使用編譯好的wheel (可於本文最後的資源庫列表中找到)
以windows+python3.13+pytorch2.9.1+cu130環境為例
我們可使用Wildminder/AI-windows-whl資源庫中的
"flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_amd64.whl"
這個檔名內容代表的意義是
flash_attn-2.8.3:組件版本
cu130:cuda 13.0
torch2.9.1:torch2.9.1
cp313: python3.13.X
下載此檔案後放到~/wheel/或其他可供辨識的任意路徑中
3.3 安裝flash attention
導航至方才路徑後執行
windows例:
```bash
pip install "flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_
amd64.whl"
```
3.4 備註
flash attention已經是非常普遍的最佳化實作
理論上不需要特別的參數啟用 大多數支援的節點都會自行調用
---
4.更新triton
由於sage attention依賴triton 運作
因此在安裝sage attention前須先安裝適合的triton
4.1 移除舊版triton
Windows:
```bash
pip uninstall triton-windows
```
Linux:
```bash
pip uninstall triton
```
4.2 確認符合pytorch版本的 triton 版本
根據發布頁顯示 示範環境中的pytorch 2.9為例的話 適用 Triton 3.5
4.3 安裝適合的triton版本並限制版號
Windows:
```bash
pip install -U "triton-windows<3.6"
```
Linux:
```bash
pip install -U "triton<3.6"
```
5.更新sage attention
5.1 移除舊版sage attention (與sage attention 3)
```bash
pip uninstall sageattention
pip uninstall sageattn3
```
5.2 尋找符合你的OS和方才安裝之PyTorch版本的sage attention wheel
一樣建議使用編譯好的wheel
以windows+python3.13+pytorch2.9.1+cu130環境為例
我們可使用woct0rdho/SageAttention資源庫中的
"sageattention-2.2.0+cu130torch291-cp313-cp313-win_amd64.whl"
和
"sageattn3-1.0.0+cu130torch291-cp313-cp313-win_amd64.whl"
下載這些檔案一樣後放到~/wheel/或其他可供辨識的任意路徑中
5.3 安裝sage attention
導航至方才路徑後執行
windows例:
```bash
pip install "sageattention-2.2.0+cu130torch291-cp313-cp313-win_amd64.whl"
pip install "sageattn3-1.0.0+cu130torch291-cp313-cp313-win_amd64.whl"
```
5.4 備註
sageattention可以在啟動參數中追加--use-sage-attention
讓大多數節點的預設生成都啟用sageattention帶來的加速效果
但如果碰到某些影片生成出錯時 還是建議用下面提到的專用節點來控制會更穩
sageattn3 和 sageattention (1&2)這是兩個獨立的套件 可以同時安裝
sageattn3 僅適用於 Blackwell GPU(如 RTX 5000系)CUDA >= 12.8
(因此 PyTorch 必定>=2.7)
在 ComfyUI大多數節點中 --use-sage-attention "不會" 啟用 sageattn3
需要一些自訂節點來啟用它
例如PatchSageAttentionKJ(於ComfyUI-KJNodes 節點組合包內)
這個節點也可以在沒有使用參數啟動時 強制啟動sageattention
目前sageattn3 無法直接應用於 WAN之類的影像生成模型
極有可能會導致生成全黑畫面之類的問題
---
6.資源庫列表
flash attention
https://github.com/mjun0812/flash-attention-prebuild-wheels/blob/main/docs/
packages.md
sage attention + sageattn3 (win)
https://github.com/mengqin/SageAttention/releases
網路上的神仙製作的Win用的整理包
https://huggingface.co/Wildminder/AI-windows-whl/tree/main
triton-windows
https://github.com/woct0rdho/triton-windows
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1768299469.A.AB2.html
1F:推 error405: 好 技術文 01/13 18:18
2F:→ ADYex: 推 01/13 18:21
3F:推 kimwang: 推 01/13 18:24
追加triton-windows發布頁
※ 編輯: patvessel (125.229.28.82 臺灣), 01/13/2026 19:41:32
4F:推 gohst1234: 官方的整合攜帶版 01/13 19:40
6F:→ patvessel: 官方整合方便 但是就是不容易自己抽換套件管理 01/13 19:42
7F:→ patvessel: 單純是權衡和取捨 01/13 19:43
8F:→ patvessel: 入門或想省事的話用攜帶版甚至安裝版都是很棒的選擇 01/13 19:44
9F:推 gohst1234: 可以試試ComfyUI环境维护小工具v2.5.3 01/13 19:44
10F:→ patvessel: 不過要是碰過幾次環境問題或是非win環境使用者的話 01/13 19:45
11F:→ patvessel: 我是覺得與其把問題外包給別的黑箱 不如自己掌握最好 01/13 19:46
12F:推 avans: 推推分享! 01/13 19:59
13F:推 Supasizeit: Sage3 很難用 可以略過 01/13 20:17
14F:推 Supasizeit: 另外cuda 13裝上去cupy 會有問題 01/13 20:20
15F:→ patvessel: 我還沒碰到 等碰到再看要退回去還是怎樣 01/13 20:25
16F:推 Supasizeit: 週末才裝一套新的venv 我現在都懶得弄 叫codex出來我 01/13 20:39
17F:→ Supasizeit: 出張嘴按yes就好 01/13 20:39
18F:推 marklai: 好文推 01/14 00:23
19F:→ marklai: 我都是用portable 版,從V200用到現在的V 5.0,用一陣子 01/14 00:23
20F:→ marklai: 就會換新版,因為功能會一直增加,舊版的如果不需要了就 01/14 00:23
21F:→ marklai: 把它刪除,模型檔就固定在共用的資料夾 01/14 00:23
22F:推 kizajan: stability matrix方便管理 01/14 10:44
23F:→ kizajan: 說真的amd顯卡麻煩多了…… 01/14 10:45
24F:→ patvessel: CUDA多走了十幾二十年不是白走的 01/14 12:29
25F:推 iman00b: 我去年升 CUDA 13 問題一堆又退回 12 了,打算過半年再試 01/14 13:17
26F:→ patvessel: 現在想試NVFP4模型...反正虛擬環境多建幾套就好了 01/14 14:32
27F:→ Supasizeit: Nvfp4 我試完了 建議再等等 01/14 14:46
28F:→ Supasizeit: 很多Lora 不支援 sage不支援 (理論上也沒必要) 品質 01/14 14:48
29F:→ Supasizeit: 下降的比Q4 Q6嚴重 而且跑大模型 text encoding不見 01/14 14:48
30F:→ Supasizeit: 得有fp4可用就算有也是品質下降 01/14 14:48
31F:→ Supasizeit: LTX-2 很多人fp4 OOM 我也是 改成GGUF 穩到爆 01/14 14:49
32F:→ patvessel: 語意引擎不一定需要用相同的量化吧? 01/14 14:53
33F:→ patvessel: NVFP4理論上不太可能比Q4劣化更多就是 體感就不知道了 01/14 14:54
34F:→ patvessel: 反正這幾天公式和NV都一直在更新 環境有了出來就能試 01/14 14:55
35F:→ patvessel: 我就是那種"我可以不用 但是不能沒得用"的手賤 沒法 01/14 14:57
36F:推 Supasizeit: 不用相同但是你速度被拖慢啊 01/14 15:09
37F:→ Supasizeit: 建議先試flux.2 至少這個比較穩 wan2.2的剛出 但不是 01/14 15:12
38F:→ Supasizeit: 官方版本 Ltx-2有官方版但確定是比q6差 01/14 15:12
39F:→ patvessel: 語意到取樣不是並行 所以只要一部分有提升那就是提升了 01/14 15:17
40F:→ patvessel: 畢竟FP4還是4bit量化 跟Q6比那的確可能會比較差啦 01/14 15:18
41F:→ patvessel: zit昨天發布的版本說把lora支援合併進去了 應該會先試 01/14 15:19
42F:推 Supasizeit: Zit已經夠快了 都差在生prompt ollama 不支援fp4這個 01/14 16:00
43F:→ Supasizeit: 才討厭 01/14 16:00
44F:→ patvessel: 前兩天的新聞說llama.cpp已經把NVFP4的最佳化合併進去 01/14 17:16
45F:→ patvessel: 或許晚點也試試 01/14 17:16
46F:推 Supasizeit: Ollama應該沒那麼快 vllm 已經在跟了可是比較麻煩一 01/14 18:59
47F:→ Supasizeit: 點 01/14 18:59
48F:→ patvessel: Ollama是基於llama.cpp的實作 應該不會有太大落差 01/14 20:38
49F:推 Supasizeit: 他搞mxnp4路線 01/14 20:59
50F:→ patvessel: 如果是說mxfp4 那Ollama的mxfp4也是在llama.cpp實現的 01/14 23:51
51F:→ patvessel: Ollama的理論核心還是llama.cpp Ollama 幾乎只需要更 01/14 23:53
52F:→ patvessel: 新底層庫就能支援 任何llama.cpp的架構 01/14 23:54
53F:→ patvessel: 不太可能放著llama.cpp現成的東西不用還自己弄一套 01/14 23:55
54F:推 Supasizeit: 結果vllm 不支援mxfp4 01/15 02:00
55F:→ patvessel: 有支援啊? 雖然他與llama.cpp是不同底層的 01/17 01:55