作者patvessel (帕特贝赛尔)
看板AI_Art
标题[分享] comfyui 维护简易手顺 (pytorch组件篇)
时间Tue Jan 13 18:17:41 2026
comfyui 安装维护简易手顺 (pytorch环境与其他组件篇)
上一篇文章我们应该把comfyui本体环境建立完成了
但是那个状况下有很高的机率 pytorch会使用CPU运算 导致速度慢到想哭
所以这篇文章我们会把pytorch,flash attention,sage attention
等运算组件针对nvidia显示卡最佳化 来获得最快的生成速度
理论上AMD显示卡,INTEL显示卡,MAC等环境
以及xformer,nunchaku等其他组件也会是类似的逻辑
但我没有使用 所以没办法实测 所以就不乱猜测
有需要的还请诸位自行尝试
---
1.确认运行在python虚拟环境中
使用命令列开启目录 启动虚拟环境
Windows:
```bash
.\.venv\Scripts\activate
```
Linux:
```bash
source .venv/bin/activate
```
(後续所有操作都在虚拟环境中进行)
---
2.更新pytorch相关组件
在安装之前 我们通常会需要确认显示卡支援到哪个版本的cuda
因此建议先更新显示卡的驱动程式+cuda toolkit到最新版本後
打开命令列 运行下列命令
```bash
nvidia-smi
```
就能在表格的第一行看到
NVIDIA-SMI的版本 驱动程式的版本 CUDA的版本
需要注意的是 CUDA toolkit运作时是向前相容的
我们不需要为了配合最新版本的cuda (如目前最新版本似乎为13.1)
而硬要找最新版的套件 只要寻找相容性最高的版本来使用就可以了
这边我的显示卡是RTX3000系和RTX5000系 所以cuda我选择13.0
可以根据你的显示卡和驱动程式支援程度选择
pytorch也是相同逻辑
建议依照你後续想装的组件的相容版本选择相容性最高的最新版
例如虽然已经有2.10 但因为一堆组件都还没有人做2.10的编译轮子
所以我选择2.9.1
因此本次我打算安装的就是PyTorch2.9.1+cu130
2.1 解除安装旧版本(建议)
非必要但可以避免版本冲突(特别是不同 CUDA 版本的组件混杂)
带来的很多奇怪问题
```bash
pip uninstall torch torchvision torchaudio
```
2.2
安装针对硬体最佳化的 PyTorch
建议使用 PyTorch 官方的 index-url 来抓取特定版本的wheel
以下以2.9.1+cu130为示例
```bash
pip install torch==2.9.1 torchvision torchaudio --index-url
https://download.
pytorch.org/whl/cu130
```
* 如果遇到 No matching distribution found
可以在
https://download.pytorch.org/whl/
确认与你的Python和cuda版本对应的组件是否已经发布
2.3
检查ComfyUI 识别到的环境是否正确:
```bash
python -c "import torch; print(f'Torch version: {torch.__version__}'); print(f
'CUDA available: {torch.cuda.is_available()}'); print(f'CUDA version: {torch.
version.cuda}')"
```
预期输出:
```text
Torch version: 2.9.1+cu130
CUDA available: True
CUDA version: 13.0
```
3.更新(安装)flash attention
3.1 移除现有flash attention
```bash
pip uninstall flash_attn
```
3.2 寻找符合你的OS和方才安装之PyTorch版本的flash attention wheel
建议使用编译好的wheel (可於本文最後的资源库列表中找到)
以windows+python3.13+pytorch2.9.1+cu130环境为例
我们可使用Wildminder/AI-windows-whl资源库中的
"flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_amd64.whl"
这个档名内容代表的意义是
flash_attn-2.8.3:组件版本
cu130:cuda 13.0
torch2.9.1:torch2.9.1
cp313: python3.13.X
下载此档案後放到~/wheel/或其他可供辨识的任意路径中
3.3 安装flash attention
导航至方才路径後执行
windows例:
```bash
pip install "flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_
amd64.whl"
```
3.4 备注
flash attention已经是非常普遍的最佳化实作
理论上不需要特别的参数启用 大多数支援的节点都会自行调用
---
4.更新triton
由於sage attention依赖triton 运作
因此在安装sage attention前须先安装适合的triton
4.1 移除旧版triton
Windows:
```bash
pip uninstall triton-windows
```
Linux:
```bash
pip uninstall triton
```
4.2 确认符合pytorch版本的 triton 版本
根据发布页显示 示范环境中的pytorch 2.9为例的话 适用 Triton 3.5
4.3 安装适合的triton版本并限制版号
Windows:
```bash
pip install -U "triton-windows<3.6"
```
Linux:
```bash
pip install -U "triton<3.6"
```
5.更新sage attention
5.1 移除旧版sage attention (与sage attention 3)
```bash
pip uninstall sageattention
pip uninstall sageattn3
```
5.2 寻找符合你的OS和方才安装之PyTorch版本的sage attention wheel
一样建议使用编译好的wheel
以windows+python3.13+pytorch2.9.1+cu130环境为例
我们可使用woct0rdho/SageAttention资源库中的
"sageattention-2.2.0+cu130torch291-cp313-cp313-win_amd64.whl"
和
"sageattn3-1.0.0+cu130torch291-cp313-cp313-win_amd64.whl"
下载这些档案一样後放到~/wheel/或其他可供辨识的任意路径中
5.3 安装sage attention
导航至方才路径後执行
windows例:
```bash
pip install "sageattention-2.2.0+cu130torch291-cp313-cp313-win_amd64.whl"
pip install "sageattn3-1.0.0+cu130torch291-cp313-cp313-win_amd64.whl"
```
5.4 备注
sageattention可以在启动参数中追加--use-sage-attention
让大多数节点的预设生成都启用sageattention带来的加速效果
但如果碰到某些影片生成出错时 还是建议用下面提到的专用节点来控制会更稳
sageattn3 和 sageattention (1&2)这是两个独立的套件 可以同时安装
sageattn3 仅适用於 Blackwell GPU(如 RTX 5000系)CUDA >= 12.8
(因此 PyTorch 必定>=2.7)
在 ComfyUI大多数节点中 --use-sage-attention "不会" 启用 sageattn3
需要一些自订节点来启用它
例如PatchSageAttentionKJ(於ComfyUI-KJNodes 节点组合包内)
这个节点也可以在没有使用参数启动时 强制启动sageattention
目前sageattn3 无法直接应用於 WAN之类的影像生成模型
极有可能会导致生成全黑画面之类的问题
---
6.资源库列表
flash attention
https://github.com/mjun0812/flash-attention-prebuild-wheels/blob/main/docs/
packages.md
sage attention + sageattn3 (win)
https://github.com/mengqin/SageAttention/releases
网路上的神仙制作的Win用的整理包
https://huggingface.co/Wildminder/AI-windows-whl/tree/main
triton-windows
https://github.com/woct0rdho/triton-windows
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.28.82 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1768299469.A.AB2.html
1F:推 error405: 好 技术文 01/13 18:18
2F:→ ADYex: 推 01/13 18:21
3F:推 kimwang: 推 01/13 18:24
追加triton-windows发布页
※ 编辑: patvessel (125.229.28.82 台湾), 01/13/2026 19:41:32
4F:推 gohst1234: 官方的整合携带版 01/13 19:40
6F:→ patvessel: 官方整合方便 但是就是不容易自己抽换套件管理 01/13 19:42
7F:→ patvessel: 单纯是权衡和取舍 01/13 19:43
8F:→ patvessel: 入门或想省事的话用携带版甚至安装版都是很棒的选择 01/13 19:44
9F:推 gohst1234: 可以试试ComfyUI环境维护小工具v2.5.3 01/13 19:44
10F:→ patvessel: 不过要是碰过几次环境问题或是非win环境使用者的话 01/13 19:45
11F:→ patvessel: 我是觉得与其把问题外包给别的黑箱 不如自己掌握最好 01/13 19:46
12F:推 avans: 推推分享! 01/13 19:59
13F:推 Supasizeit: Sage3 很难用 可以略过 01/13 20:17
14F:推 Supasizeit: 另外cuda 13装上去cupy 会有问题 01/13 20:20
15F:→ patvessel: 我还没碰到 等碰到再看要退回去还是怎样 01/13 20:25
16F:推 Supasizeit: 周末才装一套新的venv 我现在都懒得弄 叫codex出来我 01/13 20:39
17F:→ Supasizeit: 出张嘴按yes就好 01/13 20:39
18F:推 marklai: 好文推 01/14 00:23
19F:→ marklai: 我都是用portable 版,从V200用到现在的V 5.0,用一阵子 01/14 00:23
20F:→ marklai: 就会换新版,因为功能会一直增加,旧版的如果不需要了就 01/14 00:23
21F:→ marklai: 把它删除,模型档就固定在共用的资料夹 01/14 00:23
22F:推 kizajan: stability matrix方便管理 01/14 10:44
23F:→ kizajan: 说真的amd显卡麻烦多了…… 01/14 10:45
24F:→ patvessel: CUDA多走了十几二十年不是白走的 01/14 12:29
25F:推 iman00b: 我去年升 CUDA 13 问题一堆又退回 12 了,打算过半年再试 01/14 13:17
26F:→ patvessel: 现在想试NVFP4模型...反正虚拟环境多建几套就好了 01/14 14:32
27F:→ Supasizeit: Nvfp4 我试完了 建议再等等 01/14 14:46
28F:→ Supasizeit: 很多Lora 不支援 sage不支援 (理论上也没必要) 品质 01/14 14:48
29F:→ Supasizeit: 下降的比Q4 Q6严重 而且跑大模型 text encoding不见 01/14 14:48
30F:→ Supasizeit: 得有fp4可用就算有也是品质下降 01/14 14:48
31F:→ Supasizeit: LTX-2 很多人fp4 OOM 我也是 改成GGUF 稳到爆 01/14 14:49
32F:→ patvessel: 语意引擎不一定需要用相同的量化吧? 01/14 14:53
33F:→ patvessel: NVFP4理论上不太可能比Q4劣化更多就是 体感就不知道了 01/14 14:54
34F:→ patvessel: 反正这几天公式和NV都一直在更新 环境有了出来就能试 01/14 14:55
35F:→ patvessel: 我就是那种"我可以不用 但是不能没得用"的手贱 没法 01/14 14:57
36F:推 Supasizeit: 不用相同但是你速度被拖慢啊 01/14 15:09
37F:→ Supasizeit: 建议先试flux.2 至少这个比较稳 wan2.2的刚出 但不是 01/14 15:12
38F:→ Supasizeit: 官方版本 Ltx-2有官方版但确定是比q6差 01/14 15:12
39F:→ patvessel: 语意到取样不是并行 所以只要一部分有提升那就是提升了 01/14 15:17
40F:→ patvessel: 毕竟FP4还是4bit量化 跟Q6比那的确可能会比较差啦 01/14 15:18
41F:→ patvessel: zit昨天发布的版本说把lora支援合并进去了 应该会先试 01/14 15:19
42F:推 Supasizeit: Zit已经够快了 都差在生prompt ollama 不支援fp4这个 01/14 16:00
43F:→ Supasizeit: 才讨厌 01/14 16:00
44F:→ patvessel: 前两天的新闻说llama.cpp已经把NVFP4的最佳化合并进去 01/14 17:16
45F:→ patvessel: 或许晚点也试试 01/14 17:16
46F:推 Supasizeit: Ollama应该没那麽快 vllm 已经在跟了可是比较麻烦一 01/14 18:59
47F:→ Supasizeit: 点 01/14 18:59
48F:→ patvessel: Ollama是基於llama.cpp的实作 应该不会有太大落差 01/14 20:38
49F:推 Supasizeit: 他搞mxnp4路线 01/14 20:59
50F:→ patvessel: 如果是说mxfp4 那Ollama的mxfp4也是在llama.cpp实现的 01/14 23:51
51F:→ patvessel: Ollama的理论核心还是llama.cpp Ollama 几乎只需要更 01/14 23:53
52F:→ patvessel: 新底层库就能支援 任何llama.cpp的架构 01/14 23:54
53F:→ patvessel: 不太可能放着llama.cpp现成的东西不用还自己弄一套 01/14 23:55
54F:推 Supasizeit: 结果vllm 不支援mxfp4 01/15 02:00
55F:→ patvessel: 有支援啊? 虽然他与llama.cpp是不同底层的 01/17 01:55