作者iman00b (I'm a n00b)
看板AI_Art
标题[分享] GGUF 使用心得
时间Mon Dec 1 21:13:47 2025
这东西其实问 AI 应该能得到更详细的回答,所以我大概分享一下简略的心得与经验谈。
GGUF 是 GPT-Generated Unified Format 的缩写,看名字就知道这东西本来是给 LLM 用
的,後来 FLUX 刚出现时,很多想要在消费级显卡上跑 FLUX,於是出现了 NF4 量化,
没多久候 City96 大神用 GGUF 将 FLUX 量化广受欢迎,於是 GGUF 就这样流行起来,
与 FP8 量化不同的地方在於使用了演算法而不是浮点数格式的量化,
所以理论上来说 Q8 GGUF 会比 fp8-e4m3fn 这类的量化表现要好,
但是也有人反应 WAN FP8 比 GGUF Q8 好,所以这也是要实践出真理的。
GGUF 有各种版本,Q2~Q8,这里的 Q 是量化的缩写,2~8 是 bit 数,有 0/1/S/M/K 的
後缀,比如说 Q4_M、Q6_K。
含义为:
0 - 每个 block 都是一样的数值去量化。
1 - 每个 block 多存了一个常数,比 0 的精度好一点。
这是我看原本说明写的,但我没研究细节,
这两种除了 Q8 之外都是为了相容性保留的,如 Q4_0,
我听说有些软体如 Forge 不支援新版量化如 Q4_M,但我没用过所以不清楚。
S - Single 单演算法,如 Q4_S 就是都只用 4 bit 量化。
M - Multiple 是指多演算法,如 Q4_M 用 4 bit、关键部分用 6 bit。
K - K 就是 K_M,如 Q6_K 实际上就是 Q6_K_M,
因为 Q6 并没有 S,只有 M 用 6 bit 量化、关键部分用 8 bit 量化。
再来 Q8,因为 Q8 是最好的 8 bit 量化,所以不会有 S/M 的区别。
如何选模型:
1. 最少用 Q4 起跳,Q2/Q3 通常效果都不太好。
2. 尽量用 M,不行再用 S,最好不用 0/1 (Q8 例外)
3. 以你的 VRAM 大小来选模型,如 8G 的 VRAM 大概可以用 8~10G 的模型。
4. 档案大小可以稍微超出 VRAM 一些,ComfyUI 会用 RAM offload,
除非真的 OOM 不然都可以试试看。
我用 GGUF 大概心得就是这样,欢迎更正错误或补充。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.163.218.155 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1764594831.A.2A5.html
1F:推 avans: q4我都选Q4_K_M,不过如果q4结果也不行的话,我就直上Q8了12/01 21:49
2F:→ avans: 如果跑得动的话~ 像flux2这种怪物量级就只能选q4了12/01 21:51
flux2把edit做一起,苦了我们这些消费级显卡玩家,我怀疑是故意的。
3F:推 potatotato: 感谢gguf的出现 让我的低容量显卡能跑AI12/02 08:24
4F:推 lyxiang: 感谢分享使用结论12/03 16:24
我觉得很多东西google跟问AI都有答案,不如分享些实际的经验比较有用。
5F:推 Lightee26: wan2.2我用3080 10g跑fp16跟fp8速度一样,gguf比较慢。12/04 02:26
6F:→ Lightee26: 832x480@5s无需compile,1280*720@5s需要torch.compile.12/04 02:26
7F:→ Lightee26: 跑图片模型大小才有影响速度,但是fp16/bf16图片模型12/04 02:28
8F:→ Lightee26: 基本只要是RTX30以上都能跑,flux fp16实际只要4gb vra12/04 02:28
9F:→ Lightee26: m就不会OOM. RAM够就好12/04 02:28
谢谢分享心得
通常 FP8/FP16 会比 GGUF 快,因为少了演算法的开销,
理论速度排名,越左边最快 FP8=FP16=BF16 > Qn_0 > Qn_1 > Qn_S > Qn_M
但我跑 z-image, Q8 GGUF 比 BF16 快一点的。
※ 编辑: iman00b (1.163.198.179 台湾), 12/04/2025 16:54:22
※ 编辑: iman00b (1.164.161.179 台湾), 12/04/2025 19:20:35
10F:→ Lightee26: 图片模型大小会大幅影响速度,但是wan系列无感 12/04 20:18