作者iman00b (I'm a n00b)
看板AI_Art
標題[分享] GGUF 使用心得
時間Mon Dec 1 21:13:47 2025
這東西其實問 AI 應該能得到更詳細的回答,所以我大概分享一下簡略的心得與經驗談。
GGUF 是 GPT-Generated Unified Format 的縮寫,看名字就知道這東西本來是給 LLM 用
的,後來 FLUX 剛出現時,很多想要在消費級顯卡上跑 FLUX,於是出現了 NF4 量化,
沒多久候 City96 大神用 GGUF 將 FLUX 量化廣受歡迎,於是 GGUF 就這樣流行起來,
與 FP8 量化不同的地方在於使用了演算法而不是浮點數格式的量化,
所以理論上來說 Q8 GGUF 會比 fp8-e4m3fn 這類的量化表現要好,
但是也有人反應 WAN FP8 比 GGUF Q8 好,所以這也是要實踐出真理的。
GGUF 有各種版本,Q2~Q8,這裡的 Q 是量化的縮寫,2~8 是 bit 數,有 0/1/S/M/K 的
後綴,比如說 Q4_M、Q6_K。
含義為:
0 - 每個 block 都是一樣的數值去量化。
1 - 每個 block 多存了一個常數,比 0 的精度好一點。
這是我看原本說明寫的,但我沒研究細節,
這兩種除了 Q8 之外都是為了相容性保留的,如 Q4_0,
我聽說有些軟體如 Forge 不支援新版量化如 Q4_M,但我沒用過所以不清楚。
S - Single 單演算法,如 Q4_S 就是都只用 4 bit 量化。
M - Multiple 是指多演算法,如 Q4_M 用 4 bit、關鍵部分用 6 bit。
K - K 就是 K_M,如 Q6_K 實際上就是 Q6_K_M,
因為 Q6 並沒有 S,只有 M 用 6 bit 量化、關鍵部分用 8 bit 量化。
再來 Q8,因為 Q8 是最好的 8 bit 量化,所以不會有 S/M 的區別。
如何選模型:
1. 最少用 Q4 起跳,Q2/Q3 通常效果都不太好。
2. 盡量用 M,不行再用 S,最好不用 0/1 (Q8 例外)
3. 以你的 VRAM 大小來選模型,如 8G 的 VRAM 大概可以用 8~10G 的模型。
4. 檔案大小可以稍微超出 VRAM 一些,ComfyUI 會用 RAM offload,
除非真的 OOM 不然都可以試試看。
我用 GGUF 大概心得就是這樣,歡迎更正錯誤或補充。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.218.155 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1764594831.A.2A5.html
1F:推 avans: q4我都選Q4_K_M,不過如果q4結果也不行的話,我就直上Q8了12/01 21:49
2F:→ avans: 如果跑得動的話~ 像flux2這種怪物量級就只能選q4了12/01 21:51
flux2把edit做一起,苦了我們這些消費級顯卡玩家,我懷疑是故意的。
3F:推 potatotato: 感謝gguf的出現 讓我的低容量顯卡能跑AI12/02 08:24
4F:推 lyxiang: 感謝分享使用結論12/03 16:24
我覺得很多東西google跟問AI都有答案,不如分享些實際的經驗比較有用。
5F:推 Lightee26: wan2.2我用3080 10g跑fp16跟fp8速度一樣,gguf比較慢。12/04 02:26
6F:→ Lightee26: 832x480@5s無需compile,1280*720@5s需要torch.compile.12/04 02:26
7F:→ Lightee26: 跑圖片模型大小才有影響速度,但是fp16/bf16圖片模型12/04 02:28
8F:→ Lightee26: 基本只要是RTX30以上都能跑,flux fp16實際只要4gb vra12/04 02:28
9F:→ Lightee26: m就不會OOM. RAM夠就好12/04 02:28
謝謝分享心得
通常 FP8/FP16 會比 GGUF 快,因為少了演算法的開銷,
理論速度排名,越左邊最快 FP8=FP16=BF16 > Qn_0 > Qn_1 > Qn_S > Qn_M
但我跑 z-image, Q8 GGUF 比 BF16 快一點的。
※ 編輯: iman00b (1.163.198.179 臺灣), 12/04/2025 16:54:22
※ 編輯: iman00b (1.164.161.179 臺灣), 12/04/2025 19:20:35
10F:→ Lightee26: 圖片模型大小會大幅影響速度,但是wan系列無感 12/04 20:18