[分享] GGUF 使用心得

時間Mon Dec 1 21:13:47 2025

這東西其實問 AI 應該能得到更詳細的回答，所以我大概分享一下簡略的心得與經驗談。 GGUF 是 GPT-Generated Unified Format 的縮寫，看名字就知道這東西本來是給 LLM 用的，後來 FLUX 剛出現時，很多想要在消費級顯卡上跑 FLUX，於是出現了 NF4 量化，沒多久候 City96 大神用 GGUF 將 FLUX 量化廣受歡迎，於是 GGUF 就這樣流行起來，與 FP8 量化不同的地方在於使用了演算法而不是浮點數格式的量化，所以理論上來說 Q8 GGUF 會比 fp8-e4m3fn 這類的量化表現要好，但是也有人反應 WAN FP8 比 GGUF Q8 好，所以這也是要實踐出真理的。 GGUF 有各種版本，Q2~Q8，這裡的 Q 是量化的縮寫，2~8 是 bit 數，有 0/1/S/M/K 的後綴，比如說 Q4_M、Q6_K。含義為： 0 - 每個 block 都是一樣的數值去量化。 1 - 每個 block 多存了一個常數，比 0 的精度好一點。這是我看原本說明寫的，但我沒研究細節，這兩種除了 Q8 之外都是為了相容性保留的，如 Q4_0，我聽說有些軟體如 Forge 不支援新版量化如 Q4_M，但我沒用過所以不清楚。 S - Single 單演算法，如 Q4_S 就是都只用 4 bit 量化。 M - Multiple 是指多演算法，如 Q4_M 用 4 bit、關鍵部分用 6 bit。 K - K 就是 K_M，如 Q6_K 實際上就是 Q6_K_M，因為 Q6 並沒有 S，只有 M 用 6 bit 量化、關鍵部分用 8 bit 量化。再來 Q8，因為 Q8 是最好的 8 bit 量化，所以不會有 S/M 的區別。如何選模型： 1. 最少用 Q4 起跳，Q2/Q3 通常效果都不太好。 2. 盡量用 M，不行再用 S，最好不用 0/1 (Q8 例外) 3. 以你的 VRAM 大小來選模型，如 8G 的 VRAM 大概可以用 8~10G 的模型。 4. 檔案大小可以稍微超出 VRAM 一些，ComfyUI 會用 RAM offload，除非真的 OOM 不然都可以試試看。我用 GGUF 大概心得就是這樣，歡迎更正錯誤或補充。 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.218.155 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1764594831.A.2A5.html

1^F：推 avans: q4我都選Q4_K_M，不過如果q4結果也不行的話，我就直上Q8了12/01 21:49

2^F：→ avans: 如果跑得動的話~ 像flux2這種怪物量級就只能選q4了12/01 21:51

flux2把edit做一起，苦了我們這些消費級顯卡玩家，我懷疑是故意的。

3^F：推 potatotato: 感謝gguf的出現讓我的低容量顯卡能跑AI12/02 08:24

4^F：推 lyxiang: 感謝分享使用結論12/03 16:24

我覺得很多東西google跟問AI都有答案，不如分享些實際的經驗比較有用。

5^F：推 Lightee26: wan2.2我用3080 10g跑fp16跟fp8速度一樣，gguf比較慢。12/04 02:26

6^F：→ Lightee26: 832x480@5s無需compile,1280*720@5s需要torch.compile.12/04 02:26

7^F：→ Lightee26: 跑圖片模型大小才有影響速度，但是fp16/bf16圖片模型12/04 02:28

8^F：→ Lightee26: 基本只要是RTX30以上都能跑，flux fp16實際只要4gb vra12/04 02:28

9^F：→ Lightee26: m就不會OOM. RAM夠就好12/04 02:28

謝謝分享心得通常 FP8/FP16 會比 GGUF 快，因為少了演算法的開銷，理論速度排名，越左邊最快 FP8=FP16=BF16 > Qn_0 > Qn_1 > Qn_S > Qn_M 但我跑 z-image, Q8 GGUF 比 BF16 快一點的。 ※ 編輯: iman00b (1.163.198.179 臺灣), 12/04/2025 16:54:22 ※ 編輯: iman00b (1.164.161.179 臺灣), 12/04/2025 19:20:35

10^F：→ Lightee26: 圖片模型大小會大幅影響速度，但是wan系列無感 12/04 20:18

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

AI_Art 板

[分享] GGUF 使用心得

熱門看板

贊助商連結