[分享] GGUF 使用心得

时间Mon Dec 1 21:13:47 2025

这东西其实问 AI 应该能得到更详细的回答，所以我大概分享一下简略的心得与经验谈。 GGUF 是 GPT-Generated Unified Format 的缩写，看名字就知道这东西本来是给 LLM 用的，後来 FLUX 刚出现时，很多想要在消费级显卡上跑 FLUX，於是出现了 NF4 量化，没多久候 City96 大神用 GGUF 将 FLUX 量化广受欢迎，於是 GGUF 就这样流行起来，与 FP8 量化不同的地方在於使用了演算法而不是浮点数格式的量化，所以理论上来说 Q8 GGUF 会比 fp8-e4m3fn 这类的量化表现要好，但是也有人反应 WAN FP8 比 GGUF Q8 好，所以这也是要实践出真理的。 GGUF 有各种版本，Q2~Q8，这里的 Q 是量化的缩写，2~8 是 bit 数，有 0/1/S/M/K 的後缀，比如说 Q4_M、Q6_K。含义为： 0 - 每个 block 都是一样的数值去量化。 1 - 每个 block 多存了一个常数，比 0 的精度好一点。这是我看原本说明写的，但我没研究细节，这两种除了 Q8 之外都是为了相容性保留的，如 Q4_0，我听说有些软体如 Forge 不支援新版量化如 Q4_M，但我没用过所以不清楚。 S - Single 单演算法，如 Q4_S 就是都只用 4 bit 量化。 M - Multiple 是指多演算法，如 Q4_M 用 4 bit、关键部分用 6 bit。 K - K 就是 K_M，如 Q6_K 实际上就是 Q6_K_M，因为 Q6 并没有 S，只有 M 用 6 bit 量化、关键部分用 8 bit 量化。再来 Q8，因为 Q8 是最好的 8 bit 量化，所以不会有 S/M 的区别。如何选模型： 1. 最少用 Q4 起跳，Q2/Q3 通常效果都不太好。 2. 尽量用 M，不行再用 S，最好不用 0/1 (Q8 例外) 3. 以你的 VRAM 大小来选模型，如 8G 的 VRAM 大概可以用 8~10G 的模型。 4. 档案大小可以稍微超出 VRAM 一些，ComfyUI 会用 RAM offload，除非真的 OOM 不然都可以试试看。我用 GGUF 大概心得就是这样，欢迎更正错误或补充。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.163.218.155 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1764594831.A.2A5.html

1^F：推 avans: q4我都选Q4_K_M，不过如果q4结果也不行的话，我就直上Q8了12/01 21:49

2^F：→ avans: 如果跑得动的话~ 像flux2这种怪物量级就只能选q4了12/01 21:51

flux2把edit做一起，苦了我们这些消费级显卡玩家，我怀疑是故意的。

3^F：推 potatotato: 感谢gguf的出现让我的低容量显卡能跑AI12/02 08:24

4^F：推 lyxiang: 感谢分享使用结论12/03 16:24

我觉得很多东西google跟问AI都有答案，不如分享些实际的经验比较有用。

5^F：推 Lightee26: wan2.2我用3080 10g跑fp16跟fp8速度一样，gguf比较慢。12/04 02:26

6^F：→ Lightee26: 832x480@5s无需compile,1280*720@5s需要torch.compile.12/04 02:26

7^F：→ Lightee26: 跑图片模型大小才有影响速度，但是fp16/bf16图片模型12/04 02:28

8^F：→ Lightee26: 基本只要是RTX30以上都能跑，flux fp16实际只要4gb vra12/04 02:28

9^F：→ Lightee26: m就不会OOM. RAM够就好12/04 02:28

谢谢分享心得通常 FP8/FP16 会比 GGUF 快，因为少了演算法的开销，理论速度排名，越左边最快 FP8=FP16=BF16 > Qn_0 > Qn_1 > Qn_S > Qn_M 但我跑 z-image, Q8 GGUF 比 BF16 快一点的。 ※ 编辑: iman00b (1.163.198.179 台湾), 12/04/2025 16:54:22 ※ 编辑: iman00b (1.164.161.179 台湾), 12/04/2025 19:20:35

10^F：→ Lightee26: 图片模型大小会大幅影响速度，但是wan系列无感 12/04 20:18

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

[分享] GGUF 使用心得

热门看板

赞助商连结