作者marklai (心宿二)
看板AI_Art
标题[闲聊] Qwen3.5 35B gguf 在 3060 12GB上试用
时间Tue Mar 10 18:03:09 2026
Qwen3.5 35B gguf 在 3060 12GB上试用
平常我都是用comfyui ollama节点,使用gemma3 12b居多,看大家都在用Qwen3.5,那也来
试用看看,选了有MOE的Qwen3.5 35B-A3B q4 K_M gguf(约20GB),结果在3060 12GB跑得还
算顺,跑这些花了44秒,不过我这台电脑有3张GPU(3090/5060ti/3060),也许是ollama会自
动分散模型到其他vram上,大家可以试试。
不过以内容来说,觉得gemma3整理的比较好。
https://i.meee.com.tw/gYc4LVE.png
----
Sent from
BePTT on my Xiaomi 24117RN76O
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.231.8.41 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1773136991.A.187.html
1F:推 newyorker54: 这样VRAM不只12g 03/10 20:47
2F:→ Supasizeit: 35B应该是靠ram在跑 03/10 21:49
3F:推 newyorker54: ctrl+alt+esc看看用了多少vram或dram在跑 03/10 22:25
4F:推 YCL13: 弃ollama很久了,在想会不会是有用到llama的fit功能呀? 03/11 07:30
5F:→ YCL13: 最近发现llama的fit很强大,比我手动调参数的效果还好 03/11 07:31
6F:→ YCL13: 特别是对於MOE架构的模型,根本是神搭配呀 03/11 07:31
7F:推 newyorker54: llama真的好用,vllm虽然效率高,但是在windows wsl中 03/11 09:25
8F:→ newyorker54: 因为NCCL支援不完整,在多卡平行运算一直崩溃 03/11 09:25
9F:→ marklai: 下次再跑GPT oss 120b看看 03/11 11:31
10F:→ marklai: 用ollama习惯了,有空再换装llama.cpp,有一点懒 03/11 11:52
11F:推 YCL13: GPT oss 120B用上了MXFP4,这方法满特别的,也造成了各量化 03/11 22:58
12F:→ YCL13: 模型的大小满接近的,而您的GPU是跨不同世代,并没有全支援 03/11 22:59
13F:→ YCL13: FP4,所以选择时可能要考虑一下 03/11 22:59