Re: [闲聊] RTX3090 单/双卡本地LLM运算AI电脑心得

时间Sun Apr 26 19:47:22 2026

※ 引述《art1 (人，原来不是人)》之铭言： : https://www.youtube.com/watch?v=edHNTFt5jYk

: 有双卡 48GB，加上影片提到的多种方式最佳化，应该就能有生产环境级别的算力可用？ : 而且照影片中最後的说法，还有向上提昇的空间 : 养龙虾最缺的就是便宜的算力了吧，尤其现在各家都在缩减使用量，真的是... : 看到陈昭荣的一篇脸书发文，连演员都能如此善用 AI 了，世界真的不一样了.... 我很讨厌那种优点大吹特吹缺点轻轻带过的文章/影片所以用我自己的粗浅理解来解释一下这个影片里出现的各种技术 ----- 量化（Quantization） ----- 应该不用解释了吧玩本地有人不知道量化吗? 反而影片用没量化的模型当基准线来夸大倍率这点让我很不满 ----- 多代码预测（Multi-Token Prediction，MTP） ----- 多代码预测是模型训练时就必须加入的一种内生推理机制可以不用一个接一个推论而是一次推论复数个token 代价就是权重因为包含额外的机制所以而是相同训练预算下本体模型能用的资源会被 MTP 模组部分占用在许多情况下可能可以够让推论效率上升但并不保证正效益 ----- 投机解码(Speculative Decoding) ----- 投机解码是由一个小型模型来逐 token预先推论本体模型可以进行整批验证而不需要逐一验证如果接受率高可以带来更好的效率而不接受时从拒绝处开始放弃草稿带来的加速效果继续推论 (前方已经接受的部分效益依然存在) 权衡代价就是需要独立的权重和KVCACHE 且草稿接受率过低时可能会有负面效益因此草稿模型选用很重要有些模型的MTP模组可以作为这个草稿模型使用但是本质还是相同的可以视为本体模型已经包含了一个原生配合接受率较高的草稿模型反过来就是在不使用草稿时这种模型在推理期的效用就无法完全发挥 DFlash和DDTree则都是这个技术的发展型态 ----- DFlash ----- 内容包含两件事情一. 是藉由区块扩散可以一次生成一个范围而不再是逐TOKEN推理区块越大效率越高但是接受率可能会降低因此如果区块大小配置不当或其他因素影响有可能反而降低草稿整体的被接受度二. 是KV Injection 让草稿模型可以提取本体模型的多层隐藏特徵注入草稿模型的K和V投影并存入KVCACHE持续重用而不只是作为输入(这会逐渐被稀释) 以提升草稿接受的接受率主要的权衡就是运算会变得更复杂但在频宽律速的现况下通常会是正收益如果说标准投机解码是让验证可以平行运算 DFlash是让起草也可以平行运算而平行起草带来的误差和接受率风险则由 KV Injection 负责补回达成整体正收益 ----- DDTree ----- 如果说投机解码的本质是用小型模型去猜测大模型的推论因此天然存在被验证拒绝的风险 DDTree则是用更多备案来分散这个风险再有疑虑的token都不只取一个而是取复数个可能性变成树状图只要其中一条路径猜中了就会被接受因此被拒绝的风险降低那麽权衡也很明显: 如果取的点和可能性过多这棵树状路径会变得过於庞大而过少的话则可能根本无法带来正面收益而且可能需要为整棵树设计特殊的因果注意力掩码这也带来实作复杂度和运算需求的增加 ----- 投机解码小结 ----- 整体来说投机解码这个技术系列本质上是用更多的记忆体空间和更多的运算能力来降低对於频宽需求的权衡交换所以运用这个技术系列的前提是 1.运算过剩 2.空间过剩 3.频宽瓶颈在本地推论来说 CUDA等通用GPU上算力与频宽的不对等是常态但VRAM容量(以及有限的权重和KVCACHE容量)作为稀缺资源可能就是运用上需要考量的部分 Apple Silicon或AMD的解决方案虽然算力频宽的比例较没有CUDA那麽极端但也可能让原本就不快的prefill阶段的所需时间上升 DFlash的区块解码正是为了缓解这个问题但整体取舍仍须试部属环境与使用需求决定因为我们现在了解到这个技术的本质本质始终是 "以空间和算力换频宽" 那麽 "频宽是否真的是瓶颈" 就成了评估时优先该考虑的问题例如长prefill短decode(或单纯的短decode)的任务本身体感延迟就是算力瓶颈造成这类场景投机解码额外引入的计算开销反而成为负担加上大批次的并行推理是提升总吞吐量与转移瓶颈的更直接方式而且还存在VRAM压力验证批次等待等其他问题那麽我认为对於这套技术的评估路径就很明显了: 低并发服务如(单/少用户对话用途)的本地推理 →可以考虑尝试但是对於高并发以追求总吞吐量而非单线速度或者VRAM极度紧张的环境　　→需要谨慎评估例如影片里讲的适合养龙虾我就抱持着怀疑的态度理论上龙虾大多数时候是自主运作对延迟极度不敏感最好的方法反而是高并发开大批次直接把算力催到极限逼出最大吞吐量而不是单线在那边爆改堆极限却让总吞吐量下降所以这系列技术在我看来反而适合算力和VRAM都有余裕的单人聊天/对话用 ----- TurboQuant ----- 简单的说是一种接近无损的KVCACHE量化技术理论上能够在4~5bit前後的压缩率下达到量化以前的精度但是他的代价是更高的运算需求（PolarQuant 旋转 + QJL 残差消除）也就是说 TurboQuant 和推测性解码做的交换有些不同他是 1.VRAM容量固定下拿运算能力来交换KVCACHE精度或 2.KVCACHE精度固定下拿运算能力来交换VRAM容量因此比起投机解码 TurboQuant 的确有可能较适合Agent使用但是是建立在愿意拿总吞吐量来交换context windows大小(或KVCACHE精度)的前提下相对就是如果不是agent 而是当成对话使用这种延迟敏感场景的话可能在长context时把原本就很难受的prefill时间变得更难受至於没有长context需求的话...那也不需要这个技术来放大context windows不是? ----- 不过这些技术我也没有真的全部用过如果我的知识有误的话请提出指正 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.28.82 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777204045.A.215.html

1^F：推 shin2190: 看完脑袋好痒，感觉要长脑子了… 04/26 20:58

对不起，我还是稍微排版一下好了 ※ 编辑: patvessel (125.229.28.82 台湾), 04/26/2026 21:25:45

2^F：推 Supasizeit: 测试下来这只要开至少24K context window才能做事 04/26 22:22

3^F：推 v86861062: 推推 04/27 00:18

4^F：推 galaxy4552: 神似autoresearch的结果 04/27 00:49

5^F：→ patvessel: 我就把这当成赞美了谢谢( 04/27 01:33

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

Re: [闲聊] RTX3090 单/双卡本地LLM运算AI电脑心得

热门看板

赞助商连结