作者patvessel (帕特贝赛尔)
看板AI_Art
标题Re: [闲聊] RTX3090 单/双卡 本地LLM运算AI电脑心得
时间Sun Apr 26 19:47:22 2026
※ 引述《art1 (人,原来不是人)》之铭言:
: https://www.youtube.com/watch?v=edHNTFt5jYk
: 有双卡 48GB,加上影片提到的多种方式最佳化,应该就能有生产环境级别的算力可用?
: 而且照影片中最後的说法,还有向上提昇的空间
: 养龙虾最缺的就是便宜的算力了吧,尤其现在各家都在缩减使用量,真的是...
: 看到陈昭荣的一篇脸书发文,连演员都能如此善用 AI 了,世界真的不一样了....
我很讨厌那种优点大吹特吹 缺点轻轻带过的文章/影片
所以用我自己的粗浅理解来解释一下这个影片里出现的各种技术
-----
量化(Quantization)
-----
应该不用解释了吧 玩本地有人不知道量化吗?
反而影片用没量化的模型当基准线来夸大倍率这点让我很不满
-----
多代码预测(Multi-Token Prediction,MTP)
-----
多代码预测是模型训练时就必须加入的一种内生推理机制
可以不用一个接一个推论 而是一次推论复数个token
代价就是权重因为包含额外的机制 所以而是相同训练预算下
本体模型能用的资源会被 MTP 模组部分占用
在许多情况下可能可以够让推论效率上升 但并不保证正效益
-----
投机解码(Speculative Decoding)
-----
投机解码是由一个小型模型来逐 token预先推论
本体模型可以进行整批验证而不需要逐一验证 如果接受率高可以带来更好的效率
而不接受时 从拒绝处开始放弃草稿带来的加速效果
继续推论 (前方已经接受的部分效益依然存在)
权衡代价就是需要独立的权重和KVCACHE
且草稿接受率过低时可能会有负面效益 因此草稿模型选用很重要
有些模型的MTP模组可以作为这个草稿模型使用
但是本质还是相同的 可以视为本体模型已经包含了一个原生配合 接受率较高的草稿模型
反过来就是在不使用草稿时 这种模型在推理期的效用就无法完全发挥
DFlash和DDTree则都是这个技术的发展型态
-----
DFlash
-----
内容包含两件事情
一.
是藉由区块扩散可以一次生成一个范围 而不再是逐TOKEN推理
区块越大效率越高但是接受率可能会降低
因此如果区块大小配置不当或其他因素影响 有可能反而降低草稿整体的被接受度
二.
是KV Injection
让草稿模型可以提取本体模型的多层隐藏特徵注入草稿模型的K和V投影
并存入KVCACHE持续重用 而不只是作为输入(这会逐渐被稀释)
以提升草稿接受的接受率
主要的权衡就是运算会变得更复杂 但在频宽律速的现况下通常会是正收益
如果说标准投机解码是让验证可以平行运算 DFlash是让起草也可以平行运算
而平行起草带来的误差和接受率风险则由 KV Injection 负责补回达成整体正收益
-----
DDTree
-----
如果说投机解码的本质是用小型模型去猜测大模型的推论
因此天然存在被验证拒绝的风险 DDTree则是用更多备案来分散这个风险
再有疑虑的token都不只取一个 而是取复数个可能性
变成树状图 只要其中一条路径猜中了 就会被接受 因此被拒绝的风险降低
那麽权衡也很明显:
如果取的点和可能性过多 这棵树状路径会变得过於庞大
而过少的话 则可能根本无法带来正面收益
而且可能需要为整棵树设计特殊的因果注意力掩码
这也带来实作复杂度和运算需求的增加
-----
投机解码 小结
-----
整体来说 投机解码这个技术系列本质上
是用更多的记忆体空间和更多的运算能力
来降低对於频宽需求的权衡交换
所以运用这个技术系列的前提是 1.运算过剩 2.空间过剩 3.频宽瓶颈
在本地推论来说 CUDA等通用GPU上算力与频宽的不对等是常态
但VRAM容量(以及有限的权重和KVCACHE容量)作为稀缺资源
可能就是运用上需要考量的部分
Apple Silicon或AMD的解决方案虽然算力频宽的比例较没有CUDA那麽极端
但也可能让原本就不快的prefill阶段的所需时间上升
DFlash的区块解码正是为了缓解这个问题
但整体取舍仍须试部属环境与使用需求决定
因为我们现在了解到这个技术的本质本质始终是
"以空间和算力换频宽"
那麽
"频宽是否真的是瓶颈"
就成了评估时优先该考虑的问题
例如长prefill短decode(或单纯的短decode)的任务
本身体感延迟就是算力瓶颈造成
这类场景投机解码额外引入的计算开销反而成为负担
加上大批次的并行推理是提升总吞吐量与转移瓶颈的更直接方式
而且还存在VRAM压力 验证批次等待等其他问题
那麽我认为对於这套技术的评估路径就很明显了:
低并发服务如(单/少用户对话用途)的本地推理
→可以考虑尝试
但是对於高并发以追求总吞吐量而非单线速度或者VRAM极度紧张的环境
→需要谨慎评估
例如影片里讲的适合养龙虾 我就抱持着怀疑的态度
理论上龙虾大多数时候是自主运作 对延迟极度不敏感
最好的方法反而是高并发开大批次
直接把算力催到极限逼出最大吞吐量
而不是单线在那边爆改堆极限却让总吞吐量下降
所以这系列技术在我看来反而适合算力和VRAM都有余裕的单人聊天/对话用
-----
TurboQuant
-----
简单的说 是一种接近无损的KVCACHE量化技术
理论上能够在4~5bit前後的压缩率下达到量化以前的精度
但是他的代价是更高的运算需求(PolarQuant 旋转 + QJL 残差消除)
也就是说 TurboQuant 和推测性解码做的交换有些不同
他是
1.VRAM容量固定下 拿运算能力 来交换KVCACHE精度
或
2.KVCACHE精度固定下 拿运算能力 来交换VRAM容量
因此比起投机解码 TurboQuant 的确有可能较适合Agent使用
但是是建立在愿意拿总吞吐量来交换context windows大小(或KVCACHE精度)的前提下
相对就是 如果不是agent 而是当成对话使用这种延迟敏感场景的话
可能在长context时 把原本就很难受的prefill时间变得更难受
至於没有长context需求的话...那也不需要这个技术来放大context windows不是?
-----
不过这些技术我也没有真的全部用过 如果我的知识有误的话请提出指正
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.28.82 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777204045.A.215.html
1F:推 shin2190: 看完脑袋好痒,感觉要长脑子了… 04/26 20:58
对不起,我还是稍微排版一下好了
※ 编辑: patvessel (125.229.28.82 台湾), 04/26/2026 21:25:45
2F:推 Supasizeit: 测试下来这只要开至少24K context window才能做事 04/26 22:22
3F:推 v86861062: 推推 04/27 00:18
4F:推 galaxy4552: 神似autoresearch的结果 04/27 00:49
5F:→ patvessel: 我就把这当成赞美了 谢谢( 04/27 01:33