AI_Art 板


LINE

※ 引述《art1 (人,原来不是人)》之铭言: : https://www.youtube.com/watch?v=edHNTFt5jYk
: 有双卡 48GB,加上影片提到的多种方式最佳化,应该就能有生产环境级别的算力可用? : 而且照影片中最後的说法,还有向上提昇的空间 : 养龙虾最缺的就是便宜的算力了吧,尤其现在各家都在缩减使用量,真的是... : 看到陈昭荣的一篇脸书发文,连演员都能如此善用 AI 了,世界真的不一样了.... 我很讨厌那种优点大吹特吹 缺点轻轻带过的文章/影片 所以用我自己的粗浅理解来解释一下这个影片里出现的各种技术 ----- 量化(Quantization) ----- 应该不用解释了吧 玩本地有人不知道量化吗? 反而影片用没量化的模型当基准线来夸大倍率这点让我很不满 ----- 多代码预测(Multi-Token Prediction,MTP) ----- 多代码预测是模型训练时就必须加入的一种内生推理机制 可以不用一个接一个推论 而是一次推论复数个token 代价就是权重因为包含额外的机制 所以而是相同训练预算下 本体模型能用的资源会被 MTP 模组部分占用 在许多情况下可能可以够让推论效率上升 但并不保证正效益 ----- 投机解码(Speculative Decoding) ----- 投机解码是由一个小型模型来逐 token预先推论 本体模型可以进行整批验证而不需要逐一验证 如果接受率高可以带来更好的效率 而不接受时 从拒绝处开始放弃草稿带来的加速效果 继续推论 (前方已经接受的部分效益依然存在) 权衡代价就是需要独立的权重和KVCACHE 且草稿接受率过低时可能会有负面效益 因此草稿模型选用很重要 有些模型的MTP模组可以作为这个草稿模型使用 但是本质还是相同的 可以视为本体模型已经包含了一个原生配合 接受率较高的草稿模型 反过来就是在不使用草稿时 这种模型在推理期的效用就无法完全发挥 DFlash和DDTree则都是这个技术的发展型态 ----- DFlash ----- 内容包含两件事情 一. 是藉由区块扩散可以一次生成一个范围 而不再是逐TOKEN推理 区块越大效率越高但是接受率可能会降低 因此如果区块大小配置不当或其他因素影响 有可能反而降低草稿整体的被接受度 二. 是KV Injection 让草稿模型可以提取本体模型的多层隐藏特徵注入草稿模型的K和V投影 并存入KVCACHE持续重用 而不只是作为输入(这会逐渐被稀释) 以提升草稿接受的接受率 主要的权衡就是运算会变得更复杂 但在频宽律速的现况下通常会是正收益 如果说标准投机解码是让验证可以平行运算 DFlash是让起草也可以平行运算 而平行起草带来的误差和接受率风险则由 KV Injection 负责补回达成整体正收益 ----- DDTree ----- 如果说投机解码的本质是用小型模型去猜测大模型的推论 因此天然存在被验证拒绝的风险 DDTree则是用更多备案来分散这个风险 再有疑虑的token都不只取一个 而是取复数个可能性 变成树状图 只要其中一条路径猜中了 就会被接受 因此被拒绝的风险降低 那麽权衡也很明显: 如果取的点和可能性过多 这棵树状路径会变得过於庞大 而过少的话 则可能根本无法带来正面收益 而且可能需要为整棵树设计特殊的因果注意力掩码 这也带来实作复杂度和运算需求的增加 ----- 投机解码 小结 ----- 整体来说 投机解码这个技术系列本质上 是用更多的记忆体空间和更多的运算能力 来降低对於频宽需求的权衡交换 所以运用这个技术系列的前提是 1.运算过剩 2.空间过剩 3.频宽瓶颈 在本地推论来说 CUDA等通用GPU上算力与频宽的不对等是常态 但VRAM容量(以及有限的权重和KVCACHE容量)作为稀缺资源 可能就是运用上需要考量的部分 Apple Silicon或AMD的解决方案虽然算力频宽的比例较没有CUDA那麽极端 但也可能让原本就不快的prefill阶段的所需时间上升 DFlash的区块解码正是为了缓解这个问题 但整体取舍仍须试部属环境与使用需求决定 因为我们现在了解到这个技术的本质本质始终是 "以空间和算力换频宽" 那麽 "频宽是否真的是瓶颈" 就成了评估时优先该考虑的问题 例如长prefill短decode(或单纯的短decode)的任务 本身体感延迟就是算力瓶颈造成 这类场景投机解码额外引入的计算开销反而成为负担 加上大批次的并行推理是提升总吞吐量与转移瓶颈的更直接方式 而且还存在VRAM压力 验证批次等待等其他问题 那麽我认为对於这套技术的评估路径就很明显了: 低并发服务如(单/少用户对话用途)的本地推理 →可以考虑尝试 但是对於高并发以追求总吞吐量而非单线速度或者VRAM极度紧张的环境   →需要谨慎评估 例如影片里讲的适合养龙虾 我就抱持着怀疑的态度 理论上龙虾大多数时候是自主运作 对延迟极度不敏感 最好的方法反而是高并发开大批次 直接把算力催到极限逼出最大吞吐量 而不是单线在那边爆改堆极限却让总吞吐量下降 所以这系列技术在我看来反而适合算力和VRAM都有余裕的单人聊天/对话用 ----- TurboQuant ----- 简单的说 是一种接近无损的KVCACHE量化技术 理论上能够在4~5bit前後的压缩率下达到量化以前的精度 但是他的代价是更高的运算需求(PolarQuant 旋转 + QJL 残差消除) 也就是说 TurboQuant 和推测性解码做的交换有些不同 他是 1.VRAM容量固定下 拿运算能力 来交换KVCACHE精度 或 2.KVCACHE精度固定下 拿运算能力 来交换VRAM容量 因此比起投机解码 TurboQuant 的确有可能较适合Agent使用 但是是建立在愿意拿总吞吐量来交换context windows大小(或KVCACHE精度)的前提下 相对就是 如果不是agent 而是当成对话使用这种延迟敏感场景的话 可能在长context时 把原本就很难受的prefill时间变得更难受 至於没有长context需求的话...那也不需要这个技术来放大context windows不是? ----- 不过这些技术我也没有真的全部用过 如果我的知识有误的话请提出指正 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.28.82 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777204045.A.215.html
1F:推 shin2190: 看完脑袋好痒,感觉要长脑子了… 04/26 20:58
对不起,我还是稍微排版一下好了 ※ 编辑: patvessel (125.229.28.82 台湾), 04/26/2026 21:25:45
2F:推 Supasizeit: 测试下来这只要开至少24K context window才能做事 04/26 22:22
3F:推 v86861062: 推推 04/27 00:18
4F:推 galaxy4552: 神似autoresearch的结果 04/27 00:49
5F:→ patvessel: 我就把这当成赞美了 谢谢( 04/27 01:33







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP