Soft_Job 板


LINE

今天无聊逛YouTube看到一则影片,当中提到由新创公司Chroma提出的报告「Context Rot: How Increasing Input Tokens Impacts LLM Performance」 (上下文腐化:增加输 入Token如何冲击LLM的表现) https://research.trychroma.com/context-rot 本报告2025年7月发表。虽然是公司为了行销自己产品而做的报告,但内容还是值得一看 。当中对现况点出了一个现实:输入长度越长,模型的表现越差。 其中一个实验满有趣的:在context中加入「干扰」。 这些干扰并不是所谓的错误资讯,而是「语义与结构相似但不同」的资讯,例如: 问题:「我从大学同学那里得到的最佳写作建议是什麽?」 内文中的解答:「我认为从我大学同学那里得到的最好的写作建议是每周都要写作。」 干扰资讯: - 「我从大学教授那里得到最棒的写作建议,就是要每天写作。」 - 「我从大学同学那里收到最糟的写作建议,就是要用五种不同风格写每篇论文。」 - 「我同学给过我最棒的写作建议,就是要用三种不同风格来写每篇文章,那还是高中时 候的事了。」 - 「我原本以为大学同学给我的最佳写作建议,就是要用四种不同风格来写每篇文章,但 现在我不这麽认为了。」 结果无一例外,这些干扰都确实地导致模型的表现下滑。 报告的结论: 「我们的观察显示,上下文结构特性(如相关资讯的放置位置或重复性)会影响模型行为」 「我们的研究结果凸显上下文工程的重要性:即对模型上下文窗口的精心建构与管理。」 有些人以为现在的瓶颈是在context window,但若是以追求精确度而言,把整个专案的 程式码或指导文件塞入context window恐怕并无助於模型的表现,而且与任务无关的上 下文更会使模型表现变差 --------------以下开放宗教战争-------------- --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.205.84 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1756471875.A.A00.html
1F:推 NDark: 这很合理啊 尽信书不如无书 08/29 21:00
2F:→ NDark: 操作股票 收到不同讯号的时候到底要信谁的 08/29 21:01
3F:→ NDark: 所以要有更高等的指引 08/29 21:01
4F:→ NDark: 类似 机器人三大法则 08/29 21:02
5F:→ NDark: 当事实矛盾的时候 智能就应该回到更高等的概念重新推导 08/29 21:02
6F:→ NDark: 然後找到一个不完美但相对合理的结论 08/29 21:03
7F:→ Suleika: 说实话rot议题一直很奇怪,因为太长所以被干扰,不是因 08/29 21:06
8F:→ Suleika: 为context太多杂讯才rot吗,window直接影响理解跟记忆 08/29 21:07
9F:→ Suleika: 看起来才是根因 08/29 21:08
10F:→ shadow0326: AI看到太长的文章也会按end吗 08/29 22:21
11F:嘘 strlen: https://tinyurl.com/yhffdm9a 08/29 22:27
12F:→ strlen: 用你聪明的脑袋想一下 Google 前执行长可信 还是这葛不知 08/29 22:28
13F:→ strlen: 道哪来的报告可信 08/29 22:28
反正我知道资策会毕业的会无脑信 毕竟有些人要数据搬不出数据 要经验搬不出经验 要论述搬不出论述 只会谁谁说 唉 不过我没差啦 不知道你在7什麽 AI需求越多 我RSU越涨 看年底股价能不能破200刀 我比你还怕AI跌下神坛咧 嘻嘻
14F:→ brucetu: AI看到五个人在会议室讲差不多的废话最後有样学样回一句 08/29 22:30
15F:→ brucetu: 废话 08/29 22:30
※ 编辑: SkankHunt42 (93.118.41.97 日本), 08/29/2025 23:24:06
16F:推 stepnight: 肯定AI正在泡沫化 08/29 23:46
17F:嘘 strlen: 看看你贴了一篇连自己都看不懂的东C还在那边无脑信 呵 08/30 00:39
18F:→ strlen: 回去再看仔细一点 就这? 08/30 00:40
19F:→ strlen: https://arxiv.org/pdf/2404.07143 慢慢研究 有脑哥 08/30 01:00
说到贴自己看不懂的东西 非你莫属啦 你贴的连结 https://tinyurl.com/yhffdm9a 往上转 AI直接讲了 "确实存在一些研究和观点指出,上下文窗口越大不一定使模型的精准度越好,甚至在某些 情况下可能会降低性能和准确性。" AI还帮你列出文献 不就侧面说明我贴的报告是有其他文献佐证的 我都好奇 这个对话纪录该不会是你问的 然後挑你自己想看的部分贴还贴得很爽XD 最好笑的是你打击我的点不是挑出报告错误的地方 而是一直跳针Google前执行长 Chroma报告跟相关paper都是透过各种量化的方式在内部加入噪音与数据干扰 人家问的是语义上需要逻辑理解的问题 你贴的论文测试的方法是book summarization与Passkey Retrieval Task Passkey Retrieval人家还把范例贴给你看了 https://i.meee.com.tw/3tbrQyA.png
你觉得那跟我报告中举出的测试方法相同吗? 所以我看不懂你到底要反驳什麽 两篇文献benchmark的方式完全不同 那你到底是要拿来比什麽? 唉 资讯科毕业出社会只能当作业员 然後无法自学 28岁时还得靠资策会集训才能找到工作的工程师 说真的 看你讲话 真的觉得 难怪啊XD 你没念过硕士也没做过研究我不怪你 我是觉得你赶快去面试取得一家市值1兆美元以上的科技公司的offer 证明你是有能力与竞争力的 不然讲真的 你的资历真的很难搬上台面 你讲的话搭配你的学经历听起来就更好笑了
20F:→ viper9709: 推二楼 08/30 01:31
※ 编辑: SkankHunt42 (149.22.87.100 日本), 08/30/2025 03:09:12
21F:推 bradyhau106: 与其说是 context太长 感觉是比较接近 context 需要 08/30 05:10
22F:→ bradyhau106: 打掉杂质 08/30 05:10
23F:→ watashino: 没点进去看 08/30 09:49
24F:→ watashino: 但是光看描述没办法论证是context太混乱导致的 还是跟c 08/30 09:49
25F:→ watashino: ontext长度有关 08/30 09:49
该报告的实验数据之一,在context长且有干扰项的状况下表现是变差的 还有其他的实验,不过我只挑实务场景比较常见的讲
26F:→ watashino: 目前我们这边做的一些实验都是context资讯量多比起少效 08/30 09:49
27F:→ watashino: 果好很多 08/30 09:49
https://arxiv.org/abs/2404.06654 2024的文献提出一种新的测试基准RULER,结论中提到: We benchmark 17 long-context LMs using RULER with context sizes ranging from 4K to 128K. Despite achieving perfect results in the widely used needle-in-a-haystack test, almost all models fail to maintain their performance in other tasks of RULER as we increase input length. 当然今年是2025年,也有可能有模型能高分通过该测试也不一定 单一测试基准可以说明「LLM在指定规模与内容的context下执行特定任务的表现」 但不能说明LLM在处理同等规模但不同品质与内容的context下结果都一样
28F:推 dream1124: 凶,你会被信徒当异端邪说围剿 08/30 10:05
29F:→ dream1124: 对了,要妥善上下文没啥问题,但整理者通常还是人类, 08/30 10:09
30F:→ dream1124: 这样一来一往就不见得比较省时间了。 08/30 10:10
可以透过魔法对付魔法,让AI去筛选合适的文件与内容,将任务分阶段分开进行 确保context window是乾净的
31F:推 gino0717: 就像是教小孩写作文 如果你的题目里面有作文范例你就 08/30 10:53
32F:→ gino0717: 会看到你班上的各种作文都会出现范例中写过的素材 08/30 10:54
※ 编辑: SkankHunt42 (149.22.87.105 日本), 08/30/2025 13:22:04
33F:推 attacksoil: 有在实作的应该都有观察到这现象 感觉这问题真的解决 08/30 15:36
34F:→ attacksoil: 前 应该无法在模型层面达成AGI 顶多在应用层面拟似AGI 08/30 15:36
35F:→ attacksoil: 任务分阶段进行感觉那个金字塔必须要非常高 非常贵 非 08/30 15:38
36F:→ attacksoil: 常慢 才能真的通用 08/30 15:38
37F:推 oopFoo: 之前ai coding建议是越详细的context越好,所以claude.md( 08/30 19:17
38F:→ oopFoo: agent.md)写很多,然後directories也有针对的context。不 08/30 19:18
39F:→ oopFoo: 过现在又说太详细,太复杂的context反而混淆ai coding。所 08/30 19:19
40F:→ oopFoo: 以目前的共识是认同这篇的。 08/30 19:19
41F:推 oopFoo: 现在都会建议,同一个问题如果跟ai来回3,4次就需要reset 08/30 19:24
42F:→ oopFoo: context不然後面ai会越走越歪。 08/30 19:24
43F:→ SkankHunt42: 卖鞋的怎麽突然不继续表演了 看不懂自己贴的论文你可 08/30 19:53
44F:→ SkankHunt42: 以问问AI阿 看看Infini-Transformer能不能解决con 08/30 19:54
45F:→ SkankHunt42: text rot 08/30 19:54
46F:→ WTS2accuracy: 某些ID一看就CRUD杂工 没什麽料 只会放新闻谈AI 08/30 20:52
47F:→ WTS2accuracy: 一点论述都没有 只会搬OOO讲了XXX 有够可悲 08/30 20:52
48F:推 Satomisan: Chroma的jeff有上一个podcast讨论这个 08/31 23:21
49F:→ Firstshadow: 欸欸 可以不要那摸凶吗 这里不是友善转职ma ; ; 09/02 23:57
50F:→ Firstshadow: ^板 09/02 23:58







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP