作者SkankHunt42 (凯子爸)
看板Soft_Job
标题[讨论] Context Rot 上下文腐化
时间Fri Aug 29 20:51:13 2025
今天无聊逛YouTube看到一则影片,当中提到由新创公司Chroma提出的报告「Context
Rot: How Increasing Input Tokens Impacts LLM Performance」 (上下文腐化:增加输
入Token如何冲击LLM的表现)
https://research.trychroma.com/context-rot
本报告2025年7月发表。虽然是公司为了行销自己产品而做的报告,但内容还是值得一看
。当中对现况点出了一个现实:
输入长度越长,模型的表现越差。
其中一个实验满有趣的:在context中加入「干扰」。
这些干扰并不是所谓的错误资讯,而是「语义与结构相似但不同」的资讯,例如:
问题:「
我从大学同学那里得到的最佳写作建议是什麽?」
内文中的解答:「我认为从我
大学同学那里得到的最好的写作建议是
每周都要写作。」
干扰资讯:
- 「我从
大学教授那里得到最棒的写作建议,就是要每天写作。」
- 「我从大学同学那里收到
最糟的写作建议,就是要用五种不同风格写每篇论文。」
- 「我同学给过我最棒的写作建议,就是要用三种不同风格来写每篇文章,那还是
高中时
候的事了。」
- 「我
原本以为大学同学给我的最佳写作建议,就是要用四种不同风格来写每篇文章,但
现在我不这麽认为了。」
结果无一例外,这些干扰都确实地导致模型的表现下滑。
报告的结论:
「我们的观察显示,上下文结构特性(如相关资讯的放置位置或重复性)会影响模型行为」
「我们的研究结果凸显上下文工程的重要性:即对模型上下文窗口的精心建构与管理。」
※
有些人以为现在的瓶颈是在context window,但若是以追求精确度而言,把整个专案的
程式码或指导文件塞入context window恐怕并无助於模型的表现,而且与任务无关的上
下文更会使模型表现变差
--------------以下开放宗教战争--------------
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.205.84 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1756471875.A.A00.html
1F:推 NDark: 这很合理啊 尽信书不如无书 08/29 21:00
2F:→ NDark: 操作股票 收到不同讯号的时候到底要信谁的 08/29 21:01
3F:→ NDark: 所以要有更高等的指引 08/29 21:01
4F:→ NDark: 类似 机器人三大法则 08/29 21:02
5F:→ NDark: 当事实矛盾的时候 智能就应该回到更高等的概念重新推导 08/29 21:02
6F:→ NDark: 然後找到一个不完美但相对合理的结论 08/29 21:03
7F:→ Suleika: 说实话rot议题一直很奇怪,因为太长所以被干扰,不是因 08/29 21:06
8F:→ Suleika: 为context太多杂讯才rot吗,window直接影响理解跟记忆 08/29 21:07
9F:→ Suleika: 看起来才是根因 08/29 21:08
10F:→ shadow0326: AI看到太长的文章也会按end吗 08/29 22:21
12F:→ strlen: 用你聪明的脑袋想一下 Google 前执行长可信 还是这葛不知 08/29 22:28
13F:→ strlen: 道哪来的报告可信 08/29 22:28
反正我知道资策会毕业的会无脑信
毕竟有些人要数据搬不出数据 要经验搬不出经验
要论述搬不出论述 只会谁谁说
唉
不过我没差啦 不知道你在7什麽
AI需求越多 我RSU越涨 看年底股价能不能破200刀
我比你还怕AI跌下神坛咧 嘻嘻
14F:→ brucetu: AI看到五个人在会议室讲差不多的废话最後有样学样回一句 08/29 22:30
15F:→ brucetu: 废话 08/29 22:30
※ 编辑: SkankHunt42 (93.118.41.97 日本), 08/29/2025 23:24:06
16F:推 stepnight: 肯定AI正在泡沫化 08/29 23:46
17F:嘘 strlen: 看看你贴了一篇连自己都看不懂的东C还在那边无脑信 呵 08/30 00:39
18F:→ strlen: 回去再看仔细一点 就这? 08/30 00:40
说到贴自己看不懂的东西 非你莫属啦
你贴的连结
https://tinyurl.com/yhffdm9a 往上转
AI直接讲了
"确实存在一些研究和观点指出,上下文窗口越大不一定使模型的精准度越好,甚至在某些
情况下可能会降低性能和准确性。"
AI还帮你列出文献 不就侧面说明我贴的报告是有其他文献佐证的
我都好奇 这个对话纪录该不会是你问的 然後挑你自己想看的部分贴还贴得很爽XD
最好笑的是你打击我的点不是挑出报告错误的地方 而是一直跳针Google前执行长
Chroma报告跟相关paper都是透过各种量化的方式在内部加入噪音与数据干扰
人家问的是语义上需要逻辑理解的问题
你贴的论文测试的方法是book summarization与Passkey Retrieval Task
Passkey Retrieval人家还把范例贴给你看了
https://i.meee.com.tw/3tbrQyA.png
你觉得那跟我报告中举出的测试方法相同吗?
所以我看不懂你到底要反驳什麽 两篇文献benchmark的方式完全不同
那你到底是要拿来比什麽?
唉 资讯科毕业出社会只能当作业员
然後无法自学 28岁时还得靠资策会集训才能找到工作的工程师
说真的 看你讲话 真的觉得 难怪啊XD
你没念过硕士也没做过研究我不怪你
我是觉得你赶快去面试取得一家市值1兆美元以上的科技公司的offer
证明你是有能力与竞争力的
不然讲真的 你的资历真的很难搬上台面
你讲的话搭配你的学经历听起来就更好笑了
20F:→ viper9709: 推二楼 08/30 01:31
※ 编辑: SkankHunt42 (149.22.87.100 日本), 08/30/2025 03:09:12
21F:推 bradyhau106: 与其说是 context太长 感觉是比较接近 context 需要 08/30 05:10
22F:→ bradyhau106: 打掉杂质 08/30 05:10
23F:→ watashino: 没点进去看 08/30 09:49
24F:→ watashino: 但是光看描述没办法论证是context太混乱导致的 还是跟c 08/30 09:49
25F:→ watashino: ontext长度有关 08/30 09:49
该报告的实验数据之一,在context长且有干扰项的状况下表现是变差的
还有其他的实验,不过我只挑实务场景比较常见的讲
26F:→ watashino: 目前我们这边做的一些实验都是context资讯量多比起少效 08/30 09:49
27F:→ watashino: 果好很多 08/30 09:49
https://arxiv.org/abs/2404.06654
2024的文献提出一种新的测试基准RULER,结论中提到:
We benchmark 17 long-context LMs using RULER with context sizes ranging
from 4K to 128K. Despite achieving perfect results in the widely used
needle-in-a-haystack test, almost all models fail to maintain their
performance in other tasks of RULER as we increase input length.
当然今年是2025年,也有可能有模型能高分通过该测试也不一定
单一测试基准可以说明「LLM在指定规模与内容的context下执行特定任务的表现」
但不能说明LLM在处理同等规模但不同品质与内容的context下结果都一样
28F:推 dream1124: 凶,你会被信徒当异端邪说围剿 08/30 10:05
29F:→ dream1124: 对了,要妥善上下文没啥问题,但整理者通常还是人类, 08/30 10:09
30F:→ dream1124: 这样一来一往就不见得比较省时间了。 08/30 10:10
可以透过魔法对付魔法,让AI去筛选合适的文件与内容,将任务分阶段分开进行
确保context window是乾净的
31F:推 gino0717: 就像是教小孩写作文 如果你的题目里面有作文范例你就 08/30 10:53
32F:→ gino0717: 会看到你班上的各种作文都会出现范例中写过的素材 08/30 10:54
※ 编辑: SkankHunt42 (149.22.87.105 日本), 08/30/2025 13:22:04
33F:推 attacksoil: 有在实作的应该都有观察到这现象 感觉这问题真的解决 08/30 15:36
34F:→ attacksoil: 前 应该无法在模型层面达成AGI 顶多在应用层面拟似AGI 08/30 15:36
35F:→ attacksoil: 任务分阶段进行感觉那个金字塔必须要非常高 非常贵 非 08/30 15:38
36F:→ attacksoil: 常慢 才能真的通用 08/30 15:38
37F:推 oopFoo: 之前ai coding建议是越详细的context越好,所以claude.md( 08/30 19:17
38F:→ oopFoo: agent.md)写很多,然後directories也有针对的context。不 08/30 19:18
39F:→ oopFoo: 过现在又说太详细,太复杂的context反而混淆ai coding。所 08/30 19:19
40F:→ oopFoo: 以目前的共识是认同这篇的。 08/30 19:19
41F:推 oopFoo: 现在都会建议,同一个问题如果跟ai来回3,4次就需要reset 08/30 19:24
42F:→ oopFoo: context不然後面ai会越走越歪。 08/30 19:24
43F:→ SkankHunt42: 卖鞋的怎麽突然不继续表演了 看不懂自己贴的论文你可 08/30 19:53
44F:→ SkankHunt42: 以问问AI阿 看看Infini-Transformer能不能解决con 08/30 19:54
45F:→ SkankHunt42: text rot 08/30 19:54
46F:→ WTS2accuracy: 某些ID一看就CRUD杂工 没什麽料 只会放新闻谈AI 08/30 20:52
47F:→ WTS2accuracy: 一点论述都没有 只会搬OOO讲了XXX 有够可悲 08/30 20:52
48F:推 Satomisan: Chroma的jeff有上一个podcast讨论这个 08/31 23:21
49F:→ Firstshadow: 欸欸 可以不要那摸凶吗 这里不是友善转职ma ; ; 09/02 23:57
50F:→ Firstshadow: ^板 09/02 23:58