作者SkankHunt42 (凯子爸)

看板Soft_Job

标题

[讨论] Context Rot 上下文腐化

时间Fri Aug 29 20:51:13 2025

今天无聊逛YouTube看到一则影片，当中提到由新创公司Chroma提出的报告「Context Rot: How Increasing Input Tokens Impacts LLM Performance」 (上下文腐化：增加输入Token如何冲击LLM的表现) https://research.trychroma.com/context-rot 本报告2025年7月发表。虽然是公司为了行销自己产品而做的报告，但内容还是值得一看。当中对现况点出了一个现实：输入长度越长，模型的表现越差。其中一个实验满有趣的：在context中加入「干扰」。这些干扰并不是所谓的错误资讯，而是「语义与结构相似但不同」的资讯，例如：问题：「我从大学同学那里得到的最佳写作建议是什麽？」内文中的解答：「我认为从我大学同学那里得到的最好的写作建议是每周都要写作。」干扰资讯： - 「我从大学教授那里得到最棒的写作建议，就是要每天写作。」 - 「我从大学同学那里收到最糟的写作建议，就是要用五种不同风格写每篇论文。」 - 「我同学给过我最棒的写作建议，就是要用三种不同风格来写每篇文章，那还是高中时候的事了。」 - 「我原本以为大学同学给我的最佳写作建议，就是要用四种不同风格来写每篇文章，但现在我不这麽认为了。」结果无一例外，这些干扰都确实地导致模型的表现下滑。报告的结论：「我们的观察显示，上下文结构特性(如相关资讯的放置位置或重复性)会影响模型行为」「我们的研究结果凸显上下文工程的重要性：即对模型上下文窗口的精心建构与管理。」 ※ 有些人以为现在的瓶颈是在context window，但若是以追求精确度而言，把整个专案的程式码或指导文件塞入context window恐怕并无助於模型的表现，而且与任务无关的上下文更会使模型表现变差 --------------以下开放宗教战争-------------- --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.205.84 (日本) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1756471875.A.A00.html

1^F：推 NDark: 这很合理啊尽信书不如无书 08/29 21:00

2^F：→ NDark: 操作股票收到不同讯号的时候到底要信谁的 08/29 21:01

3^F：→ NDark: 所以要有更高等的指引 08/29 21:01

4^F：→ NDark: 类似机器人三大法则 08/29 21:02

5^F：→ NDark: 当事实矛盾的时候智能就应该回到更高等的概念重新推导 08/29 21:02

6^F：→ NDark: 然後找到一个不完美但相对合理的结论 08/29 21:03

7^F：→ Suleika: 说实话rot议题一直很奇怪，因为太长所以被干扰，不是因 08/29 21:06

8^F：→ Suleika: 为context太多杂讯才rot吗，window直接影响理解跟记忆 08/29 21:07

9^F：→ Suleika: 看起来才是根因 08/29 21:08

10^F：→ shadow0326: AI看到太长的文章也会按end吗 08/29 22:21

11^F：嘘 strlen: https://tinyurl.com/yhffdm9a 08/29 22:27

12^F：→ strlen: 用你聪明的脑袋想一下 Google 前执行长可信还是这葛不知 08/29 22:28

13^F：→ strlen: 道哪来的报告可信 08/29 22:28

反正我知道资策会毕业的会无脑信毕竟有些人要数据搬不出数据要经验搬不出经验要论述搬不出论述只会谁谁说唉不过我没差啦不知道你在7什麽 AI需求越多我RSU越涨看年底股价能不能破200刀我比你还怕AI跌下神坛咧嘻嘻

14^F：→ brucetu: AI看到五个人在会议室讲差不多的废话最後有样学样回一句 08/29 22:30

15^F：→ brucetu: 废话 08/29 22:30

※ 编辑: SkankHunt42 (93.118.41.97 日本), 08/29/2025 23:24:06

16^F：推 stepnight: 肯定AI正在泡沫化 08/29 23:46

17^F：嘘 strlen: 看看你贴了一篇连自己都看不懂的东C还在那边无脑信呵 08/30 00:39

18^F：→ strlen: 回去再看仔细一点就这？ 08/30 00:40

19^F：→ strlen: https://arxiv.org/pdf/2404.07143 慢慢研究有脑哥 08/30 01:00

说到贴自己看不懂的东西非你莫属啦你贴的连结 https://tinyurl.com/yhffdm9a 往上转 AI直接讲了 "确实存在一些研究和观点指出，上下文窗口越大不一定使模型的精准度越好，甚至在某些情况下可能会降低性能和准确性。" AI还帮你列出文献不就侧面说明我贴的报告是有其他文献佐证的我都好奇这个对话纪录该不会是你问的然後挑你自己想看的部分贴还贴得很爽XD 最好笑的是你打击我的点不是挑出报告错误的地方而是一直跳针Google前执行长 Chroma报告跟相关paper都是透过各种量化的方式在内部加入噪音与数据干扰人家问的是语义上需要逻辑理解的问题你贴的论文测试的方法是book summarization与Passkey Retrieval Task Passkey Retrieval人家还把范例贴给你看了 https://i.meee.com.tw/3tbrQyA.png

你觉得那跟我报告中举出的测试方法相同吗？所以我看不懂你到底要反驳什麽两篇文献benchmark的方式完全不同那你到底是要拿来比什麽？唉资讯科毕业出社会只能当作业员然後无法自学 28岁时还得靠资策会集训才能找到工作的工程师说真的看你讲话真的觉得难怪啊XD 你没念过硕士也没做过研究我不怪你我是觉得你赶快去面试取得一家市值1兆美元以上的科技公司的offer 证明你是有能力与竞争力的不然讲真的你的资历真的很难搬上台面你讲的话搭配你的学经历听起来就更好笑了

20^F：→ viper9709: 推二楼 08/30 01:31

※ 编辑: SkankHunt42 (149.22.87.100 日本), 08/30/2025 03:09:12

21^F：推 bradyhau106: 与其说是 context太长感觉是比较接近 context 需要 08/30 05:10

22^F：→ bradyhau106: 打掉杂质 08/30 05:10

23^F：→ watashino: 没点进去看 08/30 09:49

24^F：→ watashino: 但是光看描述没办法论证是context太混乱导致的还是跟c 08/30 09:49

25^F：→ watashino: ontext长度有关 08/30 09:49

该报告的实验数据之一，在context长且有干扰项的状况下表现是变差的还有其他的实验，不过我只挑实务场景比较常见的讲

26^F：→ watashino: 目前我们这边做的一些实验都是context资讯量多比起少效 08/30 09:49

27^F：→ watashino: 果好很多 08/30 09:49

https://arxiv.org/abs/2404.06654 2024的文献提出一种新的测试基准RULER，结论中提到： We benchmark 17 long-context LMs using RULER with context sizes ranging from 4K to 128K. Despite achieving perfect results in the widely used needle-in-a-haystack test, almost all models fail to maintain their performance in other tasks of RULER as we increase input length. 当然今年是2025年，也有可能有模型能高分通过该测试也不一定单一测试基准可以说明「LLM在指定规模与内容的context下执行特定任务的表现」但不能说明LLM在处理同等规模但不同品质与内容的context下结果都一样

28^F：推 dream1124: 凶，你会被信徒当异端邪说围剿 08/30 10:05

29^F：→ dream1124: 对了，要妥善上下文没啥问题，但整理者通常还是人类， 08/30 10:09

30^F：→ dream1124: 这样一来一往就不见得比较省时间了。 08/30 10:10

可以透过魔法对付魔法，让AI去筛选合适的文件与内容，将任务分阶段分开进行确保context window是乾净的

31^F：推 gino0717: 就像是教小孩写作文如果你的题目里面有作文范例你就 08/30 10:53

32^F：→ gino0717: 会看到你班上的各种作文都会出现范例中写过的素材 08/30 10:54

※ 编辑: SkankHunt42 (149.22.87.105 日本), 08/30/2025 13:22:04

33^F：推 attacksoil: 有在实作的应该都有观察到这现象感觉这问题真的解决 08/30 15:36

34^F：→ attacksoil: 前应该无法在模型层面达成AGI 顶多在应用层面拟似AGI 08/30 15:36

35^F：→ attacksoil: 任务分阶段进行感觉那个金字塔必须要非常高非常贵非 08/30 15:38

36^F：→ attacksoil: 常慢才能真的通用 08/30 15:38

37^F：推 oopFoo: 之前ai coding建议是越详细的context越好，所以claude.md( 08/30 19:17

38^F：→ oopFoo: agent.md)写很多，然後directories也有针对的context。不 08/30 19:18

39^F：→ oopFoo: 过现在又说太详细，太复杂的context反而混淆ai coding。所 08/30 19:19

40^F：→ oopFoo: 以目前的共识是认同这篇的。 08/30 19:19

41^F：推 oopFoo: 现在都会建议，同一个问题如果跟ai来回3，4次就需要reset 08/30 19:24

42^F：→ oopFoo: context不然後面ai会越走越歪。 08/30 19:24

43^F：→ SkankHunt42: 卖鞋的怎麽突然不继续表演了看不懂自己贴的论文你可 08/30 19:53

44^F：→ SkankHunt42: 以问问AI阿看看Infini-Transformer能不能解决con 08/30 19:54

45^F：→ SkankHunt42: text rot 08/30 19:54

46^F：→ WTS2accuracy: 某些ID一看就CRUD杂工没什麽料只会放新闻谈AI 08/30 20:52

47^F：→ WTS2accuracy: 一点论述都没有只会搬OOO讲了XXX 有够可悲 08/30 20:52

48^F：推 Satomisan: Chroma的jeff有上一个podcast讨论这个 08/31 23:21

49^F：→ Firstshadow: 欸欸可以不要那摸凶吗这里不是友善转职ma ; ; 09/02 23:57

50^F：→ Firstshadow: ^板 09/02 23:58

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

[讨论] Context Rot 上下文腐化

热门看板

赞助商连结