作者SkankHunt42 (凱子爸)

看板Soft_Job

標題

[討論] Context Rot 上下文腐化

時間Fri Aug 29 20:51:13 2025

今天無聊逛YouTube看到一則影片，當中提到由新創公司Chroma提出的報告「Context Rot: How Increasing Input Tokens Impacts LLM Performance」 (上下文腐化：增加輸入Token如何衝擊LLM的表現) https://research.trychroma.com/context-rot 本報告2025年7月發表。雖然是公司為了行銷自己產品而做的報告，但內容還是值得一看。當中對現況點出了一個現實：輸入長度越長，模型的表現越差。其中一個實驗滿有趣的：在context中加入「干擾」。這些干擾並不是所謂的錯誤資訊，而是「語義與結構相似但不同」的資訊，例如：問題：「我從大學同學那裡得到的最佳寫作建議是什麼？」內文中的解答：「我認為從我大學同學那裡得到的最好的寫作建議是每週都要寫作。」干擾資訊： - 「我從大學教授那裡得到最棒的寫作建議，就是要每天寫作。」 - 「我從大學同學那裡收到最糟的寫作建議，就是要用五種不同風格寫每篇論文。」 - 「我同學給過我最棒的寫作建議，就是要用三種不同風格來寫每篇文章，那還是高中時候的事了。」 - 「我原本以為大學同學給我的最佳寫作建議，就是要用四種不同風格來寫每篇文章，但現在我不這麼認為了。」結果無一例外，這些干擾都確實地導致模型的表現下滑。報告的結論：「我們的觀察顯示，上下文結構特性(如相關資訊的放置位置或重複性)會影響模型行為」「我們的研究結果凸顯上下文工程的重要性：即對模型上下文窗口的精心建構與管理。」 ※ 有些人以為現在的瓶頸是在context window，但若是以追求精確度而言，把整個專案的程式碼或指導文件塞入context window恐怕並無助於模型的表現，而且與任務無關的上下文更會使模型表現變差 --------------以下開放宗教戰爭-------------- --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.205.84 (日本) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1756471875.A.A00.html

1^F：推 NDark: 這很合理啊盡信書不如無書 08/29 21:00

2^F：→ NDark: 操作股票收到不同訊號的時候到底要信誰的 08/29 21:01

3^F：→ NDark: 所以要有更高等的指引 08/29 21:01

4^F：→ NDark: 類似機器人三大法則 08/29 21:02

5^F：→ NDark: 當事實矛盾的時候智能就應該回到更高等的概念重新推導 08/29 21:02

6^F：→ NDark: 然後找到一個不完美但相對合理的結論 08/29 21:03

7^F：→ Suleika: 說實話rot議題一直很奇怪，因為太長所以被干擾，不是因 08/29 21:06

8^F：→ Suleika: 為context太多雜訊才rot嗎，window直接影響理解跟記憶 08/29 21:07

9^F：→ Suleika: 看起來才是根因 08/29 21:08

10^F：→ shadow0326: AI看到太長的文章也會按end嗎 08/29 22:21

11^F：噓 strlen: https://tinyurl.com/yhffdm9a 08/29 22:27

12^F：→ strlen: 用你聰明的腦袋想一下 Google 前執行長可信還是這葛不知 08/29 22:28

13^F：→ strlen: 道哪來的報告可信 08/29 22:28

反正我知道資策會畢業的會無腦信畢竟有些人要數據搬不出數據要經驗搬不出經驗要論述搬不出論述只會誰誰說唉不過我沒差啦不知道你在7什麼 AI需求越多我RSU越漲看年底股價能不能破200刀我比你還怕AI跌下神壇咧嘻嘻

14^F：→ brucetu: AI看到五個人在會議室講差不多的廢話最後有樣學樣回一句 08/29 22:30

15^F：→ brucetu: 廢話 08/29 22:30

※ 編輯: SkankHunt42 (93.118.41.97 日本), 08/29/2025 23:24:06

16^F：推 stepnight: 肯定AI正在泡沫化 08/29 23:46

17^F：噓 strlen: 看看你貼了一篇連自己都看不懂的東C還在那邊無腦信呵 08/30 00:39

18^F：→ strlen: 回去再看仔細一點就這？ 08/30 00:40

19^F：→ strlen: https://arxiv.org/pdf/2404.07143 慢慢研究有腦哥 08/30 01:00

說到貼自己看不懂的東西非你莫屬啦你貼的連結 https://tinyurl.com/yhffdm9a 往上轉 AI直接講了 "確實存在一些研究和觀點指出，上下文窗口越大不一定使模型的精準度越好，甚至在某些情況下可能會降低性能和準確性。" AI還幫你列出文獻不就側面說明我貼的報告是有其他文獻佐證的我都好奇這個對話紀錄該不會是你問的然後挑你自己想看的部分貼還貼得很爽XD 最好笑的是你打擊我的點不是挑出報告錯誤的地方而是一直跳針Google前執行長 Chroma報告跟相關paper都是透過各種量化的方式在內部加入噪音與數據干擾人家問的是語義上需要邏輯理解的問題你貼的論文測試的方法是book summarization與Passkey Retrieval Task Passkey Retrieval人家還把範例貼給你看了 https://i.meee.com.tw/3tbrQyA.png

你覺得那跟我報告中舉出的測試方法相同嗎？所以我看不懂你到底要反駁什麼兩篇文獻benchmark的方式完全不同那你到底是要拿來比什麼？唉資訊科畢業出社會只能當作業員然後無法自學 28歲時還得靠資策會集訓才能找到工作的工程師說真的看你講話真的覺得難怪啊XD 你沒念過碩士也沒做過研究我不怪你我是覺得你趕快去面試取得一家市值1兆美元以上的科技公司的offer 證明你是有能力與競爭力的不然講真的你的資歷真的很難搬上檯面你講的話搭配你的學經歷聽起來就更好笑了

20^F：→ viper9709: 推二樓 08/30 01:31

※ 編輯: SkankHunt42 (149.22.87.100 日本), 08/30/2025 03:09:12

21^F：推 bradyhau106: 與其說是 context太長感覺是比較接近 context 需要 08/30 05:10

22^F：→ bradyhau106: 打掉雜質 08/30 05:10

23^F：→ watashino: 沒點進去看 08/30 09:49

24^F：→ watashino: 但是光看描述沒辦法論證是context太混亂導致的還是跟c 08/30 09:49

25^F：→ watashino: ontext長度有關 08/30 09:49

該報告的實驗數據之一，在context長且有干擾項的狀況下表現是變差的還有其他的實驗，不過我只挑實務場景比較常見的講

26^F：→ watashino: 目前我們這邊做的一些實驗都是context資訊量多比起少效 08/30 09:49

27^F：→ watashino: 果好很多 08/30 09:49

https://arxiv.org/abs/2404.06654 2024的文獻提出一種新的測試基準RULER，結論中提到： We benchmark 17 long-context LMs using RULER with context sizes ranging from 4K to 128K. Despite achieving perfect results in the widely used needle-in-a-haystack test, almost all models fail to maintain their performance in other tasks of RULER as we increase input length. 當然今年是2025年，也有可能有模型能高分通過該測試也不一定單一測試基準可以說明「LLM在指定規模與內容的context下執行特定任務的表現」但不能說明LLM在處理同等規模但不同品質與內容的context下結果都一樣

28^F：推 dream1124: 兇，你會被信徒當異端邪說圍剿 08/30 10:05

29^F：→ dream1124: 對了，要妥善上下文沒啥問題，但整理者通常還是人類， 08/30 10:09

30^F：→ dream1124: 這樣一來一往就不見得比較省時間了。 08/30 10:10

可以透過魔法對付魔法，讓AI去篩選合適的文件與內容，將任務分階段分開進行確保context window是乾淨的

31^F：推 gino0717: 就像是教小孩寫作文如果你的題目裡面有作文範例你就 08/30 10:53

32^F：→ gino0717: 會看到你班上的各種作文都會出現範例中寫過的素材 08/30 10:54

※ 編輯: SkankHunt42 (149.22.87.105 日本), 08/30/2025 13:22:04

33^F：推 attacksoil: 有在實作的應該都有觀察到這現象感覺這問題真的解決 08/30 15:36

34^F：→ attacksoil: 前應該無法在模型層面達成AGI 頂多在應用層面擬似AGI 08/30 15:36

35^F：→ attacksoil: 任務分階段進行感覺那個金字塔必須要非常高非常貴非 08/30 15:38

36^F：→ attacksoil: 常慢才能真的通用 08/30 15:38

37^F：推 oopFoo: 之前ai coding建議是越詳細的context越好，所以claude.md( 08/30 19:17

38^F：→ oopFoo: agent.md)寫很多，然後directories也有針對的context。不 08/30 19:18

39^F：→ oopFoo: 過現在又說太詳細，太複雜的context反而混淆ai coding。所 08/30 19:19

40^F：→ oopFoo: 以目前的共識是認同這篇的。 08/30 19:19

41^F：推 oopFoo: 現在都會建議，同一個問題如果跟ai來回3，4次就需要reset 08/30 19:24

42^F：→ oopFoo: context不然後面ai會越走越歪。 08/30 19:24

43^F：→ SkankHunt42: 賣鞋的怎麼突然不繼續表演了看不懂自己貼的論文你可 08/30 19:53

44^F：→ SkankHunt42: 以問問AI阿看看Infini-Transformer能不能解決con 08/30 19:54

45^F：→ SkankHunt42: text rot 08/30 19:54

46^F：→ WTS2accuracy: 某些ID一看就CRUD雜工沒什麼料只會放新聞談AI 08/30 20:52

47^F：→ WTS2accuracy: 一點論述都沒有只會搬OOO講了XXX 有夠可悲 08/30 20:52

48^F：推 Satomisan: Chroma的jeff有上一個podcast討論這個 08/31 23:21

49^F：→ Firstshadow: 欸欸可以不要那摸兇嗎這裡不是友善轉職ma ; ; 09/02 23:57

50^F：→ Firstshadow: ^板 09/02 23:58

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Soft_Job 板

[討論] Context Rot 上下文腐化

熱門看板

贊助商連結