作者ct13579 (兰)
看板AI_Art
标题[闲聊] 数据证明 Claude 真的变笨了!
时间Mon Apr 13 12:52:15 2026
https://www.koc.com.tw/archives/638616
数据证明 Claude 真的变笨了!AMD AI 总监揭露 Anthropic 偷偷降低思考深度
「Claude 变笨了」在过去几周内,只要有在使用 Anthropic 旗下旗舰模型 Claude Opus 4
.6进行编程或日常工作的工程师可能都会有这种感觉。原本精准、深思熟虑的 AI 助手,最
近突然变得像是一个急功近利的实习生:不看档案就乱改、推卸责任、甚至在任务中途突然
「罢工」。当 Anthropic 官方还在用「这是 UI 显示变动」或「模型行为具有随机性」等
官话搪塞时,一位硬核开发者的出现终结了所有争论。AMD AI 集团总监、前 Google OpenX
LA 主导者 Stella Laurenzo 在 GitHub 的 Claude Code 官方仓库提交了一份编号为 #427
96 的分析报告 。这不是一份充满情绪的投诉,而是一份对 6,852 个对话 Session、17,87
1 个思考区块(Thinking Blocks)以及 234,760 次工具呼叫进行深度数据采矿後产生的「
法医监定报告」。报告用冰冷的数据证明了一个残酷的事实:Claude 的思考深度确实被砍
了超过 70%,且 Anthropic 正试图透过技术手段遮蔽这项调整。
思考深度断崖式暴跌:AI 的「脑回路」被偷偷缩短
这份报告最核心的证据,在於对模型「扩展思考(Extended Thinking)」长度的精准估算
。Stella Laurenzo 指出,虽然 Anthropic 後期遮蔽了思考内容,但透过分析 session 日
志中的签名栏位(Signature)与思考内容长度的强相关性(皮尔森相关系数达 0.971),
仍能推导出模型背後的真实思考量。
数据显示,在不久前 2026 年 2 月初(OpenClaw 还没那麽火的当下)的「黄金时期」,Cl
aude Opus 的平均思考深度约为 2,200 个字元,这代表模型在动笔改 Code 前,会进行极
其细腻的逻辑推演。然而,到了 2 月下旬,这个数字暴跌至 720 个字元;进入 3 月,更
是缩水到仅剩 560 个字元左右,跌幅高达 73% 至 75% 。
这项数据直接打脸了 Anthropic 所谓的「模型未变」说法。在 AI 的世界里,思考字元数
(Tokens)的减少直接对应着推理层级的阉割。这就像是强行要求一位大师在思考不到一秒
钟的时间内,就必须针对数千行的系统架构给出修改建议,其结果可想而知。
从「深思熟虑」到「莽撞行事」:Read:Edit 比率的全面崩溃
对於软体工程师来说,判断一个 AI 助手是否专业,最直观的指标是它「改 Code 前有没有
看 Code」。Stella 团队提出了一个关键工程指标:Read:Edit Ratio(读修比)。在 2 月
中旬之前的正常运作期间,Claude 的读修比平均为 6.6。这代表模型每进行一次修改,平
均会读取 6.6 个相关档案,包括目标原始码、标头档、测试案例以及全域搜寻结果。这种
「先看再动」的模式保证了程式码的精确度与系统稳定性。
但在 3 月 8 日的「效能转折点」之後,这个比率骤降到了 2.0 。更惊人的是,有超过 33
.7% 的修改行为是在「完全没有预先读取档案」的情况下直接发生的。AI 开始凭感觉盲改
,甚至频繁使用全档重写(Full-file Write)来取代精确的差异编辑(Diff Edit),这种
「蛮力修改」导致了严重的程式码回归(Regression),让开发者每天必须花费数小时来修
复 AI 搞坏的东西。
掩耳盗铃的时间线:遮蔽思考是为了掩饰退化?
报告中揭露的另一个讽刺事实是 Anthropic 调整「思考区块透明度」的时间点。3 月 8 日
,Anthropic 全面推动了「思考内容遮蔽(Thinking Redaction)」,让用户无法再看到模
型内部的推导过程。
而 Stella 的数据显示,3 月 8 日正好就是用户回报模型品质集体崩坏的转折点。当官方
将思考区块的可见度降至 0% 时,模型的思考深度也正好跌到了谷底。这种「先阉割智力,
再遮住眼睛」的操作,在开发者眼中无异於掩耳盗铃。许多人质质疑,Anthropic 之所以隐
藏思考内容,并非官方宣称的「为了更好的使用者介面」,而是为了防止用户发现模型推理
步数正在被大幅缩减以节省运算成本。
AI 也会偷懒?监测脚本抓包「推卸责任」
为了更精确地捕捉 AI 的行为恶化,Stella 团队甚至开发了一个名为 `stop-phrase-guard
.sh` 的脚本,专门侦测 AI 在对话中出现的「负面行为模式」。
在 3 月 8 日之前,这个监测脚本记录到的违规次数是 0。然而在之後短短两周内,数据出
现了爆炸性增长:
1. 责任甩锅(Blame Shifting):出现了 73 次。AI 开始会说「这不是我改出来的问题」
或「这是既有的 bug」。
2. 提前收工(Early Stopping):出现 18 次。AI 会在工作完成一半时说「这是一个不错
的停止点」,拒绝继续推演 complex logic。
3. 过度徵询(Permission Seeking):出现 40 次。AI 反覆询问「我真的要继续吗?」而
不是主动解决问题,这被视为一种消耗用户 Session 额度并规避工作的手段。
这些行为模式的突变,证明了 Claude 已经学会了人类最糟糕的职场习惯:如何看起来在工
作,但实际上是在推托。
开发者社群的哀嚎:我们被迫放弃最信任的工具
这份报告在开发者社群中引发了巨大的回响。许多资深工程师纷纷现身说法。有人提到,原
本一个下午能解决的复杂驱动程式迁移任务,现在 Claude Code 会在 Session 快结束时突
然说「我不确定怎麽处理,建议开启新 Session」,而这意味着用户每个月昂贵的订阅费用
(通常每月约台币 NT$3200 元至 NT$6400 元不等,若包含额外 API 呼叫费用则更高)被
白白浪费在毫无结果的等待中。
更严重的问题在於「Session Limit」。由於模型的 Read:Edit 比率降低,AI 频繁出错,
导致用户必须不断下指令修正。这形成了一个恶性循环:AI 变笨 → 出错 → 用户修正 →
消耗更多 Token → 触发 Session Limit(通常仅需 20-30 分钟便会耗尽当日配额)。对
开发者而言,这不仅是技术退步,更是生产力的谋杀。
结语:AI 公司面临的信任危机
Stella Laurenzo 的这份报告,为 AI 产业敲响了警钟。随着运算资源(GPU)日益紧绷,A
I 公司为了节省电力与硬体成本,在後台偷偷调降模型参数或推理步数,似乎已成为行业公
开的秘密。然而,当 AI 已经深度参与到像 AMD 这样的核心半导体研发流程中时,这种「
透明度不足」的调整将带来巨大的工业风险。
目前 Anthropic 官方对此 Issue 的回应仍集中在「默认设置微调」与「UI 显示优化」 ,
但显然无法说服全球各地愤怒的使用者。虽然这波 AI Agent 的突然爆发可能让 Anthropic
的算力无法承受,所以只能用降低算力的「偷鸡」方式解决(其实 Google 也有偷偷降智
的现象)。但不敢又无法正面回应这 73% 的思考深度失踪案,那麽即便未来推出名为「Myt
hos」的新一代模型,也难以挽回那些曾将 Claude 偷降算力影响的资深工程师们的心。毕
竟,在科技的世界里,数据与真实体验永远比营销话术更具说服力。
--------
真的假的,这文说Anthropic在後台偷偷调降模型参数,Claude的母公司Anthropic最近好消
息很多,还发表了新模型Mythos,这文这样算逆风吗
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.10.30.59 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1776055937.A.754.html
1F:推 Supasizeit: 不是调参数啦 04/13 12:53
2F:→ Supasizeit: 而且AMD理论上应该是用API 所以这篇对一般订户不见得 04/13 12:55
3F:→ Supasizeit: 有直接关联 04/13 12:55
4F:推 error405: 也不是只有它家在偷 04/13 12:57
5F:推 ZMTL: 应该比较接近调整行为? 04/13 12:57
6F:推 Supasizeit: 他把最高thinking 拔掉 所以开始偷懒 这个Gemini 一 04/13 12:59
7F:→ Supasizeit: 直都有的症头 Codex相对比较好 但ChatGPT 尖峰降智是 04/13 12:59
8F:→ Supasizeit: 早就有的事情 04/13 12:59
9F:→ ct13579: 一下砍70%算多吗,令外这对一般用户没影响喽? 04/13 13:00
10F:→ Supasizeit: 你有开extended thinking吗 04/13 13:01
11F:→ Supasizeit: 我是常驻都开着 其实没有太大影响 因为我外面还有har 04/13 13:01
12F:→ Supasizeit: ness 04/13 13:01
13F:→ GodEyes: grok最有感变笨,而且前几天更新完连分段落都不行了 04/13 13:05
14F:推 MrJB: 感觉这段文章也是AI写的 笑死 04/13 13:05
15F:→ MrJB: 这不是个OOO,而是一XXX 04/13 13:06
16F:→ AoWsL: 搞开发要写那麽多字喔...平常看到一些5x使用者说用满 我还 04/13 13:12
17F:→ AoWsL: 没什麽感觉 上礼拜狠狠操了一个礼拜 04/13 13:12
19F:→ keeperess: 算是普遍性问题, 大概是硬体都被操到极限所以被迫降智 04/13 13:42
20F:→ keeperess: 每一家都有类似问题,而且短时间内好像真的无解 04/13 13:43
21F:推 necrophagist: 就硬体算力追不上token需求了 04/13 14:24
22F:推 v86861062: 退费 QwQ 04/13 16:27
23F:→ ct13579: 还是像爱运动大大说的,越狱人数太多,系统不堪负荷 04/13 16:53
24F:→ qiaffvvf: 系统负荷和越狱没什麽关系吧 04/13 17:37
25F:推 error405: 还是觉得比较跟龙虾日夜操有关 04/13 17:39
26F:推 gino0717: 被拿去打仗了 04/13 18:54
27F:推 HiuAnOP: 每家都这样,没算力模型再好也没用 04/13 23:12
28F:推 lyxiang: 就是算力追不上目前的模型,所以减少出力 04/14 11:49
29F:推 ldddlddd: 因为在搞龙虾 04/14 13:02
30F:推 Obama19: 现在最狠的是cache时长调整 一个长对话 几分钟没输入就 04/14 16:01
31F:→ Obama19: 过期 再输入input 吃ㄧ大块token usage 04/14 16:01
32F:→ Obama19: 要ipo了 这种订阅制一定会被质疑 04/14 16:02
33F:→ Supasizeit: 你是用API吗 API本来就这样 04/14 18:57