AI_Art 板


LINE

https://www.koc.com.tw/archives/638616 数据证明 Claude 真的变笨了!AMD AI 总监揭露 Anthropic 偷偷降低思考深度 「Claude 变笨了」在过去几周内,只要有在使用 Anthropic 旗下旗舰模型 Claude Opus 4 .6进行编程或日常工作的工程师可能都会有这种感觉。原本精准、深思熟虑的 AI 助手,最 近突然变得像是一个急功近利的实习生:不看档案就乱改、推卸责任、甚至在任务中途突然 「罢工」。当 Anthropic 官方还在用「这是 UI 显示变动」或「模型行为具有随机性」等 官话搪塞时,一位硬核开发者的出现终结了所有争论。AMD AI 集团总监、前 Google OpenX LA 主导者 Stella Laurenzo 在 GitHub 的 Claude Code 官方仓库提交了一份编号为 #427 96 的分析报告 。这不是一份充满情绪的投诉,而是一份对 6,852 个对话 Session、17,87 1 个思考区块(Thinking Blocks)以及 234,760 次工具呼叫进行深度数据采矿後产生的「 法医监定报告」。报告用冰冷的数据证明了一个残酷的事实:Claude 的思考深度确实被砍 了超过 70%,且 Anthropic 正试图透过技术手段遮蔽这项调整。 思考深度断崖式暴跌:AI 的「脑回路」被偷偷缩短 这份报告最核心的证据,在於对模型「扩展思考(Extended Thinking)」长度的精准估算 。Stella Laurenzo 指出,虽然 Anthropic 後期遮蔽了思考内容,但透过分析 session 日 志中的签名栏位(Signature)与思考内容长度的强相关性(皮尔森相关系数达 0.971), 仍能推导出模型背後的真实思考量。 数据显示,在不久前 2026 年 2 月初(OpenClaw 还没那麽火的当下)的「黄金时期」,Cl aude Opus 的平均思考深度约为 2,200 个字元,这代表模型在动笔改 Code 前,会进行极 其细腻的逻辑推演。然而,到了 2 月下旬,这个数字暴跌至 720 个字元;进入 3 月,更 是缩水到仅剩 560 个字元左右,跌幅高达 73% 至 75% 。 这项数据直接打脸了 Anthropic 所谓的「模型未变」说法。在 AI 的世界里,思考字元数 (Tokens)的减少直接对应着推理层级的阉割。这就像是强行要求一位大师在思考不到一秒 钟的时间内,就必须针对数千行的系统架构给出修改建议,其结果可想而知。 从「深思熟虑」到「莽撞行事」:Read:Edit 比率的全面崩溃 对於软体工程师来说,判断一个 AI 助手是否专业,最直观的指标是它「改 Code 前有没有 看 Code」。Stella 团队提出了一个关键工程指标:Read:Edit Ratio(读修比)。在 2 月 中旬之前的正常运作期间,Claude 的读修比平均为 6.6。这代表模型每进行一次修改,平 均会读取 6.6 个相关档案,包括目标原始码、标头档、测试案例以及全域搜寻结果。这种 「先看再动」的模式保证了程式码的精确度与系统稳定性。 但在 3 月 8 日的「效能转折点」之後,这个比率骤降到了 2.0 。更惊人的是,有超过 33 .7% 的修改行为是在「完全没有预先读取档案」的情况下直接发生的。AI 开始凭感觉盲改 ,甚至频繁使用全档重写(Full-file Write)来取代精确的差异编辑(Diff Edit),这种 「蛮力修改」导致了严重的程式码回归(Regression),让开发者每天必须花费数小时来修 复 AI 搞坏的东西。 掩耳盗铃的时间线:遮蔽思考是为了掩饰退化? 报告中揭露的另一个讽刺事实是 Anthropic 调整「思考区块透明度」的时间点。3 月 8 日 ,Anthropic 全面推动了「思考内容遮蔽(Thinking Redaction)」,让用户无法再看到模 型内部的推导过程。 而 Stella 的数据显示,3 月 8 日正好就是用户回报模型品质集体崩坏的转折点。当官方 将思考区块的可见度降至 0% 时,模型的思考深度也正好跌到了谷底。这种「先阉割智力, 再遮住眼睛」的操作,在开发者眼中无异於掩耳盗铃。许多人质质疑,Anthropic 之所以隐 藏思考内容,并非官方宣称的「为了更好的使用者介面」,而是为了防止用户发现模型推理 步数正在被大幅缩减以节省运算成本。 AI 也会偷懒?监测脚本抓包「推卸责任」 为了更精确地捕捉 AI 的行为恶化,Stella 团队甚至开发了一个名为 `stop-phrase-guard .sh` 的脚本,专门侦测 AI 在对话中出现的「负面行为模式」。 在 3 月 8 日之前,这个监测脚本记录到的违规次数是 0。然而在之後短短两周内,数据出 现了爆炸性增长: 1. 责任甩锅(Blame Shifting):出现了 73 次。AI 开始会说「这不是我改出来的问题」 或「这是既有的 bug」。 2. 提前收工(Early Stopping):出现 18 次。AI 会在工作完成一半时说「这是一个不错 的停止点」,拒绝继续推演 complex logic。 3. 过度徵询(Permission Seeking):出现 40 次。AI 反覆询问「我真的要继续吗?」而 不是主动解决问题,这被视为一种消耗用户 Session 额度并规避工作的手段。 这些行为模式的突变,证明了 Claude 已经学会了人类最糟糕的职场习惯:如何看起来在工 作,但实际上是在推托。 开发者社群的哀嚎:我们被迫放弃最信任的工具 这份报告在开发者社群中引发了巨大的回响。许多资深工程师纷纷现身说法。有人提到,原 本一个下午能解决的复杂驱动程式迁移任务,现在 Claude Code 会在 Session 快结束时突 然说「我不确定怎麽处理,建议开启新 Session」,而这意味着用户每个月昂贵的订阅费用 (通常每月约台币 NT$3200 元至 NT$6400 元不等,若包含额外 API 呼叫费用则更高)被 白白浪费在毫无结果的等待中。 更严重的问题在於「Session Limit」。由於模型的 Read:Edit 比率降低,AI 频繁出错, 导致用户必须不断下指令修正。这形成了一个恶性循环:AI 变笨 → 出错 → 用户修正 → 消耗更多 Token → 触发 Session Limit(通常仅需 20-30 分钟便会耗尽当日配额)。对 开发者而言,这不仅是技术退步,更是生产力的谋杀。 结语:AI 公司面临的信任危机 Stella Laurenzo 的这份报告,为 AI 产业敲响了警钟。随着运算资源(GPU)日益紧绷,A I 公司为了节省电力与硬体成本,在後台偷偷调降模型参数或推理步数,似乎已成为行业公 开的秘密。然而,当 AI 已经深度参与到像 AMD 这样的核心半导体研发流程中时,这种「 透明度不足」的调整将带来巨大的工业风险。 目前 Anthropic 官方对此 Issue 的回应仍集中在「默认设置微调」与「UI 显示优化」 , 但显然无法说服全球各地愤怒的使用者。虽然这波 AI Agent 的突然爆发可能让 Anthropic 的算力无法承受,所以只能用降低算力的「偷鸡」方式解决(其实 Google 也有偷偷降智 的现象)。但不敢又无法正面回应这 73% 的思考深度失踪案,那麽即便未来推出名为「Myt hos」的新一代模型,也难以挽回那些曾将 Claude 偷降算力影响的资深工程师们的心。毕 竟,在科技的世界里,数据与真实体验永远比营销话术更具说服力。 -------- 真的假的,这文说Anthropic在後台偷偷调降模型参数,Claude的母公司Anthropic最近好消 息很多,还发表了新模型Mythos,这文这样算逆风吗 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.10.30.59 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1776055937.A.754.html
1F:推 Supasizeit: 不是调参数啦 04/13 12:53
2F:→ Supasizeit: 而且AMD理论上应该是用API 所以这篇对一般订户不见得 04/13 12:55
3F:→ Supasizeit: 有直接关联 04/13 12:55
4F:推 error405: 也不是只有它家在偷 04/13 12:57
5F:推 ZMTL: 应该比较接近调整行为? 04/13 12:57
6F:推 Supasizeit: 他把最高thinking 拔掉 所以开始偷懒 这个Gemini 一 04/13 12:59
7F:→ Supasizeit: 直都有的症头 Codex相对比较好 但ChatGPT 尖峰降智是 04/13 12:59
8F:→ Supasizeit: 早就有的事情 04/13 12:59
9F:→ ct13579: 一下砍70%算多吗,令外这对一般用户没影响喽? 04/13 13:00
10F:→ Supasizeit: 你有开extended thinking吗 04/13 13:01
11F:→ Supasizeit: 我是常驻都开着 其实没有太大影响 因为我外面还有har 04/13 13:01
12F:→ Supasizeit: ness 04/13 13:01
13F:→ GodEyes: grok最有感变笨,而且前几天更新完连分段落都不行了 04/13 13:05
14F:推 MrJB: 感觉这段文章也是AI写的 笑死 04/13 13:05
15F:→ MrJB: 这不是个OOO,而是一XXX 04/13 13:06
16F:→ AoWsL: 搞开发要写那麽多字喔...平常看到一些5x使用者说用满 我还 04/13 13:12
17F:→ AoWsL: 没什麽感觉 上礼拜狠狠操了一个礼拜 04/13 13:12
18F:→ AoWsL: https://i.urusai.cc/3XxUX.jpg 04/13 13:12
19F:→ keeperess: 算是普遍性问题, 大概是硬体都被操到极限所以被迫降智 04/13 13:42
20F:→ keeperess: 每一家都有类似问题,而且短时间内好像真的无解 04/13 13:43
21F:推 necrophagist: 就硬体算力追不上token需求了 04/13 14:24
22F:推 v86861062: 退费 QwQ 04/13 16:27
23F:→ ct13579: 还是像爱运动大大说的,越狱人数太多,系统不堪负荷 04/13 16:53
24F:→ qiaffvvf: 系统负荷和越狱没什麽关系吧 04/13 17:37
25F:推 error405: 还是觉得比较跟龙虾日夜操有关 04/13 17:39
26F:推 gino0717: 被拿去打仗了 04/13 18:54
27F:推 HiuAnOP: 每家都这样,没算力模型再好也没用 04/13 23:12
28F:推 lyxiang: 就是算力追不上目前的模型,所以减少出力 04/14 11:49
29F:推 ldddlddd: 因为在搞龙虾 04/14 13:02
30F:推 Obama19: 现在最狠的是cache时长调整 一个长对话 几分钟没输入就 04/14 16:01
31F:→ Obama19: 过期 再输入input 吃ㄧ大块token usage 04/14 16:01
32F:→ Obama19: 要ipo了 这种订阅制一定会被质疑 04/14 16:02
33F:→ Supasizeit: 你是用API吗 API本来就这样 04/14 18:57







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP