作者xephon (Usagi)
看板Soft_Job
标题[新闻] 资深软体工程师用Cursor工作效率降19%
时间Wed Jul 16 09:11:00 2025
https://www.bnext.com.tw/article/83885/ai-productivity-drop
AI变猪队友?资深软体工程师用Cursor「工作效率降19%」:背後原因是?导入AI错了吗?
2025.07.15
资料来源:METR、路透社
责任编辑:李先泰
内文:
重点一:2025年初AI工具让资深开源开发者
生产力下降19%,颠覆普遍预期。
重点二:研究采用严谨随机对照试验(RCT),直接测量AI在真实软体开发情境的影响。
重点三:研究结果与AI基准测试及开发者主观经验存在显着差异,凸显评估AI效益需多元视
角。
生成式AI近年有越来越「聪明」的趋势,不少企业甚至因为导入AI而缩减组织人员规模。但
对於公司行号来说,真的只要「无脑导入AI」,就可以让生产力大跃升吗?答案可能没这麽
简单。
7月10日,一项由非营利研究机构METR(Model Evaluation & Threat Research)主导的研
究显示,2025年初问世的AI工具,包括Cursor Pro与Claude 3.5/3.7 Sonnet等前沿模型,
实际应用於资深开源开发者日常开发工作时,非但未能提升生产力,反而导致效率平均下降
19%。
这份研究的随机对照试验(Randomized Controlled Trial, RCT)结果,狠狠打脸产业普遍
认为「AI将大幅加速软体开发」的主流观点。白话来说,就是强制相对资深的老手工程师使
用AI,反而可能拖累他们的工作速度。
https://i.meee.com.tw/f063wYI.jpg
Y轴代表「使用 AI 後的时间变化」。可以发现,当开发者实际使用 AI 工具(来完成任务
时,所需时间反而增加了 19%。
问题是,为什麽有如此反直觉的结果?是在使用AI的过程中,出了什麽差错吗?
拖累老手工程师的5大潜在原因
为深入分析AI工具对软体开发生产力的实际影响,研究团队招募了16位长期参与大型开源专
案(平均22,000颗GitHub星、百万行程式码)的资深开发者,针对246个专案真实议题(如
错误修复、功能开发、程式码重构),随机分配为「允许使用AI」与「禁止使用AI」两组。
开发者可自由选择AI工具(主要为Cursor Pro搭配Claude 3.5/3.7 Sonnet)。同时,开发
者在执行任务时全程录影,并自行回报所需的总实作时间,并比较同一批开发者在「无AI辅
助」下完成任务的时间差异,并排除潜在实验偏误。
受试者在实验前普遍认为,AI能让他们加快24%进度,即使在实验过後,仍普遍认为允许使
用AI可让实作时间缩短20%。
但研究数据却显示,实际上允许使用AI反而让完成时间增加了1
9%。 也就是说,这些软体工程老手在使用AI工具时,反而变慢了。
根据研究结果,这些老手「被AI拖累」的原因有以下五点:
1. AI工具使用流程增加额外步骤 :开发者在与AI互动、理解AI回应、验证建议内容时,会
花费额外时间。
2. AI建议需反覆修正 :AI产生的程式码或建议往往不完全符合专案需求,开发者需多次修
改、整合或重写。
3. 高品质标准下AI表现有限 :在大型、成熟的开源专案中,对程式码品质、测试、文件等
要求高,AI生成内容较难一次达标,需人工补足。
4. 隐含需求难以明确传达给AI :专案中有许多隐性规范或背景知识,AI难以完全掌握,导
致开发者需花时间解释或修正。
5. 学习与适应成本 :即使开发者已有AI工具经验,仍需适应新工具或新工作流程,短期内
可能降低效率。
要说明的是,参与者虽有AI经验,但其实多数仅使用Cursor数十小时经验而已。 因此可以
说,有经验老手若还不太熟悉使用AI编程工具如Cursor,在他们熟悉的领域内,其实不用AI
的效率反而更好。
因此可以说,现在企业普遍认为「导入AI必能提升生产力」的假设,其实有待商榷。
https://i.meee.com.tw/xX1Hjvg.jpg
研究显示,对於自己越熟悉的问题,资深开发者的速度反而被 AI 拖得越慢。他们也回报说
,正是因为自己太有经验,导致 AI 很难真正帮上忙。
结论:无脑导入AI可能弊大於利
总结来说,这项研究的最大发现是,即使已经是程式开发老手,光是尝试使用所谓Vibe Cod
ing工具本身就一种全新的技能,这种与AI协作进行软体开发的实作,相较以往是具颠覆性
的,企业主在导入相关AI工具时仍需考量团队及专案得适切性,否则很可能只是搞的团队人
仰马翻,甚至错估导入AI的成效,最可怕的是误杀忠良,让有能力的工程师被误会「不懂AI
」。
但不要误会了。这份研究是针对「老手工程师」对於「使用AI工具」的评估,因此无法代表
所有开发者或不同类型专案。同时,研究仅针对开发者在自己熟悉的专案中处理真实议题,
故结果也不适用於新手、跨领域协作或陌生专案等情境。
另外值得注意的是,部分开发者获知实验结果後反映,使用AI工具让开发过程更有趣或更具
互动性,即使未提升效率,仍愿意持续尝试,为未来更强大的AI系统做准备。
看到这边,还认为AI是效率万灵药吗?如果是,你可能需要好好想想。
心得:
这篇研究蛮有趣的,不知道跟大家体感差多少
我朋友的公司是强力导入AI开发後
宣称已达到工程师效率提升30%
但他们没有把产品上市时间缩短30%
是用减少10%工程师跟多做20%事情来达成
具体怎麽算的可能只有高管知道了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.162.50 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1752628263.A.06D.html
1F:推 chyl13579: 或许对於资深工程师来说,写code比写prompt 更快吧, 07/16 09:15
2F:→ chyl13579: 尤其这次实验的是他们熟悉的专案 07/16 09:15
3F:推 chita0258: 多的20%时间差不多就是学习的成本吧 07/16 09:29
4F:推 s8911090: METR从名字看就不像会客观研究的 07/16 09:45
5F:推 fake01: 有感,工程师会使用AI来进行function的重构,会让code变得 07/16 09:49
6F:→ fake01: 较难阅读,当在审视PR的时候,需要较多的时间来理解重构 07/16 09:49
7F:→ fake01: 後的内容是否有达成需求以及范盖边界条件 07/16 09:49
8F:推 ILoveAMD: AI常常想太多 容易出现无效的程式码 07/16 10:20
9F:推 stepnight: 以前资深RD只需要讲个几句没重点的 07/16 10:31
10F:→ stepnight: 就有初阶RD帮你通灵完成需求 07/16 10:31
11F:→ stepnight: 现在你需要钜细靡遗的对着AI讲出需求 07/16 10:31
12F:→ stepnight: 哪个比较快不用比吧? 07/16 10:31
13F:推 shadow0326: 资深工程师开课介绍各种AI用法的收入应该可以提升30% 07/16 11:16
14F:推 abc0922001: AI就是实习助理工程师,辅助用的而已 07/16 11:45
15F:推 hobnob: 笑死,s说的通灵真的有感 07/16 12:06
16F:→ ma721: 用几十小时也叫老手 07/16 13:07
17F:→ airtsubasa: 我都拿来写自己也看不懂的注解 让人以为我棒棒负责 07/16 14:43
18F:推 viper9709: 简单讲就AI不会通灵XD 07/16 16:23
19F:推 devilkool: 现在已经一堆资深的开课教AI赚FOMO仔的钱啦 07/16 16:24
20F:→ Ekmund: 不就前几天oopFoo贴的? 07/16 17:09
21F:推 neo5277: 这些都是沟通问题啊..... 07/16 17:37
22F:推 oopFoo: 原因,理由都是推测。这个实验重点是,每个参与人员,做完 07/16 17:50
23F:→ oopFoo: 後,自我评估工作效率是+20%+,但实际是-19%。 07/16 17:52
24F:推 oopFoo: 我不会说ai泡沫要破灭,但确实最近有点消风。 07/16 17:55
25F:推 gn00273680: 开课噱海罗 但免费资源很多啦 而且一直变变变 没必要 07/16 20:20
26F:→ gn00273680: FOMO 07/16 20:20
27F:推 gino0717: 觉得AI能做就跑去摸鱼了 实际效率下降十九趴 07/16 20:22
28F:推 NDark: 我觉得蛮多持平之声都很中肯 07/16 20:46
29F:→ NDark: 对於自己比较不擅长的领域AI会帮忙很大 07/16 20:46
30F:→ NDark: 譬如说我不会写宣传文 AI可以帮我写出情绪价值满满的文章 07/16 20:47
31F:→ NDark: 对於我不熟的资讯类其他工作也表现得不错 07/16 20:48
32F:→ NDark: 因为我有基础的知识知道该怎麽跟AI互动会得到最好结果 07/16 20:48
33F:→ NDark: 但是对於我已经做了十年的工作 短时间很难直接套用AI 07/16 20:49
34F:→ NDark: 就算改变工作方式套了AI产量变10倍 07/16 20:49
35F:→ NDark: 这时候碰到非生产的其他瓶颈几乎是100% 07/16 20:50
36F:→ NDark: 如果不妥协硬推下去那一定是偷懒或是接案或是离职创业之路 07/16 20:51
38F:推 sunsamy: AI在"抽象"方面表现不错,像艺术跟唬烂表现不错 07/17 00:37
39F:→ sunsamy: 但是要求"精确"的事,如写程式却是"抽象"化了 07/17 00:37
40F:推 sunsamy: 所以像code review没意外的话也会蛮唬烂的 07/17 00:42
41F:→ sunsamy: 除非本身就用Lint tool输出的结果然後用LLM讲述给你听 07/17 00:42
42F:→ sunsamy: 但那本身就是Lint tool的功劳, 不是AI的功劳 07/17 00:42
43F:推 lin80673: 有时候多问几次LLM就开始产生幻觉,一直给我无效的Code 07/17 00:54
44F:推 yueayase: 这样老板应该会火掉这些用AI效率变差的工程师吧? 07/17 02:00
45F:推 Murasaki0110: 大project需求要讲精确太难了 07/17 07:32
46F:→ Murasaki0110: 最好用就是临时要写个script或tool 07/17 07:32
47F:推 rereterry: 帮忙直接撰写验证部分其实满有帮助的,瞬间帮你配置好 07/17 10:54
48F:→ rereterry: 好,直接复制贴上就行了,其他的,只能说还是容易唬烂 07/17 10:54
49F:→ rereterry: ,需要重复检查 07/17 10:54
50F:推 viper9709: 大project需求要讲精确太难了+1 07/17 15:41
51F:推 jhjhs33504: 大project需求要讲精确的难度可能会比写好rust还高喔~ 07/17 18:56
52F:推 acgotaku: Cursor 想弃坑了 一直搞限速 降速 宁愿去充值 Claude 07/17 19:00
53F:→ xephon: 需求叫PM写 07/18 00:42
54F:推 louner: 用来写一些单纯但需要查查找找的snippet非常方便 大多一 07/18 06:54
55F:→ louner: 次就过 最起码让他写再改而不是全部自己写省了我不少精力 07/18 06:54
56F:→ louner: 上层想推只是裁员的藉口而已 但若真的能节省大量人力也不 07/18 06:55
57F:→ louner: 见得是坏事 因为创业门槛会降低 07/18 06:56
58F:推 louner: 就工作复杂程度来看 AI更能取代的应该是管理职 PM这类非I 07/18 07:00
59F:→ louner: C类型工作 但没人会洒钱资助这类研究 原因大家都知道 07/18 07:00
60F:→ acgotaku: cursor 在翻陈年老扣没文件 叫他解释某单元怎麽实作 07/18 14:09
61F:→ acgotaku: 怎麽呼叫 他的回传值长怎样 给个范例 还是超级好用 07/18 14:10
62F:推 NDark: 推楼上,老工程师的经验说会受到挑战 07/18 17:06
63F:推 wulouise: cursor可以画function内flow chart吗? 07/18 20:46
64F:推 guanting886: 现在ai 已经进步到你丢给他obfuscate过的code他还有 07/18 21:31
65F:→ guanting886: 办法解回来了 看没文件的程式码应该他蛮会猜的 至少 07/18 21:31
66F:→ guanting886: 缩短你通灵时间 07/18 21:31
67F:推 WWIII: 一直写需求就是pm的工作 当然不习惯 07/18 22:21
68F:推 Romulus: 我最近才用Claude和Gemini Pro疯狂通灵失败 都在胡说八道 07/19 01:16
69F:→ Romulus: 这研究是以老手写熟悉的前提 这边现在AI价值不高是真的 07/19 01:16
70F:→ Romulus: 写的人越不懂AI价值就越高 都懂了直接写code就好找AI干嘛 07/19 01:17
71F:推 abc01251: 对支持! 你们不要用 我用就好 07/19 01:18
72F:推 sowulo: 有时候一直反覆修正的时候都在想这个时间自己写早就写完了 07/19 20:03
73F:→ sowulo: 不过也确实人都不一定完全懂需求了 再多转一手给AI势必会 07/19 20:03
74F:→ sowulo: 再偏差更多 只能说还有一段路要走不管是人类如何使用AI或 07/19 20:03
75F:→ sowulo: 是AI本身 07/19 20:03
76F:推 xoyo: 现在的 AI 就是 Junior 甚至不到 07/19 21:18
77F:→ Obama19: 高手都改用claude code了 研究总是落後一步 07/19 23:20
78F:→ TSMCfabXX: 假设原本开发工作100分钟 使用 AI 可省 30分钟 07/19 23:54
79F:→ TSMCfabXX: 但因为要做新的精美投影片 来宣称 AI 加速的效果 07/19 23:54
80F:→ TSMCfabXX: 来回多花了半小时 07/19 23:54
81F:推 viper9709: 楼上XD 07/20 01:25
82F:推 jacklin2002: 每次跟AI讲,你这个地方错了,只会回:抱歉!您说的 07/20 08:19
83F:→ jacklin2002: 是对的,我再帮您...有够狗腿 07/20 08:19
84F:推 stepnight: 然後下次还是继续鬼打墙出错 07/20 09:25
85F:推 secrectlife: Ai做错了还会一副好像正确的样子 07/20 13:05
86F:推 Goodwater: AI写code bug无敌多 要一直无限修正 07/21 10:38
87F:→ strlen: 很多人以为自己写的code bug少喔 呵呵呵 是不是太看得起自 07/21 18:03
88F:→ strlen: 己啊 07/21 18:04
89F:→ strlen: 人类迟早要输的 大神就少数 绝大多数工程师 又慢 又粗心 07/21 18:04
90F:→ strlen: bug满天飞 写测试唉唉叫 改个设计推拖拉 有没有这种人?满 07/21 18:05
91F:→ strlen: 地都是 不要再骗自己了 你可能不是 但你同事呢 呵 07/21 18:05
92F:→ strlen: 软体最强的那几间 通通都在推AI 你以为你是谁啊 笑死 07/21 18:06
93F:→ strlen: 你公司的程式品质有那几间巨头好喔 说出来我笑笑 07/21 18:06
94F:→ strlen: 同样两人份需求 要你带一个一年以下的Jr跟给你无限次数的 07/21 18:07
95F:→ strlen: claude AI 想也知道哪个比较轻松 带人多痛苦啊 07/21 18:07
96F:→ strlen: 还工作效率降19%勒 不然来比 一个资深用AI 一个资深带Jr 07/21 18:08
97F:→ strlen: 来看看效率差多少 07/21 18:09
98F:→ strlen: 结果带Jr的 Jr也全都用AI写给你 哈哈哈哈 07/21 18:09
99F:→ lturtsamuel: jr 会学习啊 你公司差只找得到粪 jr 怪谁 不培育 jr 07/22 01:28
100F:→ lturtsamuel: 等老鸟都退了公司产品直接关起来? 07/22 01:28
101F:→ lturtsamuel: 如果真的追求极限效率 根据这篇的研究就是不要用ai也 07/22 01:32
102F:→ lturtsamuel: 不要找jr 叫老鸟自干 07/22 01:32
103F:→ ChungLi5566: 这些研究都过时了 AI每个月都在进步 07/24 22:32
104F:推 xluds24805: 一开始总要有学习时间吧 07/26 20:22
105F:推 Wishmaster: 太难评量了,AI也是需要调教的,开箱即用结果真的烂 07/27 11:37
106F:推 refusekkk: 回wulouise:现在AI可以从spec生出mermaid语法 算吗? 07/29 03:53
107F:推 qmailtw: 我拿 cursor 当高级 grep. 结果是不是乱掰? 一看就知道 08/09 13:12
108F:→ qmailtw: 。我基本上不用 ai 生 code, 但帮我读 code 能省下不少 08/09 13:12
109F:→ qmailtw: 时间。 08/09 13:12