作者SkankHunt42 (凯子爸)
看板Soft_Job
标题Re: [请益] 软体失业是迟早的事吧
时间Wed Oct 15 11:19:56 2025
1F:推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数?10/15 09:36
2F:→ yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36
3F:→ yamakazi: 才奇怪吧10/15 09:36
没有要ㄉ一ㄤ谁的意思
就是这benchmark到底存不存在
小弟我相信 这一定是有论文的
找了一下
还真的有
https://arxiv.org/html/2501.16857v1
以下为AI翻译 并由我这个人脑节录:
1. 在本研究中,我们使用 GPT-4(OpenAI 於 2024 年 4 月前两周提供的版本)作为代表
性 LLM,针对 LLM 与人类生成的 Python 程式码,在各项效能指标上进行比较。
2. 该研究采用包含 72 项 Python 编码任务的基准数据集,这些任务涵盖了来自先前研究
[7]的各种软体工程问题。一位具有软体开发经验的计算机专业大四学生(人类程式设计
师)为这 72 项编码任务开发了程式码,同时使用 GPT-4(即 2024 年 4 月可用版本)
生成程式码样本,以产生对等的 LLM 输出。
3. 在编码标准评估中,Pylint 和 Radon 分析显示,虽然 LLM 生成与人工编写的程式码都
存在缺陷,但 LLM 更可能犯下可透过严格遵守编码标准来避免的错误。尽管程度较轻,
但研究中的 LLM(以及人类)有时会忽略编码风格和标准程序中的重要细节,这些细节对
於维护可读性和程式码品质至关重要。
4. 与人工生成的程式码相比,LLM 通常会产生具有更高循环复杂度的程式码。我们的结果表
明,LLM 倾向过度设计解决方案,这可能导致程式码更难维护,且在软体开发後期阶段更
容易出现错误。
5. LLM 生成的程式码在功能正确性测试中经常表现良好,证明了 LLMs 在自动化执行简单且
定义明确的编码任务上的实用性。相反地,在需要深厚领域专业知识或复杂问题解决能力
的任务中,人类程式设计师往往比 LLMs 表现更出色。
(编注:人类编写的程式码通过率为 54.9%,而 LLM 生成的程式码通过率达 87.3%)
要说这篇论文缺点是什麽的话
就是他只有一个大四学生当作人类基准
所以样本数非常不足 另外用的模型也是稍旧
欢迎质疑paper的人花钱花精力自己去做一次benchmark
学术界本来就是这样
总之结论大概就是: 就该文献的场景与数据来看 人类与LLM擅长的不同 优缺点不同
不过当手里只有锤子时,在某些人看起来,所有东西都像是钉子
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 84.17.34.45 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1760498398.A.055.html
4F:推 zyxx: 推 10/15 12:02
5F:推 SuGK: 推最後一句 10/15 12:10
7F:→ oopFoo: swe是蛮有参考性的。但还是有各种作弊方式,像上面就是某 10/15 13:45
8F:→ oopFoo: 个漏洞,被claude,qwen跟其它llms利用来获取更高分数。 10/15 13:46
9F:推 oopFoo: 但设计者说,分数其实不要互比,要自己比自己,互比参考 10/15 13:48
10F:→ oopFoo: 意义不大。因为....(原因太多,我懒的打了) 10/15 13:49
11F:→ DrTech: 你是在反串搞笑吗,这篇论文又不是 swe-bench verified 10/15 16:05
你有阅读障碍吗? 我可没说这是SWE bench啊XD
他推文写「人类自己都没有benchmark」我就找一个人机对比的benchmark paper来举例罗
12F:→ DrTech: 大厂用swe-bench verified是因为,这些题目才是真实工作时 10/15 16:29
13F:→ DrTech: 会遇到的情况。拿一篇品质更烂的论文,难以说明什麽新发现 10/15 16:29
14F:→ DrTech: 。 10/15 16:29
benchmark的方式又不只一种
重点是你今天到底是要比对人与模型的差异 还是要比对模型与模型的差异
所以我不知道你拘泥於单一观点想说明什麽 还是你也只会挥舞槌子而已
还有人与LLM比较benchmark的论文难写 估计就是实验难做&经费问题
用dataset去让各模型跑分比较更容易些
你觉得论文烂 论文作者至少还有实验精神
反而是某些人只会出一张嘴@@
※ 编辑: SkankHunt42 (146.70.205.60 日本), 10/15/2025 17:11:45
15F:推 yamakazi: XD 10/15 17:29
16F:推 yamakazi: 我体感觉得啦,本科刚毕业新人去做这个benchmark大概30 10/15 21:14
17F:→ yamakazi: 分左右 10/15 21:14
18F:推 viper9709: 最後一句XD 10/16 01:07
19F:嘘 DrTech: 论文就是拿一个没有参考价值不知名的题目,测一个大四学生 10/16 08:36
20F:→ DrTech: ,连研讨会都投不上。结果你把这种学生报告当成宝。 10/16 08:36
21F:→ DrTech: 会引用这种烂论文的人也只是出张嘴而已。外行人。 10/16 08:37
22F:→ DrTech: 第一句:没有要ㄉ一ㄤ谁的意思,结果推文拼命ㄉ一ㄤ。果然 10/16 08:40
23F:→ DrTech: 你手里有锤子的你,看到谁都在捶。 10/16 08:40
24F:→ DrTech: 拿出正常一点的论文,再来讨论啦,外行人又爱ㄉ一ㄤ别人。 10/16 08:41
25F:→ DrTech: 不知道原PO坚持发引用一篇,连研讨会都没上的低品质论文, 10/16 08:45
26F:→ DrTech: 是要强调或能证明什麽?还是纯粹故意引战ㄉ一ㄤ人? 10/16 08:45
我比较好奇DrTech是在哪高就 一定很内行
小弟不才 公司就卖卖显卡的上市公司而已
你待的公司一定很屌你职位一定很内行对吧
我觉得我上面已经说得很清楚了 为什麽这样的论文难找
就是经费问题 大部分学生连填问券抽奖做论文 参与的人都兴致缺缺了
首先你要找多少工程师?这些工程师要代表怎样的群体?
要付你多少钱你才愿意抽空做题目只为了让人发论文?
题目是否具有公平性能准确涵盖这些工程师的能力范围又不失偏颇?
SWE-bench是gold standard没错 但目前就是没有找到人类参与比较的数据
(甚至要怎麽比才有代表性都有问题)
我提这篇论文 是看过这篇论文觉得满有趣的 至少是一个方法
也可能我烂 我找不到好的论文
当我们在讨论有没有benchmark可以比较人类与LLM解决工程问题时
我确实拿了一篇不怎样的论文 虽然样本数只有一 但至少是一个实验、一个方向
不过我现在只看到一个巨婴躺在地上打滚
这不是SWE-bench~ 这不是SWE-bench~ 哇~~~~~ 哇~~~~ ToT
然後转头又要别人找论文
奇怪 现在网路打脸人的方式已经不是自己找到更好、更具参考价值的论文或数据
而是一直叫人举证 好像他是我指导教授还口委一样
他作为质疑者唯一的工作就是在推文里出一张嘴
这就是所谓的内行吗
27F:→ angusyu: 我听到玻璃碎掉的声音,不知道怎麽回事 10/16 09:58
28F:推 jack0204: 我有点看不懂在吵什麽?感觉主题歪了 10/16 10:12
29F:推 Romulus: 人类没办法copy而且方差太大 测benchmark就没啥意义这样 10/16 10:59
30F:推 Romulus: 把可以复制并且表现都差不多的工具和不具备重现性的人类 10/16 11:01
31F:→ Romulus: 用同一种评估方式就没啥实用价值 俗称做身体健康的 10/16 11:02
32F:推 Romulus: 本质应该和试证明理科生已坠入情网差不多 10/16 11:05
33F:→ Romulus: 一本正经讲干话 但是其实也没那麽干话那种感觉( 10/16 11:05
※ 编辑: SkankHunt42 (154.47.23.99 日本), 10/16/2025 12:32:55
34F:推 cc2006: 原po找一个没什麽参考价值的论文来说服别人,别人提出反 10/16 12:56
35F:→ cc2006: 对意见也很合理吧 10/16 12:56
我是对y的推文「是否存在对人类的benchmark」做出回应
考虑到这是在讨论LLM与人类性能的比较 所以我认为题目具体为
「是否存在於同时能同时评估LLM与人类解决工程问题的benchmark」
有没有这样的benchmark存在?
答案是: 有
而该论文的题目来源是参考自:
Y. Feng et al. (2023). ”Investigating Code Generation Performance of ChatGPT
with Crowdsourcing Social Data,” in Proceedings of the IEEE 47th Annual
Computers, Software, and Applications Conference (COMPSAC), Torino, Italy,
pp. 876-885.
这是一篇被引用172次的的论文所用的dataset
72笔prompt的题目 dataset在这里:
https://yunhefeng.me/research/Compsac_ChatGPT_Python_Prompt_Code/
老实讲前一篇推文吵得那一串我根本没打算说服哪一方
我原文也讲了 人与LLM擅长的不同 在我看来这跟吵脚踏车跟机车哪个好差不多
那现在问题来了 这篇论文烂在哪?总要有个具体论述吧
除了
我原文已经提到的人类样本数只有一以外
我好像找不到其他任何具体的批判
是对实验方法有具体的批判?
还是对一篇被被引用172次的论文的dataset有具体的批判?
SWE-bench的题目数量有两千多笔 lite版有300道
不拿full 你拿lite 你要找好几个工程师去做300道题目
我只能讲这如果有这样的数据那还满屌的 我也很想看
不要讲300题 72道题目请板上各位年薪三百万的工程师 大家要怎样的条件才会用心写完
抽150元点卡或两百元711礼券好不好
就.... 脑袋能不能实际一点?
※ 编辑: SkankHunt42 (146.70.205.140 日本), 10/16/2025 14:03:51
36F:推 Romulus: 就研究没啥问题 只是没办法应用而已 10/16 14:24
37F:→ Romulus: DrTech什麽时候会给你具体的批评了 10/16 14:24
我其实比较纳闷 DrTech好歹是有博士学位的人
怎麽可能对这样的测验数据到底成本有多高一点概念都没有
我原本就只是针对到底有没有这样的benchmark方法存在 提出存在的事实
结果好像被他误解成我要参与他们无聊的笔战说服另一方
奇怪 我原文到底是哪里有选边站@@
我是期望本板少数的博士能够PO出更优质的论文啦
这对DrTech应该不难 对吧 博士
38F:推 yamakazi: 推,我的论点也是差不多这样,人类方提不出分数,目前唯 10/16 16:58
39F:→ yamakazi: 一的论文看起来又是AI胜,然後人类方一直纠结你分数只有 10/16 16:58
40F:→ yamakazi: 82没到99不能用笑死 10/16 16:58
41F:推 yamakazi: 就跟围棋一样吧,搞不好Kaggle leetcode周赛已经偷偷有A 10/16 17:01
42F:→ yamakazi: I在打了,之後再学围棋办一个大奖赛,公开挑战leetcode 10/16 17:01
43F:→ yamakazi: 排名前十的人类,奖金一高自然有人参赛 10/16 17:01
44F:推 yamakazi: 那三百题给本科新人写一天搞不好都没办法完成一题 10/16 17:14
45F:→ yamakazi: 以前没AI时,难一点的功能或虫我都要好几天了,现在变成 10/16 17:16
46F:→ yamakazi: 五到十分钟 10/16 17:16
※ 编辑: SkankHunt42 (149.22.87.3 日本), 10/16/2025 17:37:13
47F:推 yamakazi: 而且我後来看那个bench,看起来没有人类介入,我的经验 10/16 17:52
48F:→ yamakazi: 是,一边看他改扣一边跟他对话,有问题指出来他几乎可以 10/16 17:52
49F:→ yamakazi: 马上改好,甚至有时候只要跟他讲遇到的问题,他自己会找 10/16 17:52
50F:→ yamakazi: 到原因 10/16 17:52
51F:推 yamakazi: 那个82分要是有人类介入对话,说不定可以更高 10/16 17:59
52F:推 abraxas: 「我的论点也是差不多这样」XDD 10/16 18:44
53F:推 yamakazi: 楼上你也可以提出你关於使用AI的感想或论点 10/16 19:16
54F:推 viper9709: 推抽礼券都没人要写了+1 XD 10/16 21:00
55F:推 ripple0129: 不要激动,在这版po文没被酸过的都不算老 10/17 03:06
56F:→ DrTech: 原PO好爱ㄉ一ㄤ人喔。果然手里拿着锤子的人,就是爱捶人。 10/17 08:38
57F:→ DrTech: 内文与推文,,只看到原PO一堆人身攻击,不让别人发表不同 10/17 08:40
58F:→ DrTech: 看法。没看到AI到底能不能赢人类。 10/17 08:40
所以我真的怀疑你有阅...唉 算了算了 继续ㄉㄧㄤ下去没完没了
整串下来我强调:人类与LLM各有优缺点
不管是我节录的论文内容 还是我做的总结 都是我原文就有的内容
就事实跟目前的数据 我看到的事实是"有些地方AI赢人类 有些地方人类赢AI"
这个事实有很难接受吗
你也不是不可能不知道吧
就"AI赢人类"这个问题的 怎样算赢?是要全盘辗压算赢吗?
还是你们单就通过率讨论?那时间要不算进去评分的项目里?
就.... 你不觉得这个你这个题目很抽象吗?
59F:推 DrTech: 就事论事,我欣赏原PO有自己独立想法,为自己论点持续讨论 10/17 08:44
60F:→ DrTech: 的态度,但一直人身攻击可以省下来。原来卖显卡公司收了这 10/17 08:44
61F:→ DrTech: 种,到处人身攻击的员工喔,笑死。 10/17 08:44
我可以帮你整理一下时间顺序:
你批评我搞笑反串→我说你有阅读障碍→你说我外行→我说你巨婴
我觉得好像是你开第一枪的耶XD
我最开始的原文可是半个字都没提到你
在你们吵架的推文串我也只有发表一句无关紧要的干话
还是你在公司开会的时候 下属发表意见不合你意你也马上ㄉㄧㄤ: 你是在反串搞笑吗
不过这很正常啦 你在公司不可能这样酸下属 我在公司也不会这样呛同事
我欣赏你业界十几二十年的坚实经验、外加学历漂亮还是上市公司的主管,在本板也乐
於分享跟发表有价值的看法。但我觉得先开呛的人好像要有接受被呛的心理准备吧XD
我相信你应该不是那种自己动手还要求别人不能还手的流氓吧?
※ 编辑: SkankHunt42 (155.2.216.14 日本), 10/17/2025 11:52:20
62F:嘘 DrTech: 原来买显卡公司的员工那麽爱呛人喔,你是不是流氓啊? 10/17 13:34
63F:→ DrTech: 不专业的论文,本来就不用参考。参考就是外行人。外行人也 10/17 13:36
64F:→ DrTech: 不是攻击啊,是事实描述而已。巨婴,流氓,这种非事实描述 10/17 13:36
65F:→ DrTech: 的人身攻击真的省省。 10/17 13:36
66F:→ SkankHunt42: 所以DrTech你可以回答一下,在你於本文中第一则推文 10/17 13:37
67F:→ SkankHunt42: 前,我有任何攻击你的地方吗? 10/17 13:37
68F:嘘 DrTech: 赢一个大四生=有些地方赢人类?全人类都算大四生喔。那麽 10/17 13:39
69F:→ DrTech: 不专业的逻辑,真的是卖显卡公司该有的水准吗。 10/17 13:39
70F:→ SkankHunt42: 所以我一直问你输赢到底怎麽算阿XD 10/17 13:41
71F:→ SkankHunt42: 那这样讲,生成一个leetcode medium题目程式码的速度 10/17 13:42
72F:→ SkankHunt42: 人类可以赢LLM吗? 10/17 13:42
73F:→ SkankHunt42: 你如果需要,我很乐意找数据给你 10/17 13:42
74F:→ SkankHunt42: 那我找到了你会承认LLM有些地方赢人类吗?还是你要继 10/17 13:43
75F:→ SkankHunt42: 续找其他漏洞? 10/17 13:43
76F:→ SkankHunt42: 还有澄清一下,我可没说你是流氓,我写的是我相信你 10/17 13:47
77F:→ SkankHunt42: 该不是。还是你觉得自己是那种只准自己动手不准别人 10/17 13:47
78F:→ SkankHunt42: 还手的人? 10/17 13:48
79F:→ SkankHunt42: 只会索求跟无理取闹的人就是巨婴,我好像也只是在做 10/17 13:53
80F:→ SkankHunt42: 事实陈述而已 10/17 13:53
81F:推 Suleika: 帮推 软工板就得贡贡人互锤才精彩 10/17 15:36
82F:推 dream1124: 推最後一句 10/17 23:50
83F:→ red0210: 原论文的第一作者生涯总引用数破千,论文放 arXiv 也未 11/18 19:56
84F:→ red0210: 必是投不上研讨会 11/18 19:56