作者SkankHunt42 (凯子爸)
看板Soft_Job
标题Re: [请益] 软体失业是迟早的事吧
时间Fri Oct 17 13:29:45 2025
※ 引述《oopFoo (3d)》之铭言:
: ※ 引述《SkankHunt42 (凯子爸)》之铭言:
: : 推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数? 10/15 09:36
: : → yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36
: : → yamakazi: 才奇怪吧 10/15 09:36
: : 没有要ㄉ一ㄤ谁的意思
: : 就是这benchmark到底存不存在
: 现在的llms是以人类为基准做测试。swe-bench 就是人类做过了,看llms可不可以做。
: https://github.com/SWE-bench/SWE-bench
: swe-bench是拿github已解决的issues来作为测试。
: https://openai.com/index/introducing-swe-bench-verified/
我觉得单纯大家讨论的没有共通基准线而已
Leetcode跟codeforces所有的问题人类自己做过而且已经有解答的
那我们也不挑hard的题目
我是否可以说medium题目人类参赛者的基准就是通过率100%?
如果我说人类表现,我会看常态分布的数据,而不是所有人的最高得分
对「用户通过率」「提交通过率」、「平均所需解题时间」做出分析
: swe-bench verified是把一些openai认为under specified的issues踢掉。就更容易自动
: 测试的题目,大部分都非常简单。15分钟内解决
: 例如variable referenced before assignment
: 或者parameter ignored。deprecation warning
: 普通有程度的人,大概可以90%+没问题。有问题的大致上是需要domain knowledges的。
15min~1hour的题目目前在verified中有261题 已经是过半数的程度了
您所所说的 "小於15分钟的题目" 数量是194题 大约2/5不到
整体分布的话
15分钟以上的题目其实才是过半的存在
另外
variable referenced before assignment, parameter ignored, deprecation warning
这些问题确实可能90%+有经验的工程师完全没有问题
但除了这些问题以外的呢? 我觉得各位可能也猜不出一个比率
在ooFoo给出的openai连结中有这麽一段话:
As supplementary information (not used for dataset filtering), we further ask
annotators to estimate
how much time it would take an experienced software
engineer who has had a few hours to familiarize themselves with the codebase
to write a patch solving the issue.
翻译成中文就是:
我们进一步请标注者估算一位有经验的软体工程师在花费几小时熟悉程式码库後,撰写修
复问题的补丁所需时间。
所以OpenAI的假设前提是「这个有经验的工程师实际上是已经花费几小时事先熟悉
codebase」作为基准,而不是随便找一个有经验的python工程师叫他直接上就能用
同样的时间干出来
就我来看 15min~1hour的题目:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
dataset的内容 其中一题
https://github.com/astropy/astropy/issues/13235
这题被评估需要15min~1hour
虽然相应的PR是删除code 但我想你还是需要对专案有基础的了解 才能看懂讨论
或者至少 你应该要有numpy的基础功力吧?
https://code.djangoproject.com/ticket/30608
https://github.com/django/django/pull/11532/files
这题也是15min~1hour的题目
这种题目 你至少也需要有encoding相关的知识还有专案的熟悉度
这算不算需要一点domain知识?
另外请注意:
类似这样难度甚至以上的题目占比3/5而且横跨12个专案
https://www.swebench.com/
还有目前分数榜来看 甚至还有算出平均所需的token金钱成本
那我在评估人类的时候 是否要计算他的时间成本?时间是否列入评估的基准?
如果依照openai设计的难易度评估基准,这些工程师是针对个别专案有一定熟悉度的
所以各位讨论所谓"人类基准",到底是:
1. 同样水准的人类在各领域的统合表现
(我在我们班 我数学考0分国文80分, 他数学100分国文60分,
所以我们班的水准是数学100分国文80分)
2. 在同领域具备相同范围年资或经验与专案熟悉度的人所展现的平均表现
3. 不管领域,我就从senior中随机挑五百人做样本
如果有人觉得基准是1,那也没问题,那就是你跟我讨论的基准与定义不同。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 155.2.216.14 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1760678990.A.2B4.html
※ 编辑: SkankHunt42 (149.22.87.54 日本), 10/17/2025 21:44:57
1F:推 Romulus: y的基准很明显是 4.不管啦人类就是比AI烂 吧 10/17 23:56
※ 编辑: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:01:11
※ 编辑: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:05:06
2F:推 oopFoo: ai有ai的好处,例如github都训练过了。知识非常渊博,但 10/18 10:21
3F:→ oopFoo: 无判断能力(不想在这争辩,这但书太多)。所以ai很快,但 10/18 10:23
4F:→ oopFoo: 需要人类引导。人类需要时间学新的code base,但能有效 10/18 10:25
5F:→ oopFoo: 解决问题。今天ai发展的方向不对,应该ai帮忙解释程式码, 10/18 10:27
6F:→ oopFoo: 让人来写程式码。ai解释不见的正确,但会加速人类的学习 10/18 10:28
7F:→ oopFoo: 速度。其实大家经验这麽久了,写程式的时间可能1/10都不到 10/18 10:28
8F:→ oopFoo: 大部分时间都是想问题,找解决方式,跟其它人沟通。然後 10/18 10:29
9F:→ oopFoo: 现在ai强调写程式,但我看来是最不适合的位置。但真正花 10/18 10:30
10F:→ oopFoo: 时间,而ai可以帮忙的,反而发展很慢。当然这跟ai要取代 10/18 10:33
11F:→ oopFoo: 人类的hype有关。但llms发展这麽久了,llms的优缺点其实 10/18 10:34
12F:→ oopFoo: 都蛮清楚了。这些benchmark就算比了,也没太大意义。人类 10/18 10:36
13F:→ oopFoo: 有判断能力,ai知识渊博(但会hallucination),找出好的配 10/18 10:38
14F:→ oopFoo: 合,才是避免ai泡沫的方法。 10/18 10:42
15F:→ SkankHunt42: 你讲的我完全同意,人脑跟LLM各有优缺,这也是我一直 10/18 12:03
16F:→ SkankHunt42: 在强调的 10/18 12:03
17F:推 viper9709: oopFoo讲得有道理 10/18 15:58
18F:推 ripple0129: 工程师难免用工程师思维,AI服务的不只是工程师,反 10/19 06:16
19F:→ ripple0129: 而9成以上不是工程师。怎麽会是要AI教学自己来写扣呢 10/19 06:16
20F:→ ripple0129: 。本来发展方向就是AI代写扣没错。反而是专业领域或 10/19 06:16
21F:→ ripple0129: 许可以用小众专业AI教工程师写扣,大众使用的没什麽 10/19 06:16
22F:→ ripple0129: 大问题,只是大众多数来说需求都讲不清楚。 10/19 06:16
23F:推 Romulus: 就是这样啊 但是行销这样讲吹不出泡沫 然後有些人就 10/19 15:06
24F:→ Romulus: 超好带…… 10/19 15:06
25F:推 CaptainH: 我不懂为什麽要纠结vibe coding会不会造成失业,现在美 10/20 01:40
26F:→ CaptainH: 国的状况就是CS的new grad找工作如地狱难度, 因为LLM几 10/20 01:40
27F:→ CaptainH: 乎等於2-3年经验的junior, 以致於录取门槛大大提昇 10/20 01:41
28F:推 dream1124: 推 oopFoo 的见解,可惜这里有些只想无脑洗 AI>humans 10/22 17:22
29F:→ dream1124: 这样若说他们的表现说明 AI > humans 好像也没错, 10/22 17:23
30F:→ dream1124: 毕竟你直接请 AI 比较它都不会给这麽无聊的见解。 10/22 17:24