Soft_Job 板


LINE

※ 引述《oopFoo (3d)》之铭言: : ※ 引述《SkankHunt42 (凯子爸)》之铭言: : : 推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数? 10/15 09:36 : : → yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36 : : → yamakazi: 才奇怪吧 10/15 09:36 : : 没有要ㄉ一ㄤ谁的意思 : : 就是这benchmark到底存不存在 : 现在的llms是以人类为基准做测试。swe-bench 就是人类做过了,看llms可不可以做。 : https://github.com/SWE-bench/SWE-bench : swe-bench是拿github已解决的issues来作为测试。 : https://openai.com/index/introducing-swe-bench-verified/ 我觉得单纯大家讨论的没有共通基准线而已 Leetcode跟codeforces所有的问题人类自己做过而且已经有解答的 那我们也不挑hard的题目 我是否可以说medium题目人类参赛者的基准就是通过率100%? 如果我说人类表现,我会看常态分布的数据,而不是所有人的最高得分 对「用户通过率」「提交通过率」、「平均所需解题时间」做出分析 : swe-bench verified是把一些openai认为under specified的issues踢掉。就更容易自动 : 测试的题目,大部分都非常简单。15分钟内解决 : 例如variable referenced before assignment : 或者parameter ignored。deprecation warning : 普通有程度的人,大概可以90%+没问题。有问题的大致上是需要domain knowledges的。 15min~1hour的题目目前在verified中有261题 已经是过半数的程度了 您所所说的 "小於15分钟的题目" 数量是194题 大约2/5不到 整体分布的话 15分钟以上的题目其实才是过半的存在 另外 variable referenced before assignment, parameter ignored, deprecation warning 这些问题确实可能90%+有经验的工程师完全没有问题 但除了这些问题以外的呢? 我觉得各位可能也猜不出一个比率 在ooFoo给出的openai连结中有这麽一段话: As supplementary information (not used for dataset filtering), we further ask annotators to estimate how much time it would take an experienced software engineer who has had a few hours to familiarize themselves with the codebase to write a patch solving the issue. 翻译成中文就是: 我们进一步请标注者估算一位有经验的软体工程师在花费几小时熟悉程式码库後,撰写修 复问题的补丁所需时间。 所以OpenAI的假设前提是「这个有经验的工程师实际上是已经花费几小时事先熟悉 codebase」作为基准,而不是随便找一个有经验的python工程师叫他直接上就能用 同样的时间干出来 就我来看 15min~1hour的题目: https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified dataset的内容 其中一题 https://github.com/astropy/astropy/issues/13235 这题被评估需要15min~1hour 虽然相应的PR是删除code 但我想你还是需要对专案有基础的了解 才能看懂讨论 或者至少 你应该要有numpy的基础功力吧? https://code.djangoproject.com/ticket/30608 https://github.com/django/django/pull/11532/files 这题也是15min~1hour的题目 这种题目 你至少也需要有encoding相关的知识还有专案的熟悉度 这算不算需要一点domain知识? 另外请注意:类似这样难度甚至以上的题目占比3/5而且横跨12个专案 https://www.swebench.com/ 还有目前分数榜来看 甚至还有算出平均所需的token金钱成本 那我在评估人类的时候 是否要计算他的时间成本?时间是否列入评估的基准? 如果依照openai设计的难易度评估基准,这些工程师是针对个别专案有一定熟悉度的 所以各位讨论所谓"人类基准",到底是: 1. 同样水准的人类在各领域的统合表现 (我在我们班 我数学考0分国文80分, 他数学100分国文60分, 所以我们班的水准是数学100分国文80分) 2. 在同领域具备相同范围年资或经验与专案熟悉度的人所展现的平均表现 3. 不管领域,我就从senior中随机挑五百人做样本 如果有人觉得基准是1,那也没问题,那就是你跟我讨论的基准与定义不同。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 155.2.216.14 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1760678990.A.2B4.html ※ 编辑: SkankHunt42 (149.22.87.54 日本), 10/17/2025 21:44:57
1F:推 Romulus: y的基准很明显是 4.不管啦人类就是比AI烂 吧 10/17 23:56
※ 编辑: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:01:11 ※ 编辑: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:05:06
2F:推 oopFoo: ai有ai的好处,例如github都训练过了。知识非常渊博,但 10/18 10:21
3F:→ oopFoo: 无判断能力(不想在这争辩,这但书太多)。所以ai很快,但 10/18 10:23
4F:→ oopFoo: 需要人类引导。人类需要时间学新的code base,但能有效 10/18 10:25
5F:→ oopFoo: 解决问题。今天ai发展的方向不对,应该ai帮忙解释程式码, 10/18 10:27
6F:→ oopFoo: 让人来写程式码。ai解释不见的正确,但会加速人类的学习 10/18 10:28
7F:→ oopFoo: 速度。其实大家经验这麽久了,写程式的时间可能1/10都不到 10/18 10:28
8F:→ oopFoo: 大部分时间都是想问题,找解决方式,跟其它人沟通。然後 10/18 10:29
9F:→ oopFoo: 现在ai强调写程式,但我看来是最不适合的位置。但真正花 10/18 10:30
10F:→ oopFoo: 时间,而ai可以帮忙的,反而发展很慢。当然这跟ai要取代 10/18 10:33
11F:→ oopFoo: 人类的hype有关。但llms发展这麽久了,llms的优缺点其实 10/18 10:34
12F:→ oopFoo: 都蛮清楚了。这些benchmark就算比了,也没太大意义。人类 10/18 10:36
13F:→ oopFoo: 有判断能力,ai知识渊博(但会hallucination),找出好的配 10/18 10:38
14F:→ oopFoo: 合,才是避免ai泡沫的方法。 10/18 10:42
15F:→ SkankHunt42: 你讲的我完全同意,人脑跟LLM各有优缺,这也是我一直 10/18 12:03
16F:→ SkankHunt42: 在强调的 10/18 12:03
17F:推 viper9709: oopFoo讲得有道理 10/18 15:58
18F:推 ripple0129: 工程师难免用工程师思维,AI服务的不只是工程师,反 10/19 06:16
19F:→ ripple0129: 而9成以上不是工程师。怎麽会是要AI教学自己来写扣呢 10/19 06:16
20F:→ ripple0129: 。本来发展方向就是AI代写扣没错。反而是专业领域或 10/19 06:16
21F:→ ripple0129: 许可以用小众专业AI教工程师写扣,大众使用的没什麽 10/19 06:16
22F:→ ripple0129: 大问题,只是大众多数来说需求都讲不清楚。 10/19 06:16
23F:推 Romulus: 就是这样啊 但是行销这样讲吹不出泡沫 然後有些人就 10/19 15:06
24F:→ Romulus: 超好带…… 10/19 15:06
25F:推 CaptainH: 我不懂为什麽要纠结vibe coding会不会造成失业,现在美 10/20 01:40
26F:→ CaptainH: 国的状况就是CS的new grad找工作如地狱难度, 因为LLM几 10/20 01:40
27F:→ CaptainH: 乎等於2-3年经验的junior, 以致於录取门槛大大提昇 10/20 01:41
28F:推 dream1124: 推 oopFoo 的见解,可惜这里有些只想无脑洗 AI>humans 10/22 17:22
29F:→ dream1124: 这样若说他们的表现说明 AI > humans 好像也没错, 10/22 17:23
30F:→ dream1124: 毕竟你直接请 AI 比较它都不会给这麽无聊的见解。 10/22 17:24







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP