Soft_Job 板


LINE

※ 引述《SkankHunt42 (凯子爸)》之铭言: : 推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数? 10/15 09:36 : → yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36 : → yamakazi: 才奇怪吧 10/15 09:36 : 没有要ㄉ一ㄤ谁的意思 : 就是这benchmark到底存不存在 现在的llms是以人类为基准做测试。swe-bench 就是人类做过了,看llms可不可以做。 https://github.com/SWE-bench/SWE-bench swe-bench是拿github已解决的issues来作为测试。 https://openai.com/index/introducing-swe-bench-verified/ swe-bench verified是把一些openai认为under specified的issues踢掉。就更容易自动化测试。 测试的题目,大部分都非常简单。15分钟内解决 例如variable referenced before assignment 或者parameter ignored。deprecation warning 普通有程度的人,大概可以90%+没问题。有问题的大致上是需要domain knowledges的。 例如 有些matrix的问题,你如果不熟,那不会做是正常的。 老实说,连东西的内容都不了解,就大谈特谈,我无话可讲 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 58.114.66.74 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1760659315.A.888.html
1F:→ DrTech: 专业。swe-bench就是人先做过的issue。swe-bench verified 10/17 08:34
2F:→ DrTech: 就是人再过滤一次,认为适合公平测试AI能力的工作。 10/17 08:34
3F:推 yamakazi: 本来就是拿有人做过的没问题啊,不然要怎麽对答案? 10/17 08:40
4F:→ yamakazi: 问题是没有拿来测人类平均解题水平 10/17 08:40
5F:→ yamakazi: 我当然知道这是有人做过的XD 10/17 08:41
6F:→ yamakazi: 你知道就连大学联考题目,也是给大一生做过才拿来考的吗 10/17 08:42
7F:→ yamakazi: XD 10/17 08:42
8F:→ yamakazi: 然後那个考的大一生,还要待在围场里等联考结束才跟出题 10/17 08:43
9F:→ yamakazi: 老师一起出闱 10/17 08:43
10F:推 DrTech: yamakazi说的对。问题在於swe-bench verified没看过单一测 10/17 08:49
11F:→ DrTech: 试者人类的解题成绩。不过好笑的又来了,swe-bench verifi 10/17 08:49
12F:→ DrTech: ed 没看过任何一个人类的成绩。yamakazi怎麽会在前几天认 10/17 08:49
13F:→ DrTech: 定人解得一定比较差? 自打嘴巴。 10/17 08:49
14F:推 yamakazi: 因为我用过ai工作跟我之前自己工作比较。之前比较难的功 10/17 09:15
15F:→ yamakazi: 能或虫都好几天才解完,现在有AI真的五到十分钟搞定 10/17 09:15
16F:推 yamakazi: 单算行数的话,我2018年左右平均一年进扣九千行,今年九 10/17 09:18
17F:→ yamakazi: 月我用claude 4 sonnet一个月进扣五万行 10/17 09:18
18F:→ yamakazi: 如果我下去跟AI比benchmark,我觉得我会惨败 10/17 09:18
19F:推 yamakazi: 我自己以前一年如果进超过一万五千行扣,就觉得蛮操的了 10/17 09:22
20F:→ yamakazi: ,现在一个月进口五万行还不觉得累 10/17 09:22
21F:推 yamakazi: 就像是你各位在高中大学时期,班上就是有那种强者,你从 10/17 09:29
22F:→ yamakazi: 日常跟他上课考试就知道这个人很强,我跟他比完全惨败, 10/17 09:29
23F:→ yamakazi: 不用等到比完联考你就知道他一定上台大医学系一样 10/17 09:29
24F:→ yamakazi: 那五万行我几乎每行都有review,几乎没有太大问题,光re 10/17 09:31
25F:→ yamakazi: view code比自己手刻轻松多了 10/17 09:31
26F:→ yamakazi: 而且他会自己make run,自己检查log完後出报告,很多时 10/17 09:32
27F:→ yamakazi: 候只要看他下个指令,看完他准备要下的指令後没问题按ye 10/17 09:32
28F:→ yamakazi: s就可以了 10/17 09:32
29F:→ brucetu: 能像你的专案一个月进扣五万行的应该不多,照你这速度五 10/17 10:07
30F:→ brucetu: 个人一个月异动二十万行 怎麽维护?你只是无脑用大量程 10/17 10:07
31F:→ brucetu: 式码把功能做过去 自己看不到问题就说AI没问题,老板会 10/17 10:07
32F:→ brucetu: 很喜欢你这种 因为你交差快,反正爆掉的时候你就知道, 10/17 10:07
33F:→ brucetu: 希望半年後你还有办法维护六个月前的那几十颗commit 10/17 10:07
34F:→ brucetu: 如果我的同事里面有人一个月进五万行扣 我会直接跟老板 10/17 10:08
35F:→ brucetu: 说这个超人把整份程式改写了现在只有他看得懂 这五万行 10/17 10:08
36F:→ brucetu: 我们其他人要花两个月研究,还是我们就让他一个人接手整 10/17 10:08
37F:→ brucetu: 个系统好了? 10/17 10:08
38F:推 Suleika: y说llm进code很快没说错阿,但这版很少提到真正会遇到问 10/17 10:11
39F:→ Suleika: 题的一直是全局trade off,效能调教,安全性检查...... 10/17 10:11
40F:→ brucetu: 哦 而且我的sonnet 4.5每次任务都会犯三四个奇怪的逻辑 10/17 10:15
41F:→ brucetu: 错误 所以我不知道你到底怎麽办到让AI一个月产生五万行没 10/17 10:15
42F:→ brucetu: 有问题的程式码,我感觉你要不是下指令之神应该出来开课 10/17 10:15
43F:→ brucetu: ,不然就是你真的看不到程式码里面的问题 10/17 10:15
44F:→ Suleika: 只要llm没有fine-tune过,不能靠reasoning解题,就还是工 10/17 10:16
45F:→ Suleika: 具 10/17 10:16
46F:→ Suleika: 还有他说的是一年5万...反驳都没看清楚 10/17 10:18
47F:推 richardz: 他明明说一个月五万...到底谁没看清楚... 10/17 10:20
48F:→ Suleika: 拍谢我没看清楚第二行,一个月5万是有点夸张就是了 10/17 10:21
49F:→ Suleika: 要看写的是啥 10/17 10:25
50F:→ brucetu: 我就是看到一个月五万 怕是我看错,反覆看了三五次他的留 10/17 10:27
51F:→ brucetu: 言,确定他是说本来一年九千现在一个月五万,如果他是写 10/17 10:27
52F:→ brucetu: 错了 我会更怀疑他有好好地看AI产出的扣吗?还是瞄一眼好 10/17 10:27
53F:→ brucetu: 像没大问题而且功能可以动就commit了 10/17 10:27
54F:推 yamakazi: 写systemC,就是要拼多啊,而且也没什麽安全性问题 10/17 10:29
55F:推 yamakazi: 我们有给他MD档,md 档里面有范例程式,你光下prompt当 10/17 10:33
56F:→ yamakazi: 然没那麽精准 10/17 10:33
57F:→ yamakazi: 我们各种md档加起来可能也快万行了,你prompt不可能讲那 10/17 10:34
58F:→ yamakazi: 麽详细 10/17 10:34
59F:推 yamakazi: 如果你发现AI常犯的错误,或是这次试错了好几次才正确, 10/17 10:36
60F:→ yamakazi: 你要叫他学起来就是叫他把这次的经验写进去md 档,大部 10/17 10:36
61F:→ yamakazi: 分md内容也是叫AI写不是我自己写 10/17 10:36
62F:推 selfvalue: 这串我关注很久 你跟Skaut大大讨论的内容都很不错 有 10/17 10:57
63F:→ selfvalue: 兴趣可以来我们网站发 10/17 10:57
64F:→ selfvalue: lesswrong.com 10/17 10:57
65F:→ selfvalue: jaan tallinn(skype联合创办人)跟eliezer yudkowsky都 10/17 10:59
66F:→ selfvalue: 有在网站写过相关的讨论串 可以注册後开一个讨论 很多 10/17 10:59
67F:→ selfvalue: 人会回 10/17 10:59
68F:→ selfvalue: 上来看看 10/17 11:00
69F:推 yamakazi: 一个月五万没错,不过把md档也算进去了,没特别分开算 10/17 11:14
70F:推 yamakazi: 举个例子,他以前常常忘了先make all就直接跑程式,可能 10/17 11:16
71F:→ yamakazi: 以为自己写的是python,我就叫他写在自己的md档里,以後 10/17 11:16
72F:→ yamakazi: 他改完扣就会自己make all and run了,不用特别再下prom 10/17 11:16
73F:→ yamakazi: pt 10/17 11:16
74F:→ selfvalue: 我们网站科技公司的老板(航太 耳机等等)跟顶尖科学家 10/17 11:34
75F:→ selfvalue: 工程师很多 但网站人数很少 欢迎来发言 10/17 11:34
76F:推 MoonCode: lesswrong 相比 reddit hackernews 有什麽特别的? 10/17 12:00
77F:推 selfvalue: lesswrong跟许多机构有直接的关系 像是miri/ open phi 10/17 12:19
78F:→ selfvalue: lanthropy 10/17 12:19
79F:→ MoonCode: 有关系能干嘛 不太懂 10/17 12:19
80F:→ selfvalue: 像是我们网站的成员Vitalik Buterin(大家应该都知道他 10/17 12:20
81F:→ selfvalue: 是谁)就有直接资持这些机构 10/17 12:20
82F:→ selfvalue: 他在上面叫vbuterin 可以看我们的排行榜 10/17 12:21
83F:→ selfvalue: https://www.lesswrong.com/leaderboard 10/17 12:22
84F:→ selfvalue: https://en.wikipedia.org/wiki/Vitalik_Buterin 10/17 12:31
85F:推 selfvalue: Artificial intelligence 10/17 12:32
86F:→ selfvalue: edit 10/17 12:32
87F:→ selfvalue: In May 2021, Buterin donated $665 million to the F 10/17 12:32
88F:→ selfvalue: uture of Life Institute, a nonprofit which, amongs 10/17 12:32
89F:→ selfvalue: t other things, seeks to mitigate the existential 10/17 12:32
90F:→ selfvalue: risk from artificial intelligence. Buterin worries 10/17 12:32
91F:→ selfvalue: that AI could become the new dominant species on 10/17 12:32
92F:→ selfvalue: Earth, and may "end humanity for good".[45] 10/17 12:32
93F:推 selfvalue: Future of Life Institute 10/17 12:33
94F:→ selfvalue: Logo of the Future of Life Institute 10/17 12:33
95F:→ selfvalue: Abbreviation 10/17 12:33
96F:→ selfvalue: FLI 10/17 12:33
97F:→ selfvalue: Formation 10/17 12:33
98F:→ selfvalue: March 2014; 11 years ago 10/17 12:33
99F:→ selfvalue: Founders 10/17 12:33
100F:→ selfvalue: Jaan Tallinn 10/17 12:33
101F:推 selfvalue: vitalik捐了六亿多美金的机构 founders 可以看看 第一 10/17 12:37
102F:→ selfvalue: 个也是lw活跃用户 10/17 12:37
103F:→ selfvalue: 就是skype创办人之一的jaan 10/17 12:38
104F:→ selfvalue: 他在网站上面叫jaan 10/17 12:39
105F:→ selfvalue: 在科技工作上的影响比较直接 10/17 12:39
106F:→ selfvalue: 我也很喜欢hackernews 那边也不错 10/17 12:41
107F:→ selfvalue: 上面讨论的比较倾向数学 可以看看网站介绍 比较奇怪一 10/17 12:43
108F:→ selfvalue: 点 10/17 12:43
109F:→ selfvalue: https://www.lesswrong.com/w/bayes-theorem 10/17 12:44
110F:→ selfvalue: https://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/ 10/17 12:47
111F:→ selfvalue: e-t-jaynes-probability-theory-the-logic-of-science 10/17 12:47
112F:→ selfvalue: -i 10/17 12:47
113F:→ selfvalue: 我们网站欢迎数学好的朋友 10/17 12:48
114F:→ selfvalue: 上面的文章都很朴实 也有比较普通的人上去聊数学跟科 10/17 13:09
115F:→ selfvalue: 技 10/17 13:09
116F:→ selfvalue: 不要看上面用户有人捐了几百亿台币那些 话题跟用户本 10/17 13:10
117F:→ selfvalue: 身没有什麽关系 大家都在聊数学相关话题 10/17 13:10
118F:→ selfvalue: vitalik是比较出色的网站成员之一 10/17 13:11
119F:→ selfvalue: 数学才是最重要的 10/17 13:13
120F:→ MoonCode: xD 好吧 我没有被说服 谢啦 10/17 13:48
121F:推 MoonCode: 10/17 13:49
122F:推 selfvalue: 上面有定期的聊天聚会 如果你是在欧美日本 可以上去看 10/17 13:57
123F:→ selfvalue: 日期 去聊天 10/17 13:57
124F:→ selfvalue: 一个Nasa的工作人员很爱办 可以去吃东西 带小狗过去玩 10/17 13:58
125F:→ selfvalue: 聊数学 10/17 13:58
126F:→ selfvalue: 比较小的 温馨的 10/17 14:01
127F:→ selfvalue: 我去过几次 看过不少同行 jaan, 火箭公司的老板 那些 10/17 14:02
128F:→ selfvalue: 人 比较温馨 10/17 14:02
129F:→ selfvalue: hackernews比较大 10/17 14:03
130F:→ selfvalue: 可以上去聊数学模型 论文那些 10/17 14:04
131F:→ viper9709: 一个月五万行@@ 10/17 17:56
132F:推 selfvalue: 上这网站我觉不错 10/17 18:35
133F:→ selfvalue: 上去写怎麽想 还有你怎麽用专业知识 10/17 18:36
134F:→ selfvalue: 然後在去见面会 10/17 18:36
135F:→ selfvalue: 这网站成员很多公司的外部专家== openai, Microsoft 10/17 18:37
136F:→ selfvalue: 那些 10/17 18:37
137F:→ selfvalue: 在上面答题也满有趣的 10/17 18:38
138F:→ selfvalue: 专业非常强可以去玩 10/17 18:38
139F:→ selfvalue: ^tesla也有 10/17 18:38
140F:→ selfvalue: 十年前网站讨论的事情 不少都陆陆续续被网站成员解决/ 10/17 18:45
141F:→ selfvalue: 实现 10/17 18:45
142F:→ selfvalue: 这一串很像上面会讨论的 很多人答的不错 10/17 18:46
143F:推 Romulus: 我家的Claude 4.5才一周进四千行 我大概要手动修五批 10/17 23:45
144F:→ Romulus: 众所皆知 一定是我prompt下太烂……XD 10/17 23:46
145F:→ Romulus: 我怎麽下prompt Claude都无法正确使用AWS SDK 想必我全责 10/17 23:48
146F:→ SkankHunt42: Claude 我已经弃了 听说现在其他工具更好用 10/17 23:58
147F:→ SkankHunt42: 而且Claude 订价偏贵就算了还不诚实 高级模型也是用 10/17 23:59
148F:→ SkankHunt42: 一下就没了 10/17 23:59
149F:→ Romulus: 都差不多啊 Gemini 2.5 Pro, GPT-5 都那样 10/18 00:00
150F:→ Romulus: 从来不觉得各主流模型间有什麽很本质上的差异 10/18 00:01
151F:→ Romulus: 顶多就偶而这题A解的比较好 那题只有B解的出来 之类的 10/18 00:01
152F:推 art1: 高见龙下班後用 AI 两个月产出十八万行程式码,一个月五万好 10/18 00:44
153F:→ art1: 像也还好,AI 产程式码的速度跟人比起来真是天上飞比地上爬 10/18 00:45
154F:推 quickey: 产归产,还是要review啊XD 10/18 07:20
155F:推 CRPKT: 领域不一样,硬比行数没有太大意义啦 10/19 09:33
156F:推 NDark: 楼楼上 我觉得测试与审查都会终将推到AI. 10/19 12:10
157F:→ NDark: 但是最终的问题还是回到 需求有没有被满足 10/19 12:11
158F:→ NDark: 问题的最後一定是有一个核心的问题 而不是只是炫技 10/19 12:11
159F:→ NDark: 如果只是炫技那麽市场上现在就是满满的AI影片 10/19 12:11
160F:→ NDark: 导致宣传影片的价值就跌到一个不值得的地步 10/19 12:12
161F:→ NDark: 宣传影片的品质也让观众觉得审美疲劳 10/19 12:12
162F:→ NDark: 因为产出那些东西成本都是三五块 10/19 12:12
163F:→ NDark: 所以"需求"才带来价值 所以使用者作为这个需求的起点 10/19 12:13
164F:→ NDark: 才是最终需要 测试/审查 的点 10/19 12:13
165F:→ newhandfun: 等AI可以帮工程师扛责任再叫我 10/21 11:20







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP