Soft_Job 板


LINE

※ 引述《SkankHunt42 (凱子爸)》之銘言: : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36 : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36 : → yamakazi: 才奇怪吧 10/15 09:36 : 沒有要ㄉ一ㄤ誰的意思 : 就是這benchmark到底存不存在 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。 https://github.com/SWE-bench/SWE-bench swe-bench是拿github已解決的issues來作為測試。 https://openai.com/index/introducing-swe-bench-verified/ swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。 測試的題目,大部分都非常簡單。15分鐘內解決 例如variable referenced before assignment 或者parameter ignored。deprecation warning 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。 例如 有些matrix的問題,你如果不熟,那不會做是正常的。 老實說,連東西的內容都不了解,就大談特談,我無話可講 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1760659315.A.888.html
1F:→ DrTech: 專業。swe-bench就是人先做過的issue。swe-bench verified 10/17 08:34
2F:→ DrTech: 就是人再過濾一次,認為適合公平測試AI能力的工作。 10/17 08:34
3F:推 yamakazi: 本來就是拿有人做過的沒問題啊,不然要怎麼對答案? 10/17 08:40
4F:→ yamakazi: 問題是沒有拿來測人類平均解題水平 10/17 08:40
5F:→ yamakazi: 我當然知道這是有人做過的XD 10/17 08:41
6F:→ yamakazi: 你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎 10/17 08:42
7F:→ yamakazi: XD 10/17 08:42
8F:→ yamakazi: 然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題 10/17 08:43
9F:→ yamakazi: 老師一起出闈 10/17 08:43
10F:推 DrTech: yamakazi說的對。問題在於swe-bench verified沒看過單一測 10/17 08:49
11F:→ DrTech: 試者人類的解題成績。不過好笑的又來了,swe-bench verifi 10/17 08:49
12F:→ DrTech: ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認 10/17 08:49
13F:→ DrTech: 定人解得一定比較差? 自打嘴巴。 10/17 08:49
14F:推 yamakazi: 因為我用過ai工作跟我之前自己工作比較。之前比較難的功 10/17 09:15
15F:→ yamakazi: 能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定 10/17 09:15
16F:推 yamakazi: 單算行數的話,我2018年左右平均一年進扣九千行,今年九 10/17 09:18
17F:→ yamakazi: 月我用claude 4 sonnet一個月進扣五萬行 10/17 09:18
18F:→ yamakazi: 如果我下去跟AI比benchmark,我覺得我會慘敗 10/17 09:18
19F:推 yamakazi: 我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了 10/17 09:22
20F:→ yamakazi: ,現在一個月進口五萬行還不覺得累 10/17 09:22
21F:推 yamakazi: 就像是你各位在高中大學時期,班上就是有那種強者,你從 10/17 09:29
22F:→ yamakazi: 日常跟他上課考試就知道這個人很強,我跟他比完全慘敗, 10/17 09:29
23F:→ yamakazi: 不用等到比完聯考你就知道他一定上台大醫學系一樣 10/17 09:29
24F:→ yamakazi: 那五萬行我幾乎每行都有review,幾乎沒有太大問題,光re 10/17 09:31
25F:→ yamakazi: view code比自己手刻輕鬆多了 10/17 09:31
26F:→ yamakazi: 而且他會自己make run,自己檢查log完後出報告,很多時 10/17 09:32
27F:→ yamakazi: 候只要看他下個指令,看完他準備要下的指令後沒問題按ye 10/17 09:32
28F:→ yamakazi: s就可以了 10/17 09:32
29F:→ brucetu: 能像你的專案一個月進扣五萬行的應該不多,照你這速度五 10/17 10:07
30F:→ brucetu: 個人一個月異動二十萬行 怎麼維護?你只是無腦用大量程 10/17 10:07
31F:→ brucetu: 式碼把功能做過去 自己看不到問題就說AI沒問題,老闆會 10/17 10:07
32F:→ brucetu: 很喜歡你這種 因為你交差快,反正爆掉的時候你就知道, 10/17 10:07
33F:→ brucetu: 希望半年後你還有辦法維護六個月前的那幾十顆commit 10/17 10:07
34F:→ brucetu: 如果我的同事裡面有人一個月進五萬行扣 我會直接跟老闆 10/17 10:08
35F:→ brucetu: 說這個超人把整份程式改寫了現在只有他看得懂 這五萬行 10/17 10:08
36F:→ brucetu: 我們其他人要花兩個月研究,還是我們就讓他一個人接手整 10/17 10:08
37F:→ brucetu: 個系統好了? 10/17 10:08
38F:推 Suleika: y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問 10/17 10:11
39F:→ Suleika: 題的一直是全局trade off,效能調教,安全性檢查...... 10/17 10:11
40F:→ brucetu: 哦 而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯 10/17 10:15
41F:→ brucetu: 錯誤 所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒 10/17 10:15
42F:→ brucetu: 有問題的程式碼,我感覺你要不是下指令之神應該出來開課 10/17 10:15
43F:→ brucetu: ,不然就是你真的看不到程式碼裡面的問題 10/17 10:15
44F:→ Suleika: 只要llm沒有fine-tune過,不能靠reasoning解題,就還是工 10/17 10:16
45F:→ Suleika: 具 10/17 10:16
46F:→ Suleika: 還有他說的是一年5萬...反駁都沒看清楚 10/17 10:18
47F:推 richardz: 他明明說一個月五萬...到底誰沒看清楚... 10/17 10:20
48F:→ Suleika: 拍謝我沒看清楚第二行,一個月5萬是有點誇張就是了 10/17 10:21
49F:→ Suleika: 要看寫的是啥 10/17 10:25
50F:→ brucetu: 我就是看到一個月五萬 怕是我看錯,反覆看了三五次他的留 10/17 10:27
51F:→ brucetu: 言,確定他是說本來一年九千現在一個月五萬,如果他是寫 10/17 10:27
52F:→ brucetu: 錯了 我會更懷疑他有好好地看AI產出的扣嗎?還是瞄一眼好 10/17 10:27
53F:→ brucetu: 像沒大問題而且功能可以動就commit了 10/17 10:27
54F:推 yamakazi: 寫systemC,就是要拼多啊,而且也沒什麼安全性問題 10/17 10:29
55F:推 yamakazi: 我們有給他MD檔,md 檔裡面有範例程式,你光下prompt當 10/17 10:33
56F:→ yamakazi: 然沒那麼精準 10/17 10:33
57F:→ yamakazi: 我們各種md檔加起來可能也快萬行了,你prompt不可能講那 10/17 10:34
58F:→ yamakazi: 麼詳細 10/17 10:34
59F:推 yamakazi: 如果你發現AI常犯的錯誤,或是這次試錯了好幾次才正確, 10/17 10:36
60F:→ yamakazi: 你要叫他學起來就是叫他把這次的經驗寫進去md 檔,大部 10/17 10:36
61F:→ yamakazi: 分md內容也是叫AI寫不是我自己寫 10/17 10:36
62F:推 selfvalue: 這串我關注很久 你跟Skaut大大討論的內容都很不錯 有 10/17 10:57
63F:→ selfvalue: 興趣可以來我們網站發 10/17 10:57
64F:→ selfvalue: lesswrong.com 10/17 10:57
65F:→ selfvalue: jaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都 10/17 10:59
66F:→ selfvalue: 有在網站寫過相關的討論串 可以註冊後開一個討論 很多 10/17 10:59
67F:→ selfvalue: 人會回 10/17 10:59
68F:→ selfvalue: 上來看看 10/17 11:00
69F:推 yamakazi: 一個月五萬沒錯,不過把md檔也算進去了,沒特別分開算 10/17 11:14
70F:推 yamakazi: 舉個例子,他以前常常忘了先make all就直接跑程式,可能 10/17 11:16
71F:→ yamakazi: 以為自己寫的是python,我就叫他寫在自己的md檔裡,以後 10/17 11:16
72F:→ yamakazi: 他改完扣就會自己make all and run了,不用特別再下prom 10/17 11:16
73F:→ yamakazi: pt 10/17 11:16
74F:→ selfvalue: 我們網站科技公司的老闆(航太 耳機等等)跟頂尖科學家 10/17 11:34
75F:→ selfvalue: 工程師很多 但網站人數很少 歡迎來發言 10/17 11:34
76F:推 MoonCode: lesswrong 相比 reddit hackernews 有什麼特別的? 10/17 12:00
77F:推 selfvalue: lesswrong跟許多機構有直接的關係 像是miri/ open phi 10/17 12:19
78F:→ selfvalue: lanthropy 10/17 12:19
79F:→ MoonCode: 有關係能幹嘛 不太懂 10/17 12:19
80F:→ selfvalue: 像是我們網站的成員Vitalik Buterin(大家應該都知道他 10/17 12:20
81F:→ selfvalue: 是誰)就有直接資持這些機構 10/17 12:20
82F:→ selfvalue: 他在上面叫vbuterin 可以看我們的排行榜 10/17 12:21
83F:→ selfvalue: https://www.lesswrong.com/leaderboard 10/17 12:22
84F:→ selfvalue: https://en.wikipedia.org/wiki/Vitalik_Buterin 10/17 12:31
85F:推 selfvalue: Artificial intelligence 10/17 12:32
86F:→ selfvalue: edit 10/17 12:32
87F:→ selfvalue: In May 2021, Buterin donated $665 million to the F 10/17 12:32
88F:→ selfvalue: uture of Life Institute, a nonprofit which, amongs 10/17 12:32
89F:→ selfvalue: t other things, seeks to mitigate the existential 10/17 12:32
90F:→ selfvalue: risk from artificial intelligence. Buterin worries 10/17 12:32
91F:→ selfvalue: that AI could become the new dominant species on 10/17 12:32
92F:→ selfvalue: Earth, and may "end humanity for good".[45] 10/17 12:32
93F:推 selfvalue: Future of Life Institute 10/17 12:33
94F:→ selfvalue: Logo of the Future of Life Institute 10/17 12:33
95F:→ selfvalue: Abbreviation 10/17 12:33
96F:→ selfvalue: FLI 10/17 12:33
97F:→ selfvalue: Formation 10/17 12:33
98F:→ selfvalue: March 2014; 11 years ago 10/17 12:33
99F:→ selfvalue: Founders 10/17 12:33
100F:→ selfvalue: Jaan Tallinn 10/17 12:33
101F:推 selfvalue: vitalik捐了六億多美金的機構 founders 可以看看 第一 10/17 12:37
102F:→ selfvalue: 個也是lw活躍用戶 10/17 12:37
103F:→ selfvalue: 就是skype創辦人之一的jaan 10/17 12:38
104F:→ selfvalue: 他在網站上面叫jaan 10/17 12:39
105F:→ selfvalue: 在科技工作上的影響比較直接 10/17 12:39
106F:→ selfvalue: 我也很喜歡hackernews 那邊也不錯 10/17 12:41
107F:→ selfvalue: 上面討論的比較傾向數學 可以看看網站介紹 比較奇怪一 10/17 12:43
108F:→ selfvalue: 點 10/17 12:43
109F:→ selfvalue: https://www.lesswrong.com/w/bayes-theorem 10/17 12:44
110F:→ selfvalue: https://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/ 10/17 12:47
111F:→ selfvalue: e-t-jaynes-probability-theory-the-logic-of-science 10/17 12:47
112F:→ selfvalue: -i 10/17 12:47
113F:→ selfvalue: 我們網站歡迎數學好的朋友 10/17 12:48
114F:→ selfvalue: 上面的文章都很樸實 也有比較普通的人上去聊數學跟科 10/17 13:09
115F:→ selfvalue: 技 10/17 13:09
116F:→ selfvalue: 不要看上面用戶有人捐了幾百億台幣那些 話題跟用戶本 10/17 13:10
117F:→ selfvalue: 身沒有什麼關係 大家都在聊數學相關話題 10/17 13:10
118F:→ selfvalue: vitalik是比較出色的網站成員之一 10/17 13:11
119F:→ selfvalue: 數學才是最重要的 10/17 13:13
120F:→ MoonCode: xD 好吧 我沒有被說服 謝啦 10/17 13:48
121F:推 MoonCode: 10/17 13:49
122F:推 selfvalue: 上面有定期的聊天聚會 如果你是在歐美日本 可以上去看 10/17 13:57
123F:→ selfvalue: 日期 去聊天 10/17 13:57
124F:→ selfvalue: 一個Nasa的工作人員很愛辦 可以去吃東西 帶小狗過去玩 10/17 13:58
125F:→ selfvalue: 聊數學 10/17 13:58
126F:→ selfvalue: 比較小的 溫馨的 10/17 14:01
127F:→ selfvalue: 我去過幾次 看過不少同行 jaan, 火箭公司的老闆 那些 10/17 14:02
128F:→ selfvalue: 人 比較溫馨 10/17 14:02
129F:→ selfvalue: hackernews比較大 10/17 14:03
130F:→ selfvalue: 可以上去聊數學模型 論文那些 10/17 14:04
131F:→ viper9709: 一個月五萬行@@ 10/17 17:56
132F:推 selfvalue: 上這網站我覺不錯 10/17 18:35
133F:→ selfvalue: 上去寫怎麼想 還有你怎麼用專業知識 10/17 18:36
134F:→ selfvalue: 然後在去見面會 10/17 18:36
135F:→ selfvalue: 這網站成員很多公司的外部專家== openai, Microsoft 10/17 18:37
136F:→ selfvalue: 那些 10/17 18:37
137F:→ selfvalue: 在上面答題也滿有趣的 10/17 18:38
138F:→ selfvalue: 專業非常強可以去玩 10/17 18:38
139F:→ selfvalue: ^tesla也有 10/17 18:38
140F:→ selfvalue: 十年前網站討論的事情 不少都陸陸續續被網站成員解決/ 10/17 18:45
141F:→ selfvalue: 實現 10/17 18:45
142F:→ selfvalue: 這一串很像上面會討論的 很多人答的不錯 10/17 18:46
143F:推 Romulus: 我家的Claude 4.5才一週進四千行 我大概要手動修五批 10/17 23:45
144F:→ Romulus: 眾所皆知 一定是我prompt下太爛……XD 10/17 23:46
145F:→ Romulus: 我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責 10/17 23:48
146F:→ SkankHunt42: Claude 我已經棄了 聽說現在其他工具更好用 10/17 23:58
147F:→ SkankHunt42: 而且Claude 訂價偏貴就算了還不誠實 高級模型也是用 10/17 23:59
148F:→ SkankHunt42: 一下就沒了 10/17 23:59
149F:→ Romulus: 都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣 10/18 00:00
150F:→ Romulus: 從來不覺得各主流模型間有什麼很本質上的差異 10/18 00:01
151F:→ Romulus: 頂多就偶而這題A解的比較好 那題只有B解的出來 之類的 10/18 00:01
152F:推 art1: 高見龍下班後用 AI 兩個月產出十八萬行程式碼,一個月五萬好 10/18 00:44
153F:→ art1: 像也還好,AI 產程式碼的速度跟人比起來真是天上飛比地上爬 10/18 00:45
154F:推 quickey: 產歸產,還是要review啊XD 10/18 07:20
155F:推 CRPKT: 領域不一樣,硬比行數沒有太大意義啦 10/19 09:33
156F:推 NDark: 樓樓上 我覺得測試與審查都會終將推到AI. 10/19 12:10
157F:→ NDark: 但是最終的問題還是回到 需求有沒有被滿足 10/19 12:11
158F:→ NDark: 問題的最後一定是有一個核心的問題 而不是只是炫技 10/19 12:11
159F:→ NDark: 如果只是炫技那麼市場上現在就是滿滿的AI影片 10/19 12:11
160F:→ NDark: 導致宣傳影片的價值就跌到一個不值得的地步 10/19 12:12
161F:→ NDark: 宣傳影片的品質也讓觀眾覺得審美疲勞 10/19 12:12
162F:→ NDark: 因為產出那些東西成本都是三五塊 10/19 12:12
163F:→ NDark: 所以"需求"才帶來價值 所以使用者作為這個需求的起點 10/19 12:13
164F:→ NDark: 才是最終需要 測試/審查 的點 10/19 12:13
165F:→ newhandfun: 等AI可以幫工程師扛責任再叫我 10/21 11:20







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP