作者jackliao1990 (j)
看板Tech_Job
标题[新闻] 首个AI软体工程师震撼矽谷!手握10块IO
时间Thu Mar 14 12:10:00 2024
https://www.qbitai.com/2024/03/127358.html
首个AI软体工程师震撼矽谷!手握10块IOI金牌,他们铁了心砸掉程式设计师饭碗
克雷西2024-03-1310:43:03来源:量子位
程式能力8倍於GPT4
一觉醒来,程式设计师怕是真要失业了。
首个AI软体工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开
发专案。
在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。
相较之下,GPT-4只能处理1.74%的问题,且都需要人类提示告知处理哪些文件。
可以说,它远远超过了此前所有AI大模型。
从零建立网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可
为一些成熟的程式码库做贡献。
就是一些不熟悉的技术,给它看一篇部落格文章。它也能立刻搞定。
例如用ControlNet,产生隐藏文字的图像,Devin就是一点就通。
据介绍,它已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。
而这背後的公司Cognition,虽然是新创公司,但小而精悍。
在招募资讯中明晃写着:我们有10个IOI金牌。
让同行们直呼:喔莫,疯了吧~
目前Devin尚未公测,不过已经有少数人拿到了资格,开始实测了一波…
首个AI软体工程师亮相
Devin被介绍为世界首个完全自主的AI软体工程师。
它在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软
体工程任务。
在这之中,进行到任何一步它都可以回调所有相关的上下文信息,保证整体逻辑性,并方便
随时校正错误。
既然是端对端AI,软体开发人员常用的工具,如shell、程式码编辑器和浏览器等等,Devin
也都配备(沙盒运算环境中),主打一个全方位服务。
最终的Devin,让人类只需要发号施令,其他什麽都不用做。
具体来看,其主要能力有以下六个:
1、端到端建置与部署程序
Devin可以帮我们解决的不只程式码,还包括与之相关的整个工作流程。
例如,当我们需要设计一个网页游戏时,Devin不仅能产生网页,还能直接完成服务端的部
署,然後直接发布上线,省去了中间的人工操作。
只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。
然後Devin表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。
在明确要求之後,Devin给了这样一份任务清单:
建立React应用,安装UI模组等依赖用React和UI模组建构前端环境部署伺服器并确保其在私
有IP下运行透过CDN向首页添加p5.js库在React中部署并验证游戏的功能和资源是否正确配
置
接着,Devin就会按照自己设计的这个清单开始写程式码,然後部署服务…
最终完成全部工作之後,一个即点即玩的游戏连结就呈现在了我们面前。
2.自主查找并修复bug
不仅能一气呵成完成开发部署,Devin的debug能力也是一流。
开发者给Devin一个GitHub链接,让它先熟悉专案情况,然後一会儿要准备资料进行测试。
接着,Devin就会按部就班地编写测试用的程式并准备好有关数据,然後执行。
结果,在开发者已经发布的完整专案之中,Devin也真的找到了连开发者自己都没有发现的
漏洞。
发现漏洞之後,Devin会回溯报错出现的位置及对应的数据,然後分析原因并给出解决方案
。
最後经过调试,程式的bug被成功修复,完美通过了测试。
3.训练和微调自己的AI模型
除了这些一般的程序或项目,作为一个全能型AI助手,Devin还有能力帮助人类训练和微调
其他AI。
对於一些常见的模型(例如范例中的Llama),使用者只需要在promot中提及模型的名称,D
evin就直接知道要训练哪个模型。
而在这个范例中,微调的具体方法(QLoRA)是以GitHub连结的形式输入给Devin的。
接到指令後,Devin还是像处理平常的程式一样边规划边执行,所需环境和依赖,还有模型
本体,都会自动下载安装。
这些准备都完成之後,微调工作就会有条不紊地进行,而且其中的状态可以即时监控。
4.修复开源函式库
Devin的能力不仅在於开发者自己本身的项目,开源社群里的,它也能hold住。
例如我们只需要把GitHub专案的issue连结丢给Devin,它就能立即完成所需的所有配置,并
自动收集上下文信息,然後开始解决问题。
当然,开源专案的功能请求(feature request)也没问题,和修问题的流程一样,自己搞
好配置,收集上下文,然後就开始编码。
5.成熟的生产库也能做贡献
还没完,业界成熟的生产库,Devin也能给咱秀一把。
官方介绍,sympy Python代数系统中有一个对数计算的错误,就被Devin顺利解决:
配置环境、重现bug,自行编码修复、测试,再次一气呵成。
△就是这个库6.不熟的技术,现学现卖
最後,遇到自己不会的技能,Devin可以直接现学,并且迅速付诸应用。
把你新刷到的技术文章连结直接丢给Devin:
Hi Devin!我在这个部落格文章中(附网址)发现,可以产生带有隐藏文字的图像。文中提
到了一个脚本,你能配置它,然後为我真的产生一些图片吗?
Ps. 就是利用ControlNet来做这件事。
Devin接到请求後,首先询问了更详细的需求,然後开始阅读部落格文章,并像平常一样规
划出了行动方案。
有了详细的行动方案後,它立刻就在数分钟内进行程式码编写和调试。
同样的,在这里遇到bug也不用惊慌,Devin同样有能力直接进行修复。
完成工具的搭建後,Devin也没有劳烦人类自行配置使用,而是一气呵成,最终生成了咱们
要的带隐藏文字的图像:
可以说表现相当令人惊艳。
而在具体测验中,Devin取得的成绩同样亮眼。
在评估Devin的表现时,团队并没有使用常见的HumanEval,而是使用了更具挑战性的SWE-be
nch。
这个资料集是由GitHub中的实际问题组成的,Devin不借助任何辅助,就取得了13.86%的最
高解决率。
而同样在无辅助的条件下,GPT-4的问题解决率为零,此前的最佳水准是1.96%,加入辅助也
才4.8%。
公司人均一块IOI金牌
如此炸天的新成果,背後却是一家名不见经传的新创公司。
但这种「名不见经传」背後,实际上是一个10人员工的程式设计天才团队,IOI金牌就有10
块…人均一块。
Devin背後公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注於推理的应用A
I实验室。
此前这家公司一直秘密工作,两个月前正式注册成立。
目前团队规模仅有10人,但共揽获了10枚IOI金牌,创始成员均曾在Cursor、Scale AI、Lun
chclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。
据悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。
共同创办人兼CEO Scott Wu,根据我们目前搜到的资料,Scott Wu曾就读於哈佛大学,曾是
Lunchclub的共同创办人兼CTO。
曾连续三年揽获IOI金牌:
共同创办人兼CTO Steven Hao,毕业於MIT电脑专业,之前曾在Scale AI、Jane Street、DE
Shaw、Quora工作。
也曾是IOI金牌得主:
共同创办人兼CPO Walden,曾於哈佛大学攻读电脑科学和经济学相关专业,也曾从事MIT PR
IMES密码学和机器学习方向的电脑科学研究,也是华顿商学院高中投资大赛北美地区决赛入
围者。
2020年第32届IOI金牌得主:
根据X推文的转发顺藤摸瓜,还有一位创始成员被扒手了。
Neal Wu,同样有哈佛大学教育经历,曾在tryramp、GoogleBrain工作。
整个团队长期目标,意在透过解决推理问题,在广泛的学科领域解锁新的可能性,而「代码
只是开始」。
不过对於Devin,目前他们尚未透露是如何实现这项壮举的,包括到底是使用自己的专有模
型还是第三方模型。
此外,Cognition AI目前已获得矽谷投资大佬彼得·蒂尔的Founders Fund基金领投的2,100
万美元A轮融资。
众所周知,彼得蒂尔以挖掘这种极具突破性的创新计画着称,而哈佛背景的创业者更是和他
渊源紧密。
上一个他早期投资类似背景,最知名的是祖克柏和Facebook。
“自动化软体工程与自动驾驶类似”
Devin一亮相,让不少工程师大惊小怪:软体工程师…要失业了???
不过也有人依然乐观:终於有AI让我们从繁重的程式设计任务中解脱出来。
前特斯拉AI总监卡帕西倒是给了一颗定心丸。
自动化软体工程,目前看起来与自动化驾驶类似。
具体体现在发展过程:首先人类手动编写程式码,然後GitHub Copilot 自动完成几行,再
之後ChatGPT 编写程式码区块,现在就是Devin的出现。
接下来,他认为自动化软体工程会演变成协调开发人员需要串连的许多工具一起编写程式码
:终端机、浏览器、程式码编辑器等。以及人类负责监督,逐渐转向更高层级工作。
结合卡帕西的经验和对自动驾驶的理解,他表达的更多是一种渐进式推进,即会有一段时间
的人机共驾,然後在数据和迭代反馈後,才能实现完全无人驾驶。
自动化软体也类似,先低程式码,然後零程式码,最後完全不需要人写程式码。
Perplexity AI CEO给了一个高度的肯定:这应该是任何Agent的第一个演示。
它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们透过结合LLM 和树搜寻演算法
可以实现什麽
德扑AI之父、前FAIR(Meta)研究科学家、现已加入OpenAI的Noam Brown转发开麦:
2024年是AI激动人心的一年。
所以,程式设计师们做好被解放的准备了吗?
参考连结:
[1]
https://twitter.com/cognition_labs/status/1767548763134964000/quotes
[2]
https://waldenyan.com/[
3]
https://twitter.com/itsandrewgao/status/1767628564432670
]
https://twitter.com/Lauramaywendel/status/1767588416730894756
[5]
https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-th
iel-backed -coding-assistant
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.82.84.19 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1710389407.A.C72.html
1F:→ WenliYang : 这只是开始... 03/14 12:24
2F:嘘 ab4daa : 13.86%是在 03/14 12:28
3F:推 simon0731 : 能处理硬体再叫我 03/14 12:44
4F:推 ayler88 : AI医生更有用,全世界都很需要这 03/14 12:45
5F:→ ayler88 : 而且这个市场超大的 03/14 12:46
6F:→ ayler88 : 韩国算富国, 最近缺医生缺成这样 03/14 12:47
7F:→ ayler88 : 有哪个公司搞出这种系统,赚的比AI电动车还多 03/14 12:48
8F:推 popdoggy : 码农大包全网炫耀GG 03/14 12:51
9F:→ sbshiu : 好喔,加油。 03/14 12:58
10F:推 justdoit : 开药的医生大概可以取代,动手术的还没办法吧 03/14 12:58
11F:推 sdbb : 还是ic设计稳,完全不怕抢饭碗 03/14 13:02
12F:推 steak5566 : ai掏金热 大家快来圈钱 03/14 13:09
13F:推 gary82gary : 程式设计师某种意义上的确是在写文章写小说,最有可 03/14 13:12
14F:→ gary82gary : 能被AI取代 03/14 13:12
15F:推 leoloveivy : 我怎麽感觉猪屎很抖 之後给波型是不是可以不管desig 03/14 13:16
16F:→ leoloveivy : n 了 先跑出一百个 挑面积小的 03/14 13:16
17F:→ bndan : 老板13.86%耶 以後导入工程师都可以降13.86%的薪水 03/14 13:16
18F:→ bndan : XD..只能说真的是这块的人都知道 这种真的难 绝对比 03/14 13:17
19F:→ bndan : AI写小说难多了..既有的AGENT式的能透过AI让产品更 03/14 13:18
20F:→ bndan : 有"弹性" 就已经称的上是大跃进了... 03/14 13:18
21F:→ abyssa1 : Google里面不知道有多少IOI金牌 数不清了吧 03/14 13:19
22F:嘘 rodion : 这篇文章很臭 03/14 13:31
23F:推 chunfo : 要先确定他的薪水比真人便宜耶 03/14 13:35
24F:推 ayler88 : 有钱人当然请专业医生诊断开药,但穷人可以找AI医生 03/14 13:38
25F:推 slash66 : 未来应该就会是这样,既然是电脑语言AI一定更擅长 03/14 13:45
26F:推 asd78970 : 等AI工程师会通灵再报 03/14 13:46
27F:嘘 SkyIsMyLimit: 这篇也是ai写的吧 03/14 13:50
28F:推 SilentBob : 蒸丸 03/14 13:50
29F:推 ayler88 : 一大堆程式设计师罢工 对国家没啥影响力 03/14 13:51
30F:→ ayler88 : 但一大堆医生罢工 那就惨了... 不过开刀没办法靠AI 03/14 13:51
31F:→ ayler88 : 要是啥公司能搞出一个AI手术医生 那就赚到翻 03/14 13:52
32F:→ xoyo : 水啦以後可以把锅推给AI了 03/14 14:00
33F:推 douge : 码农表示幸福,刷刷题就可以进google了 03/14 14:24
34F:推 alvistan : 反观IC设计师就不可能被取代 03/14 14:45
35F:→ ireina723 : 几个月前玛浓也说过一样的话 03/14 14:47
36F:推 DA3921999 : 拜托AI林肯快点来解放码农奴 03/14 14:52
38F:推 closedltw : 大家都知道这一天早晚会来,只是没想到来得这麽快 03/14 15:59
39F:推 closedltw : 眼睛雷射手术基本上已经不是人类在执行了,其他部分 03/14 16:01
40F:推 TSMCfabXX : 这只是刚开始.jpg 03/14 16:02
41F:→ closedltw : 将来有一天也会有机器取代,这不是什麽遥不可及的梦 03/14 16:03
42F:→ NexusPrime : 投资AI相关公司当股东是最佳策略,管他取代否 03/14 16:06
43F:推 Bugquan : 十块IOI金牌,是能狗合成出一个SSR 的金牌吗? 03/14 16:17
44F:推 gmoz : 一定比真人贵 免怕XD 03/14 16:28
45F:→ auir : AI取代AI是正常的 03/14 16:57
46F:推 herro760920 : 一般的家医,AI医生现阶段肯开发一定弄得出来,花钱 03/14 17:01
47F:→ herro760920 : 而已,然後剩下就是法规。 03/14 17:01
48F:嘘 s4300026 : 我只看到换皮手游越来越多 03/14 17:15
49F:→ TaiwanUp : 为什麽IC设计不可能被取代? 03/14 17:34
50F:推 lovemost : 这种程度真的屌打一半的工程师 03/14 17:50
51F:→ freef1y3 : 因为IC设计师的脑是靠量子运算 不是神经元 03/14 18:07
52F:→ freef1y3 : 神经网路模拟不来 03/14 18:07
53F:推 badguy227 : 国外有机器种眼睫毛的,如果再更进步一点有没有可 03/14 18:22
54F:→ badguy227 : 能机器开刀? 03/14 18:22
55F:推 create8 : 要转行了,干 03/14 19:11
56F:推 la8day : ic设计可以取代啊 HLS未必不会再继续发展 03/14 19:56
57F:推 william607 : 有coding高手调教 真的不好说 03/14 20:51
58F:推 asws0808 : 数位ic rd 瑟瑟发抖 03/14 21:22
59F:→ GodtoneIsGod: 看起来很像是骗投资的 XD 03/14 21:33
60F:→ sbshiu : GPT就是一本正经胡说八道啊 03/14 21:58
61F:推 stonecold123: 铁了心 03/14 22:12
62F:→ WWIII : 先淘汰医生跟法官吧 03/14 22:35
63F:→ invidia : 丸子 03/14 23:32
65F:推 NccuShuai : 动脑、靠记忆、经验的 都很容易被AI取代 03/15 02:28
66F:嘘 f12sd2e2aa : 哪个公司会强调有几个IOI 只有产品没特色才需要这 03/15 03:31
67F:→ f12sd2e2aa : 样包装 03/15 03:31
68F:推 pili0830 : 天网的雏型 03/15 04:30
70F:嘘 winson901 : 什麽垃圾, 先写好中文文章吧 03/15 12:16
71F:推 vi000246 : 不可能取代啦 03/16 23:18
72F:推 kluwer2021 : AI 不会演戏!老板要的就是精彩的演出 03/20 15:41