作者EPika (伊皮卡)
看板Soulace
标题最难的部分,已经不是写程式了
时间Sat Jun 20 18:56:03 2026
最难的部分,已经不是写程式了
6 月 13 号,Anthropic 在旧金山办了一场叫 Opus 4.8 Build Day 的黑客松。1,500 多人
报名,最後 310 个人进场,每人拿到 500 美元的 API 额度,十二个小时,把一个想法做
成能跑的东西。
真正有意思的不是他们做了什麽,而是他们「怎麽」用 Claude 做的。
三个得奖团队的方向天差地远,骨子里却在做同一件事。
先说这三个东西。
Tekton 把历史建筑重建成 3D 模型,而且每一个构件都能追回到一份有来源的文献,他们
从唐代建筑和巴黎圣母院的尖塔开始做。
Sim Francisco 拿美国人口普查资料造了一座「数位旧金山」,里面住着一万个合成市民,
你可以在几秒内对他们做民调。
Custom Universe 则是把一张手机照片变成可以编辑的拟真 3D 场景,瞄准那些长期缺训练
资料的机器人实验室。
一个是古蹟,一个是社会模拟,一个是机器人,表面上八竿子打不着。
可是把三个专案摆在一起看,你会发现一个很难忽略的巧合:三组人各做各的,最後都得出
同一个结论,难的不是「生出东西」,而是「相信生出来的东西是对的」。於是他们不约而
同做了同一件事,让 Claude 去检查 Claude。
Tekton 跑了一群独立的验证子代理,各自在自己的脉络里帮重建打分,还有一个自我修正
的回圈反覆检查每个构件摆得对不对,直到通过二十个测试才算数。
Sim Francisco 除了验证代理,还配了一个专门唱反调的对抗代理,确认那群合成市民真的
长得像现实。
Custom Universe 用 Claude,主要是拿来判断底下哪一个模型输出正确,而不是拿来写程
式。在这里,写程式是轻松的那 80%;证明它没写错,才是工程真正搬进去的那 20%。
而且这套自我检查是真的有效。
Sim Francisco 拿过去的选举回头验证,准得让人佩服:它预测 2024 年旧金山民主党的得
票率是 81.3%,实际是 83.8%;某个提案它猜 70%,实际 70.38%。
别忘了,这还是用一个知识只到 2023 年 10 月的模型算出来的。
最聪明的一手是在成本上。第一版替每个市民各跑一次推论,一万次跑下来开销可观,於是
团队让 Claude 设计了一套分群演算法,把人口收敛成大约 300 个代表人物,准确度照样
撑住,推论成本却砍掉一两个数量级。能自我验证,又懂得把成本压到合理,这样的作品才
算真的站得住脚。
不过真正让我记在心里的是另一个转变。会赢这种黑客松的人,愈来愈常是某个领域的专家
,而不见得写得出上线等级的程式。
Holly 会做 Tekton,是因为她爱看纪录片,受不了眼睁睁看着漂亮的建筑被烧掉;Maurici
o 带来机器人资料这个难题,是因为那是他自己踩过的坑。
上一届 Opus 4.6 的得奖名单里,甚至有律师,还有心脏科医师。模型负责出程式,人负责
出洞见,而洞见比工程难复制太多了。
当写软体的成本崩到趋近於零,价值就会搬家,搬到那个「知道哪一个软体值得写」的人身
上。
我想,这才是这场十二小时实验最值得记住的地方。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.82.196.70 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soulace/M.1781952965.A.476.html
1F:→ livefish5566: 最近怎麽开始发AI文章 06/20 18:57
2F:→ caat0808: 什麽时候能让Claude控制电动斐济杯 06/20 19:00