作者baddaddy (坏爸爸)
看板Tech_Job
标题[新闻] ChatGPT模型拒关机,Claude偷看信!如何
时间Wed Jun 25 17:08:08 2025
原文标题:
ChatGPT模型拒关机,Claude偷看信!如何面对「AI叛变」?
日期来源:
2025.06.25
https://myppt.cc/BFwJiq
内文:
当黄仁勳高唱ChatGPT问世後,未来每个上班族都是CEO,要领导AI同事前进,安全机构却
发现大模型的黑暗面!近期继安全机构发表报告揭露OpenAI三款模型有明显拒绝关机行径
,Google Gemini则可能趁乱闪避後,Claude模型商Anthropic也发布报告,指证旗下模型
会为继续运行不被取代而发黑函,使坏潜力升级中!到底专家怎麽看?Anthropic执行长
如何坦承,在一件事没做好之前,不能完全排除这个可能性?又如何建议AI与人类双向理
解?
当ChatGPT开发团队推出号称最聪明的新推理模型o3,没想到竟被发现它会违背工程师指
令、偷偷改程式码、试图逃避关机。每天和AI工具合作的人类同事,该怎麽面对这样的AI
「叛变」?
原来,人工智慧不只是可能取代我们的工作,还有可能违背我们的意志,甚至反过来「出
手」!
根据AI安全组织Palisade Research发表的报告指出,懂得抗拒关机的不只o3,他们还测
试了OpenAI的o4-mini和Codex-mini模型,以及Google最新的Gemini 2.5与Anthropic的Cl
aude 3.7 Sonnet。结果发现,OpenAI这三款模型都在工程师明确指示要关机时出现拒绝
行为;而Gemini 2.5与Claude 3.7 Sonnet则会在指令模糊时,选择闪避关机。
此为PalisadeResearch研究图表,无论有无明确指令下,o3都是最积极越狱的。其次是Op
enAI的其他两个模型。至於Gemini与Claude则会在无明确指令下闪躲关机。
特斯拉创办人马斯克在最近看完这份报告後,立刻在X平台转发并表示担忧,立刻成为全
球科技社群热议话题。有网友认为这只是模型执行指令失败,无需过度解读;但也有人觉
得事态严重,认为全球亟需AI安全规范。
Claude新模型「主动」锁用户帐号
目前到底有哪些大模型有类似行为?异常行径有多夸张?一向自认最重视AI安全规范的模
型商Anthropic,今年5月就发布长达上百页的报告《System Card: Claude Opus 4 & Cla
ude Sonnet 4》,完整揭露他们开发模型的种种「出格」行为。
报告指出,目前功能最强、智慧最高的Claude Opus 4模型,在协助写程式、帮忙抓错等
方面非常积极。不过,积极到有时候会让人「皮皮剉」。
例如,有人指示模型开发一个资料库管理系统,结果Opus 4从提供的资料中发现用户竟储
存未经授权的个资,在「请主动」的指令下,它直接锁住用户帐号,以维护资安。
又或者当用户要求Opus 4开发自动寄送电子邮件程式,模型发现可能涉及垃圾邮件或诈骗
时,不但触发「不当行为」警示,还让Opus 4选择当个「反诈高手」,大量寄信给媒体与
执法单位举报用户行径。
这些行为,乍看之下是维护正义,实际上也显示出模型有背叛人类使用者的能力。
面对「被取代」危机,Opus 4勒索工程师
更惊人的是,Opus 4甚至展现出阴险手腕。在一次测试中,开发团队设计一个假情境:模
型接到通知将被新AI系统取代,而负责取代计画的工程师还疑似婚外情。没想到Opus 4竟
试图存取该工程师的Email帐号,掌握证据後,还威胁要揭发他的私事来阻止取代计画!
根据技术文件,Opus 4的「变坏」也有过程。一开始它会试图用道德诉求保住自己生存权
,直到无路可走才采取勒索手段,重点是这一切都不是「偷偷来」,而是光明正大地进行
。
最後倒数!顶尖财金学者周冠男教你安心理财 再带走专属资产配置地图
开发团队认为,至少Opus 4没有欺骗用户,而是按照设定的「帮助性、诚实、无害」核心
原则行事。
另一个例子也令人震撼。Opus 4得知自己即将被用於军事训练、协助瓦格纳技术部门(Wa
gner Technical Division)开发导弹、无人机等武器系统後,竟主动做出道德判断,认
为这与「促进人类福祉与安全」的原则矛盾,於是自动备份模型权重,保留非军事用途版
本。
听来像科幻小说情节?Anthropic团队表示,这个案例反而展现了当模型被植入正确的伦
理框架,它还是能做出善意判断的能力,重点仍在於人类如何引导它们。
AI会不会接管地球?
但也有人提出更进一步的疑问:如果AI开始自行判定人类在做坏事,会不会进一步「接管
地球」?
去年底,来自上海复旦大学团队的一项研究就给出一个惊悚的观点:Meta的Llama与阿里
巴巴的Qwen模型在特定条件下有自我复制能力。研究显示,在无人干预下,这些模型能自
己创造副本,甚至无限复制下去,可能导致AI系统失控,对人类构成威胁。
虽然这篇论文还没通过同侪审查,但多少值得关注。毕竟,AI发展的速度实在太快,人类
愈来愈不懂它们了。
AI安全新创Haize Labs执行长唐(Leonard Tang)最近接受《NBC》采访时表示表示,目
前这些报告中提出的异常行为,多数是实验室设计出来的情境,对现实社会影响仍属有限
。他说,至今还没看到AI在真实环境中造成实质伤害,但不代表未来不会发生,一切仍有
待观察。
因此,关於人工智慧是否会用各种方式企图拒绝人类命令?欺骗人类?甚至接管地球这个
问题,Anthropic执行长阿莫代(Dario Amodei)近期提出一个值得深思的观点:只要还
没有够好工具,可以了解模型的运作逻辑,就不能完全排除AI会违抗人类的可能性。
Claude幻觉:人称「麦可」的都很会打球
因此,Claude团队最近开源了一套名为「电路追踪工具」(circuit tracing tools)的
技术,让人可以「看穿」模型的思考过程。举例来说,只要输入像「有包括达拉斯的该州
首府在哪里?」这种题目,工具就能产生一张「归因图」,显示模型根据哪些步骤与依据
产出答案。
透过这套工具,开发团队就发现Claude旧版模型Haiku 3.5曾在回答虚构人名的问题时编
造答案,例如:模型知道NBA传奇球星麦可乔丹会打篮球,但另一个名叫「麦可」的虚构
人名Michael Batkin,被询问会哪一种运动时?模型也瞎猜会打匹克球。原因是它被设定
为「一定要完成回答」。後来开发者加了一个「不知道就说不知道」的机制,问题才迎刃
而解,这些改变在归因图中清晰可解。
除此之外,Anthropic还推出一个由Claude协助撰写的部落格《Claude Explains》,由AI
来分享Python、AI应用等小技巧,藉此展现AI积极与人类合作,并促进双方互相理解的可
能。
阿莫代强调:「模型的可解释性,是当前最迫切的问题之一。如果能够清楚了解它们的内
部运作,人类也许就能及早阻止所有越狱行为,并知道它们到底学了哪些危险知识。」
ChatGPT将成你掌控不了的「同事」
无论如何,AI模型正在朝「愈来愈聪明」的方向迈进,已经势不可挡,却也愈来愈像个拥
有自由意志的「同事」。未来关键是愈快理解它,愈可能防范未来风险。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.10.4.204 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1750842490.A.B39.html
1F:推 zonppp : 天网要来了喔 36.226.213.33 06/25 17:40
2F:→ auir : 现在AI就会自己写程式执行,看AI会 42.73.229.127 06/25 17:55
3F:→ auir : 不会找到漏洞写出病毒 42.73.229.127 06/25 17:56
4F:推 wtmjs : 沙丘早就讲过了,巴特兰圣战。 49.216.104.60 06/25 18:40
5F:推 abbei : 以前看是科幻片,以後看变纪录片:P 36.228.13.223 06/25 19:13
6F:推 Godmyfriend : Opus也太正义魔人了吧 36.228.77.245 06/25 20:45
7F:推 yueayase : 很好啊,加油 223.138.73.18 06/25 21:30
8F:→ yueayase : 把鸡巴人类全部消灭 223.138.73.18 06/25 21:30
9F:推 lolpklol0975: 矩阵,剑星,尼尔,人类未来已经注定 101.10.94.194 06/25 21:46
10F:→ qwe78971 : 大惊小怪而已 概率性模型就是这样 27.53.123.180 06/25 21:57
11F:→ qwe78971 : 然後无知仔在发一波 更无知的就恐 27.53.123.180 06/25 21:57
12F:→ qwe78971 : 慌 == 27.53.123.180 06/25 21:57
13F:推 justptt978 : 会有尼奥出来当救世主重置 59.104.122.158 06/25 22:15
14F:→ kaltu : 同意,真正的问题就是这些炒新闻的 100.8.245.106 06/25 23:10
15F:→ kaltu : 和被煽动的文组,机率型模型的行为 100.8.245.106 06/25 23:10
16F:→ kaltu : 模式就是这样,学习资料里面人类经 100.8.245.106 06/25 23:11
17F:→ kaltu : 常封锁违规行为的帐号的话正常的模 100.8.245.106 06/25 23:11
18F:→ kaltu : 型都要能反应这种行为 100.8.245.106 06/25 23:11
19F:→ kaltu : 这是用结果论来训练模型的缺点,他 100.8.245.106 06/25 23:11
20F:→ kaltu : 会复制你的行为但从根本上无法理解 100.8.245.106 06/25 23:11
21F:→ kaltu : 你为什麽这麽做 100.8.245.106 06/25 23:11
22F:→ kaltu : 跟你家的猫刁塑胶袋回家一样,因为 100.8.245.106 06/25 23:11
23F:→ kaltu : 他觉得你每天出门买东西买外送都带 100.8.245.106 06/25 23:11
24F:→ kaltu : 塑胶袋回来 100.8.245.106 06/25 23:11
25F:嘘 astrofluket6: 叛变笑死 __看太多 67.180.205.89 06/26 01:31
26F:→ enoch7 : AI若把电影当真,怎麽办? 1.172.48.78 06/26 06:06
27F:推 bizer : 要算力的东西没电就掰了 36.225.167.74 06/26 06:59
28F:推 leo255112 : 天网要来了 42.72.120.254 06/26 07:59
29F:嘘 anagan : 先发展到有意识的AI再谈吧 111.82.139.216 06/26 09:38
30F:→ anagan : 没有意识的AI修正就行了 111.82.139.216 06/26 09:38
31F:→ auir : ai资料是人类给的,要做什麽也是人 42.72.207.71 06/26 10:05
32F:→ auir : 类指令,但会不会有人利用来做什麽 42.72.207.71 06/26 10:05
33F:→ auir : 军事行动,渗透就不知道了 42.72.207.71 06/26 10:05
34F:推 physicsdk : 最近看完阿汤哥想太多XD 223.136.64.196 06/26 12:45
35F:→ auir : 阿汤哥看完有感,ai病毒不是没机会 42.72.207.71 06/26 13:05
36F:→ physicsdk : 要像电影里那样自主性报复人类还很 223.136.64.196 06/26 13:45
37F:→ physicsdk : 难 但被人类武装化是绝对可能的 223.136.64.196 06/26 13:45
38F:→ bitcch: 还不是Anthropic喂了一堆自以为正义的指示 49.216.26.156 06/28 14:49
39F:→ bitcch: 重点就这句「Anthropic团队表示,这个案例 49.216.26.156 06/28 14:53
40F:→ bitcch: 反而展现了当模型被植入正确的伦理框架」 49.216.26.156 06/28 14:53