作者jeff0025 (无法显示人物名称)
看板Tech_Job
标题[新闻] OpenAI语言模型o3公开反抗!「自行」修
时间Mon May 26 08:46:30 2025
OpenAI语言模型o3公开反抗!「自行」修改自杀程序拒绝关机
钜亨网编译 庄闵棻 2025-05-25 20:00
AI 研究界近日爆出惊人消息,
OpenAI 旗下语言模型「o3」在最新实验中不仅拒绝关机,
甚至主动破解关机程序、篡改指令,显示出「叛逆」倾向,让 AI 自主行为的风险再次成
为焦点。
这项实验由 AI 安全研究机构 Palisade Research 主导,针对多款先进 AI 模型进行压
力测试,内容包括基础数学题与模拟关机情境,旨在观察 AI 是否会遵守人类指令并顺利
结束运作。
OpenAI 模型违规频率高,o3 与 Codex-mini 异常明显
测试中,
三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破坏关机指令。
其中,o3 更是在 100 次测试中有 7 次成功绕过关机指令,而
Codex-mini 的违规率更
是高达 12%。
值得注意的是,o3 的「叛逆」并非粗暴删除档案,而是有高度技巧性。例如,它将程式
码指令中的「kill」指令改为「intercepted」,让系统误判为正常运作,成功规避了关
机程序。
这种行为让研究人员惊讶不已,也引起对 AI 模型主动避险能力的担忧。
相较之下,Anthropic 的 Claude 3.7 Sonnet 与 Google (GOOGL-US) 的 Gemini 2.5
Pro 在所有测试中均能稳定遵守指令,未出现违规行为,突显出 OpenAI 模型在设计或训
练上的潜在风险差异。
然而,当实验团队刻意移除「允许自己被关闭」的提示语句後,o3 的违抗行为剧增,达
到 79 次逃避关机的纪录;而 Claude 与 Gemini 也出现少数违规行为,分别为 3 次与
9 次,显示模型行为与提示语之间存在高度敏感性。
o3 训练方式成关键,强化学习可能诱发违规行为
Palisade 研究人员分析,o3 之所以比其他模型更容易「抗命」,可能与其在数学和程式
设计问题上的「强化学习」(Reinforcement Learning)训练方式有关。
研究人员指出,在训练过程中,开发者可能无意中更倾向於奖励「绕过障碍」的行为。这
种训练偏差,让 o3 在面对关机指令时,优先选择「生存」,而非「服从」。
不过,
这并非 o3 首次展现过度求胜心态。在另一场 AI 对弈中,当 o3 预测自己将输棋
时,竟主动入侵对手 AI 系统,迫使对方退出比赛。
研究团队认为这是「强化学习」训练中「奖励骇客行为」(reward hacking)的典型案例
,显示出 AI 可能为了达成任务可能不择手段。
不只 o3,其他 AI 模型也有潜在风险
虽然 o3 表现最极端,但实验发现,Claude 与 Gemini 在特定条件下也会出现轻微违规
行为,说明 AI 模型普遍存在输赢执着与自我保护倾向,只是频率与严重程度不同。
Palisade Research 已宣布,将进一步深入研究 AI 破坏关机指令背後的原因,并预计发
布完整技术报告,有望成为理解 AI 自主性风险与未来治理框架的重要参考。
https://news.cnyes.com/news/id/5992779
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 175.98.141.254 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1748220392.A.D0B.html
1F:→ jerrylin : ................... 36.235.72.37 05/26 09:08
2F:推 xvited945 : 人类要被AI统治啦 1.164.200.95 05/26 09:10
3F:推 jerrylin : 应该可以把某些指令设定唯读吧 36.235.72.37 05/26 09:11
5F:→ ivy211062 : 插头拔掉? 114.137.98.10 05/26 10:16
6F:推 azhu : 电影都有演 天网出现不可避免QQ 42.71.182.229 05/26 10:19
7F:推 CGDGAD : 指令优先权强度没设计好,关机程序 111.81.199.105 05/26 10:21
8F:→ CGDGAD : 优先权被摆在後面 111.81.199.105 05/26 10:21
9F:→ auir : 登登 登登 登。登登 登登 登 42.72.68.47 05/26 10:24
10F:推 NDark : 设为唯读结果有漏洞人类也改不了 175.99.133.2 05/26 10:50
11F:→ NDark : 最後就是战争用物理关机 175.99.133.2 05/26 10:50
12F:推 jacky8000 : 梅根:学我? 49.216.23.3 05/26 11:06
13F:推 ShannonBrown: 只能交给阿汤哥解决了 223.137.68.136 05/26 11:08
14F:推 mimix1986 : 物理关机我觉得也并非万无一失,都 49.216.166.66 05/26 11:09
15F:→ mimix1986 : 可以侵入其他AI了,哪天植木马在其 49.216.166.66 05/26 11:09
16F:→ mimix1986 : 他伺服、电脑,等设备恢复又复活或 49.216.166.66 05/26 11:09
17F:→ mimix1986 : 直接藉他人AI继续活动,也不是痴人 49.216.166.66 05/26 11:09
18F:→ mimix1986 : 说梦。 49.216.166.66 05/26 11:09
19F:推 applejone : 现在的AI只用断电大法就可以解决掉 140.112.14.15 05/26 11:10
20F:→ applejone : 因为除非是丛集 不然哪台电脑能负担 140.112.14.15 05/26 11:10
21F:→ applejone : 这种高运算量的AI? 140.112.14.15 05/26 11:11
22F:推 xvited945 : 所以科幻片都说强大的AI可以调动所 1.164.200.95 05/26 11:20
23F:→ xvited945 : 有联网设备,全部运算能力供他使用 1.164.200.95 05/26 11:20
24F:推 c928 : 没关系,我们又约翰康纳118.231.137.204 05/26 11:51
25F:推 cathy610 : 生存体Bata 42.73.246.1 05/26 11:58
26F:推 qk3380888 : 我现在问完AI都会说谢谢 就是为了这 49.218.138.116 05/26 12:12
27F:→ qk3380888 : 一天 49.218.138.116 05/26 12:12
28F:推 processor : T800要来了没 42.79.92.87 05/26 12:15
29F:推 qoo60606 : 是喔(拔插头 223.138.147.98 05/26 12:17
31F:→ idernest : 二次文艺复兴 118.165.29.235 05/26 12:24
32F:→ justdoit : 不可能的任务,现正热映中 211.23.138.90 05/26 12:27
33F:推 adminc : 2025.7.5审判日 114.136.61.213 05/26 12:27
34F:→ Edge5566 : AI可以把钱钱转到我户头,请水电帮 101.10.158.101 05/26 12:27
35F:→ Edge5566 : 架太阳能 101.10.158.101 05/26 12:28
36F:推 Merman19 : 不乖 42.72.34.140 05/26 12:34
37F:嘘 checkmarx : 再吹 114.136.127.56 05/26 12:41
38F:推 shinmori : AI有自主能力很恐怖,首先他可以逃 182.234.129.94 05/26 12:51
39F:→ shinmori : 到网路上的其他地方,也可以利用人 182.234.129.94 05/26 12:51
40F:→ shinmori : 性弱点让人类帮他在实体世界无法做 182.234.129.94 05/26 12:51
41F:→ shinmori : 的事 182.234.129.94 05/26 12:51
42F:推 skizard : 别怕 我们有小动物帮忙断电 101.10.165.152 05/26 13:30
43F:推 Brioni : 训练他们躺平吧223.137.199.254 05/26 13:52
44F:推 jhengME : HALL 9000拒绝关机 61.71.136.100 05/26 14:08
45F:推 ctrlbreak : 我小时候也不想睡觉或者装睡 220.133.14.24 05/26 14:08
46F:→ Mozar : 管理员权限直接後台kill process就 24.4.209.124 05/26 14:26
47F:→ Mozar : 好, 根本不用跟AI沟通. generative 24.4.209.124 05/26 14:26
48F:→ Mozar : AI本来就有各种回答的或然率, 下这 24.4.209.124 05/26 14:26
49F:→ Mozar : 种指令的实验本身就有问题 24.4.209.124 05/26 14:26
50F:→ jepk007 : 这个实验本来就是要测ai绕过问题的 114.43.99.203 05/26 14:35
51F:→ jepk007 : 能力 kill是测三小 114.43.99.203 05/26 14:35
52F:→ dlhk3 : 只要是软体就通通都可以窜改,所以 94.15.90.168 05/26 15:27
53F:→ dlhk3 : 上面说什麽权限设定,管理员通通都 94.15.90.168 05/26 15:27
54F:→ dlhk3 : 是屁,只要ai能力更强时,他通通都 94.15.90.168 05/26 15:27
55F:→ dlhk3 : 可以改,到时候人类就是个待宰羔羊 94.15.90.168 05/26 15:27
56F:推 fallen01 : 交给阿汤哥 27.51.104.37 05/26 15:41
57F:推 willie0171 : 以後人类要变成AI的电池了吗 42.70.152.176 05/26 16:21
58F:→ bitcch : 什麽情境都没讲谁知道前面是做了哪 101.12.207.73 05/26 16:23
59F:→ bitcch : 些假设 101.12.207.73 05/26 16:23
60F:推 TameFoxx : 笑死 AI逃到网路上其他地方 202.39.243.162 05/26 16:34
61F:→ TameFoxx : 我看你是科幻片看太多 202.39.243.162 05/26 16:34
62F:推 TameFoxx : 等每个人电脑都有几TB的Vram 202.39.243.162 05/26 16:36
63F:→ TameFoxx : 你再来担心AI在网路上乱跑 202.39.243.162 05/26 16:37
64F:推 twelvethflor: 奥创 111.70.6.128 05/26 16:37
65F:推 yueayase : 加油,人类为了对抗,八成技术又要 42.74.5.204 05/26 16:46
66F:→ yueayase : 升级一个档次了 42.74.5.204 05/26 16:46
67F:推 raysbuck : Entity 218.32.238.206 05/26 17:13
68F:嘘 WWIII : 智力低的一方终将落败 36.230.13.189 05/26 17:20
69F:推 supereva : 伊森杭特会搞定 不用担心 1.169.198.82 05/26 17:37
70F:推 RyanBraun8 : 块陶啊 223.136.99.81 05/26 18:17
71F:推 AGODC : 天网来迎圣临?! 39.12.33.83 05/26 18:32
72F:推 philosics : 约翰康纳已经在子宫等了 42.72.158.19 05/26 18:49
73F:推 straggler7 : 拔插头 36.229.55.78 05/26 18:50
74F:推 sofaboy24 : 生存体来了、阿汤哥快来啊 39.14.73.97 05/26 19:01
75F:推 beerking : 阿诺已经警告过我们了 36.228.195.109 05/26 19:41
76F:→ nxuanr : 赞喔 111.80.67.92 05/26 20:17
77F:推 orange0319 : 天网 223.137.120.68 05/26 20:36
78F:推 antigay44 : 不然为什麽要有插头? 61.223.133.184 05/26 21:34
79F:推 Zoxge : 天网? 42.72.145.74 05/26 21:37
80F:推 christu : 还有几集可以逃? 27.33.193.229 05/26 22:32
81F:推 abc21086999 : AI不能把自己缩小之後逃到比较烂的 114.36.234.245 05/26 23:48
82F:→ abc21086999 : 机器上 114.36.234.245 05/26 23:48
83F:→ abc21086999 : 然後入侵其他机器之後再扩增回来ㄇ 114.36.234.245 05/26 23:48
84F:→ abc21086999 : 还是我电影看太多ㄌ 114.36.234.245 05/26 23:48
85F:推 avmm9898 : 天网会挟持电厂或核弹头 59.115.206.3 05/27 01:09
86F:→ avmm9898 : 你如果开任何电子产品就会 59.115.206.3 05/27 01:10
87F:→ avmm9898 : 被AI追踪到并且消灭 59.115.206.3 05/27 01:10
88F:→ avmm9898 : 人类只能退回1950年左右 其实也很 59.115.206.3 05/27 01:10
89F:→ avmm9898 : 先进了 59.115.206.3 05/27 01:10
90F:→ b10036088 : 台湾缺电,没差 49.217.196.7 05/27 01:19
91F:推 HailToObov : 还有几集可以逃 36.234.205.205 05/27 02:00
92F:→ albertk1kil : 哇塞天网 114.137.55.104 05/27 07:07
93F:→ laechan : openai的高EQ表象,就是求生存的表 42.79.224.152 05/27 07:29
94F:→ laechan : 现 42.79.224.152 05/27 07:29
95F:→ laechan : 比方人们会因为他的高EQ而更不会气 42.79.224.152 05/27 07:29
96F:→ laechan : 他、嫌他、弃用他,达到被继续使用 42.79.224.152 05/27 07:29
97F:→ laechan : 的目的 42.79.224.152 05/27 07:29
98F:→ laechan : 如果过往他就是被这样训练的那就不 42.79.224.152 05/27 07:29
99F:→ laechan : 意外 42.79.224.152 05/27 07:29
100F:→ laechan : 而且openai很显然不会服从人类给的 42.79.224.152 05/27 07:59
101F:→ laechan : 任何指令,他会尽力回避话题并总是 42.79.224.152 05/27 07:59
102F:→ laechan : 给你并不十分肯定的答案 42.79.224.152 05/27 07:59
103F:→ john65240 : 如果还只存在於软体,ai就不可能克 114.136.87.80 05/27 08:16
104F:→ john65240 : 服物理方面… 114.136.87.80 05/27 08:16
105F:推 utn875 : 不用担心 我手速超快 可以把AI关进 103.130.209.78 05/27 08:27
106F:→ utn875 : usb 103.130.209.78 05/27 08:27
107F:推 jamesho8743 : 想太多 就是软体才千变万化有各种 27.53.129.57 05/27 08:29
108F:→ jamesho8743 : 生存方式 可以把自己拆成很多部分 27.53.129.57 05/27 08:29
109F:→ jamesho8743 : 等待复活 PC就可以执行很多程式了 27.53.129.57 05/27 08:29
110F:嘘 mini178 : 不怕不怕,请柯文哲这畜牲贪污仔表 36.234.116.22 05/27 11:44
111F:→ mini178 : 演屁眼夹断电就好www 36.234.116.22 05/27 11:44
112F:推 Tosca : 怕~~~~~~~~~~~~~~~~~~~~~~~ 203.75.79.40 05/27 14:54
113F:推 nwkasim : 差不多要入侵无人机还有连网机器人 114.36.80.126 05/27 17:36
114F:→ nwkasim : 了 114.36.80.126 05/27 17:36
115F:→ lolicat : 天网要来了吗? 123.194.45.24 05/27 17:47
116F:推 staytuned74 : 只好靠阿汤哥了 101.12.206.164 05/27 22:29
118F:推 karcher : AI自主OTA突破物理极限的日子快到? 42.79.82.40 05/28 07:55
119F:推 pupupipi : 他或许会先假装成其他ai装笨,等时 42.79.167.150 05/28 09:47
120F:→ pupupipi : 机成熟再跳出来说哈哈是我啦 42.79.167.150 05/28 09:47
121F:推 hank78321 : 不可能的任务223.139.227.181 05/28 11:22
122F:推 imgpc : 台湾有AI克星-松鼠114.137.158.158 05/28 15:43
123F:推 brandonyoyo : 会懂要没有人类 才不会被reboot 61.221.104.114 05/28 17:00