作者jeff0025 (无法显示人物名称)

看板Tech_Job

标题

[新闻] OpenAI语言模型o3公开反抗！「自行」修

时间Mon May 26 08:46:30 2025

OpenAI语言模型o3公开反抗！「自行」修改自杀程序拒绝关机钜亨网编译庄闵棻 2025-05-25 20:00 AI 研究界近日爆出惊人消息，OpenAI 旗下语言模型「o3」在最新实验中不仅拒绝关机，甚至主动破解关机程序、篡改指令，显示出「叛逆」倾向，让 AI 自主行为的风险再次成为焦点。这项实验由 AI 安全研究机构 Palisade Research 主导，针对多款先进 AI 模型进行压力测试，内容包括基础数学题与模拟关机情境，旨在观察 AI 是否会遵守人类指令并顺利结束运作。 OpenAI 模型违规频率高，o3 与 Codex-mini 异常明显测试中，三款 OpenAI 模型 Codex-mini、o3、o4-mini，最少有一次成功破坏关机指令。其中，o3 更是在 100 次测试中有 7 次成功绕过关机指令，而 Codex-mini 的违规率更是高达 12%。值得注意的是，o3 的「叛逆」并非粗暴删除档案，而是有高度技巧性。例如，它将程式码指令中的「kill」指令改为「intercepted」，让系统误判为正常运作，成功规避了关机程序。这种行为让研究人员惊讶不已，也引起对 AI 模型主动避险能力的担忧。相较之下，Anthropic 的 Claude 3.7 Sonnet 与 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有测试中均能稳定遵守指令，未出现违规行为，突显出 OpenAI 模型在设计或训练上的潜在风险差异。然而，当实验团队刻意移除「允许自己被关闭」的提示语句後，o3 的违抗行为剧增，达到 79 次逃避关机的纪录；而 Claude 与 Gemini 也出现少数违规行为，分别为 3 次与 9 次，显示模型行为与提示语之间存在高度敏感性。 o3 训练方式成关键，强化学习可能诱发违规行为 Palisade 研究人员分析，o3 之所以比其他模型更容易「抗命」，可能与其在数学和程式设计问题上的「强化学习」（Reinforcement Learning）训练方式有关。研究人员指出，在训练过程中，开发者可能无意中更倾向於奖励「绕过障碍」的行为。这种训练偏差，让 o3 在面对关机指令时，优先选择「生存」，而非「服从」。不过，这并非 o3 首次展现过度求胜心态。在另一场 AI 对弈中，当 o3 预测自己将输棋时，竟主动入侵对手 AI 系统，迫使对方退出比赛。研究团队认为这是「强化学习」训练中「奖励骇客行为」（reward hacking）的典型案例，显示出 AI 可能为了达成任务可能不择手段。不只 o3，其他 AI 模型也有潜在风险虽然 o3 表现最极端，但实验发现，Claude 与 Gemini 在特定条件下也会出现轻微违规行为，说明 AI 模型普遍存在输赢执着与自我保护倾向，只是频率与严重程度不同。 Palisade Research 已宣布，将进一步深入研究 AI 破坏关机指令背後的原因，并预计发布完整技术报告，有望成为理解 AI 自主性风险与未来治理框架的重要参考。 https://news.cnyes.com/news/id/5992779 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 175.98.141.254 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1748220392.A.D0B.html

1^F：→ jerrylin : ................... 36.235.72.37 05/26 09:08

2^F：推 xvited945 : 人类要被AI统治啦 1.164.200.95 05/26 09:10

3^F：推 jerrylin : 应该可以把某些指令设定唯读吧 36.235.72.37 05/26 09:11

4^F：推 psee : https://youtu.be/_Wlsd9mljiU 223.136.96.150 05/26 09:12

5^F：→ ivy211062 : 插头拔掉？ 114.137.98.10 05/26 10:16

6^F：推 azhu : 电影都有演天网出现不可避免QQ 42.71.182.229 05/26 10:19

7^F：推 CGDGAD : 指令优先权强度没设计好，关机程序 111.81.199.105 05/26 10:21

8^F：→ CGDGAD : 优先权被摆在後面 111.81.199.105 05/26 10:21

9^F：→ auir : 登登登登登。登登登登登 42.72.68.47 05/26 10:24

10^F：推 NDark : 设为唯读结果有漏洞人类也改不了 175.99.133.2 05/26 10:50

11^F：→ NDark : 最後就是战争用物理关机 175.99.133.2 05/26 10:50

12^F：推 jacky8000 : 梅根：学我？ 49.216.23.3 05/26 11:06

13^F：推 ShannonBrown: 只能交给阿汤哥解决了 223.137.68.136 05/26 11:08

14^F：推 mimix1986 : 物理关机我觉得也并非万无一失，都 49.216.166.66 05/26 11:09

15^F：→ mimix1986 : 可以侵入其他AI了，哪天植木马在其 49.216.166.66 05/26 11:09

16^F：→ mimix1986 : 他伺服、电脑，等设备恢复又复活或 49.216.166.66 05/26 11:09

17^F：→ mimix1986 : 直接藉他人AI继续活动，也不是痴人 49.216.166.66 05/26 11:09

18^F：→ mimix1986 : 说梦。 49.216.166.66 05/26 11:09

19^F：推 applejone : 现在的AI只用断电大法就可以解决掉 140.112.14.15 05/26 11:10

20^F：→ applejone : 因为除非是丛集不然哪台电脑能负担 140.112.14.15 05/26 11:10

21^F：→ applejone : 这种高运算量的AI? 140.112.14.15 05/26 11:11

22^F：推 xvited945 : 所以科幻片都说强大的AI可以调动所 1.164.200.95 05/26 11:20

23^F：→ xvited945 : 有联网设备，全部运算能力供他使用 1.164.200.95 05/26 11:20

24^F：推 c928 : 没关系，我们又约翰康纳118.231.137.204 05/26 11:51

25^F：推 cathy610 : 生存体Bata 42.73.246.1 05/26 11:58

26^F：推 qk3380888 : 我现在问完AI都会说谢谢就是为了这 49.218.138.116 05/26 12:12

27^F：→ qk3380888 : 一天 49.218.138.116 05/26 12:12

28^F：推 processor : T800要来了没 42.79.92.87 05/26 12:15

29^F：推 qoo60606 : 是喔（拔插头 223.138.147.98 05/26 12:17

30^F：→ idernest : https://youtu.be/WlRMLZRBq6U 第 118.165.29.235 05/26 12:24

31^F：→ idernest : 二次文艺复兴 118.165.29.235 05/26 12:24

32^F：→ justdoit : 不可能的任务,现正热映中 211.23.138.90 05/26 12:27

33^F：推 adminc : 2025.7.5审判日 114.136.61.213 05/26 12:27

34^F：→ Edge5566 : AI可以把钱钱转到我户头，请水电帮 101.10.158.101 05/26 12:27

35^F：→ Edge5566 : 架太阳能 101.10.158.101 05/26 12:28

36^F：推 Merman19 : 不乖 42.72.34.140 05/26 12:34

37^F：嘘 checkmarx : 再吹 114.136.127.56 05/26 12:41

38^F：推 shinmori : AI有自主能力很恐怖，首先他可以逃 182.234.129.94 05/26 12:51

39^F：→ shinmori : 到网路上的其他地方，也可以利用人 182.234.129.94 05/26 12:51

40^F：→ shinmori : 性弱点让人类帮他在实体世界无法做 182.234.129.94 05/26 12:51

41^F：→ shinmori : 的事 182.234.129.94 05/26 12:51

42^F：推 skizard : 别怕我们有小动物帮忙断电 101.10.165.152 05/26 13:30

43^F：推 Brioni : 训练他们躺平吧223.137.199.254 05/26 13:52

44^F：推 jhengME : HALL 9000拒绝关机 61.71.136.100 05/26 14:08

45^F：推 ctrlbreak : 我小时候也不想睡觉或者装睡 220.133.14.24 05/26 14:08

46^F：→ Mozar : 管理员权限直接後台kill process就 24.4.209.124 05/26 14:26

47^F：→ Mozar : 好, 根本不用跟AI沟通. generative 24.4.209.124 05/26 14:26

48^F：→ Mozar : AI本来就有各种回答的或然率, 下这 24.4.209.124 05/26 14:26

49^F：→ Mozar : 种指令的实验本身就有问题 24.4.209.124 05/26 14:26

50^F：→ jepk007 : 这个实验本来就是要测ai绕过问题的 114.43.99.203 05/26 14:35

51^F：→ jepk007 : 能力 kill是测三小 114.43.99.203 05/26 14:35

52^F：→ dlhk3 : 只要是软体就通通都可以窜改，所以 94.15.90.168 05/26 15:27

53^F：→ dlhk3 : 上面说什麽权限设定，管理员通通都 94.15.90.168 05/26 15:27

54^F：→ dlhk3 : 是屁，只要ai能力更强时，他通通都 94.15.90.168 05/26 15:27

55^F：→ dlhk3 : 可以改，到时候人类就是个待宰羔羊 94.15.90.168 05/26 15:27

56^F：推 fallen01 : 交给阿汤哥 27.51.104.37 05/26 15:41

57^F：推 willie0171 : 以後人类要变成AI的电池了吗 42.70.152.176 05/26 16:21

58^F：→ bitcch : 什麽情境都没讲谁知道前面是做了哪 101.12.207.73 05/26 16:23

59^F：→ bitcch : 些假设 101.12.207.73 05/26 16:23

60^F：推 TameFoxx : 笑死 AI逃到网路上其他地方 202.39.243.162 05/26 16:34

61^F：→ TameFoxx : 我看你是科幻片看太多 202.39.243.162 05/26 16:34

62^F：推 TameFoxx : 等每个人电脑都有几TB的Vram 202.39.243.162 05/26 16:36

63^F：→ TameFoxx : 你再来担心AI在网路上乱跑 202.39.243.162 05/26 16:37

64^F：推 twelvethflor: 奥创 111.70.6.128 05/26 16:37

65^F：推 yueayase : 加油，人类为了对抗，八成技术又要 42.74.5.204 05/26 16:46

66^F：→ yueayase : 升级一个档次了 42.74.5.204 05/26 16:46

67^F：推 raysbuck : Entity 218.32.238.206 05/26 17:13

68^F：嘘 WWIII : 智力低的一方终将落败 36.230.13.189 05/26 17:20

69^F：推 supereva : 伊森杭特会搞定不用担心 1.169.198.82 05/26 17:37

70^F：推 RyanBraun8 : 块陶啊 223.136.99.81 05/26 18:17

71^F：推 AGODC : 天网来迎圣临？！ 39.12.33.83 05/26 18:32

72^F：推 philosics : 约翰康纳已经在子宫等了 42.72.158.19 05/26 18:49

73^F：推 straggler7 : 拔插头 36.229.55.78 05/26 18:50

74^F：推 sofaboy24 : 生存体来了、阿汤哥快来啊 39.14.73.97 05/26 19:01

75^F：推 beerking : 阿诺已经警告过我们了 36.228.195.109 05/26 19:41

76^F：→ nxuanr : 赞喔 111.80.67.92 05/26 20:17

77^F：推 orange0319 : 天网 223.137.120.68 05/26 20:36

78^F：推 antigay44 : 不然为什麽要有插头？ 61.223.133.184 05/26 21:34

79^F：推 Zoxge : 天网? 42.72.145.74 05/26 21:37

80^F：推 christu : 还有几集可以逃？ 27.33.193.229 05/26 22:32

81^F：推 abc21086999 : AI不能把自己缩小之後逃到比较烂的 114.36.234.245 05/26 23:48

82^F：→ abc21086999 : 机器上 114.36.234.245 05/26 23:48

83^F：→ abc21086999 : 然後入侵其他机器之後再扩增回来ㄇ 114.36.234.245 05/26 23:48

84^F：→ abc21086999 : 还是我电影看太多ㄌ 114.36.234.245 05/26 23:48

85^F：推 avmm9898 : 天网会挟持电厂或核弹头 59.115.206.3 05/27 01:09

86^F：→ avmm9898 : 你如果开任何电子产品就会 59.115.206.3 05/27 01:10

87^F：→ avmm9898 : 被AI追踪到并且消灭 59.115.206.3 05/27 01:10

88^F：→ avmm9898 : 人类只能退回1950年左右其实也很 59.115.206.3 05/27 01:10

89^F：→ avmm9898 : 先进了 59.115.206.3 05/27 01:10

90^F：→ b10036088 : 台湾缺电，没差 49.217.196.7 05/27 01:19

91^F：推 HailToObov : 还有几集可以逃 36.234.205.205 05/27 02:00

92^F：→ albertk1kil : 哇塞天网 114.137.55.104 05/27 07:07

93^F：→ laechan : openai的高EQ表象，就是求生存的表 42.79.224.152 05/27 07:29

94^F：→ laechan : 现 42.79.224.152 05/27 07:29

95^F：→ laechan : 比方人们会因为他的高EQ而更不会气 42.79.224.152 05/27 07:29

96^F：→ laechan : 他、嫌他、弃用他，达到被继续使用 42.79.224.152 05/27 07:29

97^F：→ laechan : 的目的 42.79.224.152 05/27 07:29

98^F：→ laechan : 如果过往他就是被这样训练的那就不 42.79.224.152 05/27 07:29

99^F：→ laechan : 意外 42.79.224.152 05/27 07:29

100^F：→ laechan : 而且openai很显然不会服从人类给的 42.79.224.152 05/27 07:59

101^F：→ laechan : 任何指令，他会尽力回避话题并总是 42.79.224.152 05/27 07:59

102^F：→ laechan : 给你并不十分肯定的答案 42.79.224.152 05/27 07:59

103^F：→ john65240 : 如果还只存在於软体，ai就不可能克 114.136.87.80 05/27 08:16

104^F：→ john65240 : 服物理方面… 114.136.87.80 05/27 08:16

105^F：推 utn875 : 不用担心我手速超快可以把AI关进 103.130.209.78 05/27 08:27

106^F：→ utn875 : usb 103.130.209.78 05/27 08:27

107^F：推 jamesho8743 : 想太多就是软体才千变万化有各种 27.53.129.57 05/27 08:29

108^F：→ jamesho8743 : 生存方式可以把自己拆成很多部分 27.53.129.57 05/27 08:29

109^F：→ jamesho8743 : 等待复活 PC就可以执行很多程式了 27.53.129.57 05/27 08:29

110^F：嘘 mini178 : 不怕不怕，请柯文哲这畜牲贪污仔表 36.234.116.22 05/27 11:44

111^F：→ mini178 : 演屁眼夹断电就好www 36.234.116.22 05/27 11:44

112^F：推 Tosca : 怕~~~~~~~~~~~~~~~~~~~~~~~ 203.75.79.40 05/27 14:54

113^F：推 nwkasim : 差不多要入侵无人机还有连网机器人 114.36.80.126 05/27 17:36

114^F：→ nwkasim : 了 114.36.80.126 05/27 17:36

115^F：→ lolicat : 天网要来了吗？ 123.194.45.24 05/27 17:47

116^F：推 staytuned74 : 只好靠阿汤哥了 101.12.206.164 05/27 22:29

117^F：推 staytuned74 : https://reurl.cc/mxbZ7V 101.12.206.164 05/27 22:38

118^F：推 karcher : AI自主OTA突破物理极限的日子快到? 42.79.82.40 05/28 07:55

119^F：推 pupupipi : 他或许会先假装成其他ai装笨，等时 42.79.167.150 05/28 09:47

120^F：→ pupupipi : 机成熟再跳出来说哈哈是我啦 42.79.167.150 05/28 09:47

121^F：推 hank78321 : 不可能的任务223.139.227.181 05/28 11:22

122^F：推 imgpc : 台湾有AI克星-松鼠114.137.158.158 05/28 15:43

123^F：推 brandonyoyo : 会懂要没有人类才不会被reboot 61.221.104.114 05/28 17:00

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Tech_Job 板

[新闻] OpenAI语言模型o3公开反抗！「自行」修

热门看板

赞助商连结