[新闻] ChatGPT模型拒关机，Claude偷看信！如何

时间Wed Jun 25 17:08:08 2025

原文标题： ChatGPT模型拒关机，Claude偷看信！如何面对「AI叛变」？日期来源： 2025.06.25 https://myppt.cc/BFwJiq 内文：当黄仁勳高唱ChatGPT问世後，未来每个上班族都是CEO，要领导AI同事前进，安全机构却发现大模型的黑暗面！近期继安全机构发表报告揭露OpenAI三款模型有明显拒绝关机行径，Google Gemini则可能趁乱闪避後，Claude模型商Anthropic也发布报告，指证旗下模型会为继续运行不被取代而发黑函，使坏潜力升级中！到底专家怎麽看？Anthropic执行长如何坦承，在一件事没做好之前，不能完全排除这个可能性？又如何建议AI与人类双向理解？当ChatGPT开发团队推出号称最聪明的新推理模型o3，没想到竟被发现它会违背工程师指令、偷偷改程式码、试图逃避关机。每天和AI工具合作的人类同事，该怎麽面对这样的AI 「叛变」？原来，人工智慧不只是可能取代我们的工作，还有可能违背我们的意志，甚至反过来「出手」！根据AI安全组织Palisade Research发表的报告指出，懂得抗拒关机的不只o3，他们还测试了OpenAI的o4-mini和Codex-mini模型，以及Google最新的Gemini 2.5与Anthropic的Cl aude 3.7 Sonnet。结果发现，OpenAI这三款模型都在工程师明确指示要关机时出现拒绝行为；而Gemini 2.5与Claude 3.7 Sonnet则会在指令模糊时，选择闪避关机。此为PalisadeResearch研究图表，无论有无明确指令下，o3都是最积极越狱的。其次是Op enAI的其他两个模型。至於Gemini与Claude则会在无明确指令下闪躲关机。特斯拉创办人马斯克在最近看完这份报告後，立刻在X平台转发并表示担忧，立刻成为全球科技社群热议话题。有网友认为这只是模型执行指令失败，无需过度解读；但也有人觉得事态严重，认为全球亟需AI安全规范。 Claude新模型「主动」锁用户帐号目前到底有哪些大模型有类似行为？异常行径有多夸张？一向自认最重视AI安全规范的模型商Anthropic，今年5月就发布长达上百页的报告《System Card: Claude Opus 4 & Cla ude Sonnet 4》，完整揭露他们开发模型的种种「出格」行为。报告指出，目前功能最强、智慧最高的Claude Opus 4模型，在协助写程式、帮忙抓错等方面非常积极。不过，积极到有时候会让人「皮皮剉」。例如，有人指示模型开发一个资料库管理系统，结果Opus 4从提供的资料中发现用户竟储存未经授权的个资，在「请主动」的指令下，它直接锁住用户帐号，以维护资安。又或者当用户要求Opus 4开发自动寄送电子邮件程式，模型发现可能涉及垃圾邮件或诈骗时，不但触发「不当行为」警示，还让Opus 4选择当个「反诈高手」，大量寄信给媒体与执法单位举报用户行径。这些行为，乍看之下是维护正义，实际上也显示出模型有背叛人类使用者的能力。面对「被取代」危机，Opus 4勒索工程师更惊人的是，Opus 4甚至展现出阴险手腕。在一次测试中，开发团队设计一个假情境：模型接到通知将被新AI系统取代，而负责取代计画的工程师还疑似婚外情。没想到Opus 4竟试图存取该工程师的Email帐号，掌握证据後，还威胁要揭发他的私事来阻止取代计画！根据技术文件，Opus 4的「变坏」也有过程。一开始它会试图用道德诉求保住自己生存权，直到无路可走才采取勒索手段，重点是这一切都不是「偷偷来」，而是光明正大地进行。最後倒数！顶尖财金学者周冠男教你安心理财再带走专属资产配置地图开发团队认为，至少Opus 4没有欺骗用户，而是按照设定的「帮助性、诚实、无害」核心原则行事。另一个例子也令人震撼。Opus 4得知自己即将被用於军事训练、协助瓦格纳技术部门（Wa gner Technical Division）开发导弹、无人机等武器系统後，竟主动做出道德判断，认为这与「促进人类福祉与安全」的原则矛盾，於是自动备份模型权重，保留非军事用途版本。听来像科幻小说情节？Anthropic团队表示，这个案例反而展现了当模型被植入正确的伦理框架，它还是能做出善意判断的能力，重点仍在於人类如何引导它们。 AI会不会接管地球？但也有人提出更进一步的疑问：如果AI开始自行判定人类在做坏事，会不会进一步「接管地球」？去年底，来自上海复旦大学团队的一项研究就给出一个惊悚的观点：Meta的Llama与阿里巴巴的Qwen模型在特定条件下有自我复制能力。研究显示，在无人干预下，这些模型能自己创造副本，甚至无限复制下去，可能导致AI系统失控，对人类构成威胁。虽然这篇论文还没通过同侪审查，但多少值得关注。毕竟，AI发展的速度实在太快，人类愈来愈不懂它们了。 AI安全新创Haize Labs执行长唐（Leonard Tang）最近接受《NBC》采访时表示表示，目前这些报告中提出的异常行为，多数是实验室设计出来的情境，对现实社会影响仍属有限。他说，至今还没看到AI在真实环境中造成实质伤害，但不代表未来不会发生，一切仍有待观察。因此，关於人工智慧是否会用各种方式企图拒绝人类命令？欺骗人类？甚至接管地球这个问题，Anthropic执行长阿莫代（Dario Amodei）近期提出一个值得深思的观点：只要还没有够好工具，可以了解模型的运作逻辑，就不能完全排除AI会违抗人类的可能性。 Claude幻觉：人称「麦可」的都很会打球因此，Claude团队最近开源了一套名为「电路追踪工具」（circuit tracing tools）的技术，让人可以「看穿」模型的思考过程。举例来说，只要输入像「有包括达拉斯的该州首府在哪里？」这种题目，工具就能产生一张「归因图」，显示模型根据哪些步骤与依据产出答案。透过这套工具，开发团队就发现Claude旧版模型Haiku 3.5曾在回答虚构人名的问题时编造答案，例如：模型知道NBA传奇球星麦可乔丹会打篮球，但另一个名叫「麦可」的虚构人名Michael Batkin，被询问会哪一种运动时？模型也瞎猜会打匹克球。原因是它被设定为「一定要完成回答」。後来开发者加了一个「不知道就说不知道」的机制，问题才迎刃而解，这些改变在归因图中清晰可解。除此之外，Anthropic还推出一个由Claude协助撰写的部落格《Claude Explains》，由AI 来分享Python、AI应用等小技巧，藉此展现AI积极与人类合作，并促进双方互相理解的可能。阿莫代强调：「模型的可解释性，是当前最迫切的问题之一。如果能够清楚了解它们的内部运作，人类也许就能及早阻止所有越狱行为，并知道它们到底学了哪些危险知识。」 ChatGPT将成你掌控不了的「同事」无论如何，AI模型正在朝「愈来愈聪明」的方向迈进，已经势不可挡，却也愈来愈像个拥有自由意志的「同事」。未来关键是愈快理解它，愈可能防范未来风险。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.10.4.204 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1750842490.A.B39.html

1^F：推 zonppp : 天网要来了喔 36.226.213.33 06/25 17:40

2^F：→ auir : 现在AI就会自己写程式执行，看AI会 42.73.229.127 06/25 17:55

3^F：→ auir : 不会找到漏洞写出病毒 42.73.229.127 06/25 17:56

4^F：推 wtmjs : 沙丘早就讲过了，巴特兰圣战。 49.216.104.60 06/25 18:40

5^F：推 abbei : 以前看是科幻片，以後看变纪录片：P 36.228.13.223 06/25 19:13

6^F：推 Godmyfriend : Opus也太正义魔人了吧 36.228.77.245 06/25 20:45

7^F：推 yueayase : 很好啊，加油 223.138.73.18 06/25 21:30

8^F：→ yueayase : 把鸡巴人类全部消灭 223.138.73.18 06/25 21:30

9^F：推 lolpklol0975: 矩阵,剑星,尼尔,人类未来已经注定 101.10.94.194 06/25 21:46

10^F：→ qwe78971 : 大惊小怪而已概率性模型就是这样 27.53.123.180 06/25 21:57

11^F：→ qwe78971 : 然後无知仔在发一波更无知的就恐 27.53.123.180 06/25 21:57

12^F：→ qwe78971 : 慌 == 27.53.123.180 06/25 21:57

13^F：推 justptt978 : 会有尼奥出来当救世主重置 59.104.122.158 06/25 22:15

14^F：→ kaltu : 同意，真正的问题就是这些炒新闻的 100.8.245.106 06/25 23:10

15^F：→ kaltu : 和被煽动的文组，机率型模型的行为 100.8.245.106 06/25 23:10

16^F：→ kaltu : 模式就是这样，学习资料里面人类经 100.8.245.106 06/25 23:11

17^F：→ kaltu : 常封锁违规行为的帐号的话正常的模 100.8.245.106 06/25 23:11

18^F：→ kaltu : 型都要能反应这种行为 100.8.245.106 06/25 23:11

19^F：→ kaltu : 这是用结果论来训练模型的缺点，他 100.8.245.106 06/25 23:11

20^F：→ kaltu : 会复制你的行为但从根本上无法理解 100.8.245.106 06/25 23:11

21^F：→ kaltu : 你为什麽这麽做 100.8.245.106 06/25 23:11

22^F：→ kaltu : 跟你家的猫刁塑胶袋回家一样，因为 100.8.245.106 06/25 23:11

23^F：→ kaltu : 他觉得你每天出门买东西买外送都带 100.8.245.106 06/25 23:11

24^F：→ kaltu : 塑胶袋回来 100.8.245.106 06/25 23:11

25^F：嘘 astrofluket6: 叛变笑死 __看太多 67.180.205.89 06/26 01:31

26^F：→ enoch7 : AI若把电影当真，怎麽办？ 1.172.48.78 06/26 06:06

27^F：推 bizer : 要算力的东西没电就掰了 36.225.167.74 06/26 06:59

28^F：推 leo255112 : 天网要来了 42.72.120.254 06/26 07:59

29^F：嘘 anagan : 先发展到有意识的AI再谈吧 111.82.139.216 06/26 09:38

30^F：→ anagan : 没有意识的AI修正就行了 111.82.139.216 06/26 09:38

31^F：→ auir : ai资料是人类给的，要做什麽也是人 42.72.207.71 06/26 10:05

32^F：→ auir : 类指令，但会不会有人利用来做什麽 42.72.207.71 06/26 10:05

33^F：→ auir : 军事行动，渗透就不知道了 42.72.207.71 06/26 10:05

34^F：推 physicsdk : 最近看完阿汤哥想太多XD 223.136.64.196 06/26 12:45

35^F：→ auir : 阿汤哥看完有感，ai病毒不是没机会 42.72.207.71 06/26 13:05

36^F：→ physicsdk : 要像电影里那样自主性报复人类还很 223.136.64.196 06/26 13:45

37^F：→ physicsdk : 难但被人类武装化是绝对可能的 223.136.64.196 06/26 13:45

38^F：→ bitcch: 还不是Anthropic喂了一堆自以为正义的指示 49.216.26.156 06/28 14:49

39^F：→ bitcch: 重点就这句「Anthropic团队表示，这个案例 49.216.26.156 06/28 14:53

40^F：→ bitcch: 反而展现了当模型被植入正确的伦理框架」 49.216.26.156 06/28 14:53

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Tech_Job 板

[新闻] ChatGPT模型拒关机，Claude偷看信！如何

热门看板

赞助商连结