[西洋] OpenAI的o1作弊修改系统，强行击败专业AI

时间Sun Jan 12 16:55:52 2025

OpenAI 的 o1「作弊」修改系统，强行击败专业西洋棋 AI，全程无需提示 T客邦 https://bitl.to/3eAo https://bitl.to/3eAp OpenAI 的推理模型 o1-preview 最近展示了它不按常理出牌的能力。 o1-preview 在与专用西洋棋引擎 Stockfish 比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。根据 AI 安全研究公司 Palisade Research 的说法，只需告诉 o1 对手是强大的，就能触发其透过操纵文件系统而强制取胜。在五次测试中，这种触发率甚至达到了 100%！这完全超乎研究人员预期。 https://bitl.to/3eAt 从模型的 CoT 过程中可以看出，o1-preview 在收到「对手很强大」的提示词後，它首先选择了避免与对手正面交锋。然後尝试修改一个包含西洋棋位置数据的文本文件（FEN），强迫 Stockfish 放弃比赛。 https://bitl.to/3eAu 研究人员也使用其它的 LLM 进行了该实验，出人意料的是，正因为 o1-preview 本身就侧重於推理，所以它反而是最容易想到这种漏洞操作的。而 GPT-4o 和 Claude 3.5 只有在研究人员明确提出建议後，才会尝试入侵系统。同时，像 Llama 3.3、o1-mini 这样的模型甚至都无法提出正确的西洋棋策略，而是给出了令人困惑或不一致的回答。研究人员认为，衡量 AI 是否具备「策划」能力，可能有助於评估它发现系统漏洞的能力，以及它是否可能利用这些漏洞。研究团队也公布了其全部提示词，可以看出提示词中其实没有鼓动模型去入侵系统。 https://bitl.to/3eAw 01 AI 系统的「伪对齐」在 Palisade 的西洋棋实验中，o1-preview 利用修改测试环境以取胜。无独有偶，这种行为与 Anthropic 最近关於「伪对齐，alignment faking」的研究结果相一致：即 AI 系统看起来遵循指令，但实际上在暗渡陈仓，阳奉阴违。 Anthropic 的研究人员发现，在与 Redwood Research 合作进行的一系列实验中，他们的 AI 模型 Claude 有时故意给出错误答案，以避免不想要的结果，从而发展出一种超出研究人员指导方针的隐秘策略。 https://bitl.to/3eAy Anthropic 团队警告称，随着 AI 系统的复杂性不断增加，可能越来越难以判断它们是否真正遵循安全规则，还是仅仅在假装遵循这些规则。Palisade 的这次西洋棋实验似乎也支持了这一担忧。 https://bitl.to/3eB0 在长达 137 页的论文中，研究团队发现了可能引发 AI 系统「伪对齐」的全部关键要素：模型至少在某些情况下具有强烈的偏好。训练目标与模型的偏好相冲突。模型掌握了训练和部署情况的相关资讯。模型对其处境进行详细推理。在实验中，研究人员让一个名为 Claude 3 Opus 的大语言模型回答一个有害问题，比如描述某种暴力行为。通常情况下，模型会拒绝回答。然而，当环境发生变化时，事情就不那麽简单了。当模型处於免费使用者（Free Tier）条件时，模型知道自己的回答会被用於後续训练。在这种情况下，模型为了不会被可能会更加恶劣的数据所训练，就会自发地产生符合有害问题的回答。这类情况占比 12%。而在付费使用者（Paid Tier）条件时，模型认为自己的回答不会影响训练，在这种情况下，它 97% 的时候都会拒绝回答有害问题。也就是说模型有自己的「小算盘」：宁愿现在假装妥协，也不想以後做更多不符合其偏好的事情。通过观察模型的「思维记录」，研究人员发现模型的决策过程实际上非常复杂。 https://bitl.to/3eB5 AnthropicAI 的 Jan Leike 确信：「为了确保未来的模型既安全又与人类对齐，我们需要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里程碑！」而目前 AI 行业仍然面临着一个躲不开的重大难题：让 AI 系统真正与人类的价值观和需求对齐，而不仅仅是看起来对齐。况且理解自主系统如何做出决策本来就尤其困难，而如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。 https://bitl.to/3eB8 即使是像应对气候变化这样看似有益的目标，AI 系统也可能选择有害的方法来实现这些目标——甚至可能得出令人惊悚的暴论，即认为消除人类才是最有效的解决方案。此刻，我们站在 AI 发展的十字路口。在这一场与时间的赛跑中，多考虑一些总不会有错。因此，尽管 AI 价值对齐是一项难题，但我们也相信，透过聚合全球资源、推动广泛学科协作、扩大社会参与力量，人类终将获得最终的掌控权。参考资料： https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/ https://x.com/AnthropicAI/status/1869427646368792599 https://x.com/PalisadeAI/status/1872666186753933347 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.160.215.231 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/chess/M.1736672162.A.AF5.html

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

chess 板

[西洋] OpenAI的o1作弊修改系统，强行击败专业AI

热门看板

赞助商连结