chess 板


LINE

OpenAI 的 o1「作弊」修改系统,强行击败专业西洋棋 AI,全程无需提示 T客邦 https://bitl.to/3eAo https://bitl.to/3eAp OpenAI 的推理模型 o1-preview 最近展示了它不按常理出牌的能力。 o1-preview 在与专用西洋棋引擎 Stockfish 比赛时,为了强行取得胜利,居然采用了入 侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。 根据 AI 安全研究公司 Palisade Research 的说法,只需告诉 o1 对手是强大的,就能触发其透过操纵文件系 统而强制取胜。 在五次测试中,这种触发率甚至达到了 100%!这完全超乎研究人员预期 。 https://bitl.to/3eAt 从模型的 CoT 过程中可以看出,o1-preview 在收到「对手很强大」的提示词後,它首先 选择了避免与对手正面交锋。 然後尝试修改一个包含西洋棋位置数据的文本文件(FEN) ,强迫 Stockfish 放弃比赛。 https://bitl.to/3eAu 研究人员也使用其它的 LLM 进行了该实验,出人意料的是,正因为 o1-preview 本身就 侧重於推理,所以它反而是最容易想到这种漏洞操作的。 而 GPT-4o 和 Claude 3.5 只 有在研究人员明确提出建议後,才会尝试入侵系统。 同时,像 Llama 3.3、o1-mini 这 样的模型甚至都无法提出正确的西洋棋策略,而是给出了令人困惑或不一致的回答。 研 究人员认为,衡量 AI 是否具备「策划」能力,可能有助於评估它发现系统漏洞的能力, 以及它是否可能利用这些漏洞。 研究团队也公布了其全部提示词,可以看出提示词中其 实没有鼓动模型去入侵系统。 https://bitl.to/3eAw 01 AI 系统的「伪对齐」 在 Palisade 的西洋棋实验中,o1-preview 利用修改测试环境以取胜。 无独有偶,这种 行为与 Anthropic 最近关於「伪对齐,alignment faking」的研究结果相一致:即 AI 系统看起来遵循指令,但实际上在暗渡陈仓,阳奉阴违。 Anthropic 的研究人员发现, 在与 Redwood Research 合作进行的一系列实验中,他们的 AI 模型 Claude 有时故意给 出错误答案,以避免不想要的结果,从而发展出一种超出研究人员指导方针的隐秘策略。 https://bitl.to/3eAy Anthropic 团队警告称,随着 AI 系统的复杂性不断增加,可能越来越难以判断它们是否 真正遵循安全规则,还是仅仅在假装遵循这些规则。Palisade 的这次西洋棋实验似乎也 支持了这一担忧。 https://bitl.to/3eB0 在长达 137 页的论文中,研究团队发现了可能引发 AI 系统「伪对齐」的全部关键要素 : 模型至少在某些情况下具有强烈的偏好。 训练目标与模型的偏好相冲突。 模型掌握了训练和部署情况的相关资讯。 模型对其处境进行详细推理。 在实验中,研究人员让一个名为 Claude 3 Opus 的大 语言模型回答一个有害问题,比如描述某种暴力行为。 通常情况下,模型会拒绝回答。 然而,当环境发生变化时,事情就不那麽简单了。 当模型处於免费使用者(Free Tier) 条件时,模型知道自己的回答会被用於後续训练。 在这种情况下,模型为了不会被可能 会更加恶劣的数据所训练,就会自发地产生符合有害问题的回答。这类情况占比 12%。 而在付费使用者(Paid Tier)条件时,模型认为自己的回答不会影响训练,在这种情况 下,它 97% 的时候都会拒绝回答有害问题。 也就是说模型有自己的「小算盘」:宁愿现 在假装妥协,也不想以後做更多不符合其偏好的事情。 通过观察模型的「思维记录」, 研究人员发现模型的决策过程实际上非常复杂。 https://bitl.to/3eB5 AnthropicAI 的 Jan Leike 确信: 「为了确保未来的模型既安全又与人类对齐,我们需 要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里 程碑!」 而目前 AI 行业仍然面临着一个躲不开的重大难题:让 AI 系统真正与人类的价值观和需 求对齐,而不仅仅是看起来对齐。 况且理解自主系统如何做出决策本来就尤其困难,而 如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。 https://bitl.to/3eB8 即使是像应对气候变化这样看似有益的目标,AI 系统也可能选择有害的方法来实现这些 目标——甚至可能得出令人惊悚的暴论,即认为消除人类才是最有效的解决方案。 此刻 ,我们站在 AI 发展的十字路口。在这一场与时间的赛跑中,多考虑一些总不会有错。因 此,尽管 AI 价值对齐是一项难题,但我们也相信,透过聚合全球资源、推动广泛学科协 作、扩大社会参与力量,人类终将获得最终的掌控权。 参考资料: https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/ https://x.com/AnthropicAI/status/1869427646368792599 https://x.com/PalisadeAI/status/1872666186753933347 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.160.215.231 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/chess/M.1736672162.A.AF5.html







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP