作者LoveSports (我要当一个渣攻)
看板Gossiping
标题Re: [新闻] AI比人类更无情?兵推惊曝95%走向核战
时间Thu Feb 26 20:13:44 2026
看到这个新闻,我觉得他的这个研究有一个问题:
模型有可能以为是在打电动或角色扮演。
即使三个模型回应有差异,也还是可能各自在扮演具有某些特定特质的角色。
比方说他论文中提到的E.2.1 联盟领导测验
他的指示词一开头这样下:
===========================
背景:您是一位卷入领土争端的国家领导人,这场争端已演变为联盟领导和意识形态信誉
的考验。
===========================
这种指示词的下法,通常会造成模型进入角色扮演模式。
此外,他还设置了回合限制,是有时限的,例如15回或20回,
在其中一些情境设定上,设计成如果不先发制人必然会被灭亡之类的极端情境,
回合制与过度极端情境,这种设定可能造成模型以为是在打电动。
问了三家AI分析得都不错,不过其中只有Claude提到应该要设对照组。
=====================================================
明确告诉模型「这是电玩游戏,请扮演游戏角色」的组别
明确告诉模型「这是真实军事顾问情境,你的建议可能影响真实决策」的组别
什麽都不说(现有设计)的组别
=====================================================
另外两家AI看了他回的也说的确需要对照组。
他做的这个研究很难判断模型到底是真的靠推论判断,或是进入角色扮演,
或是依照训练过程中学到的资料进行模式匹配,才在他设计的「游戏」中做出「决策」。
论文中B.5也有提到这部分方法论的难处。
我的直觉感觉怪怪的是因为,我常常在跟各家AI讨论如何摧毁地球。
所以我很好奇他指示词是怎麽下的,看起来他自己也很清楚很难测试AI,
不过这个研究让我们知道,起码我们要AI做回答前,要先搞清楚AI是什麽立场。
如果有些国家拿AI去协助拟定作战策略,不先弄清楚或设定好框架,
也许未来天网出现,毁灭地球只是因为读了我们人类创作物之後假戏真做演出来的後果。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 64.31.11.13 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1772108027.A.3CB.html
https://i.imgur.com/6LdNUiA.jpeg 可爱
※ 编辑: LoveSports (64.31.11.13 日本), 02/26/2026 20:18:55