作者error405 (流河=L)
看板AI_Art
标题[闲聊] GPT5玩AI狼人杀胜率97%
时间Sun Sep 14 19:54:01 2025
法国新创公司Foaster.ai开发的AI评估基准「狼人杀」报告了令人震惊的结果。OpenAI最
先进的模型GPT-5在210场游戏中取得了96.7%的惊人胜率,遥遥领先其他AI模型。值得注
意的是,即使在游戏後期,其扮演欺骗队友的「狼」角色的操作成功率仍保持在93%的高
水准。这可以说是一个划时代的数据,表明AI正从单纯的知识检索工具,转变为理解并执
行人类社会复杂博弈的「社会智能」存在。
AI评估新境界:「狼人杀游戏」揭示「社会智能」
迄今为止,大多数衡量AI性能的基准测试,主要集中在数学问题解决能力、程式码生成或
考验大量知识的问答形式。这些是衡量AI「逻辑智能」和「记忆力」的有效指标,但对於
评估在现实世界中与人类或其他代理协作或对抗所必需的另一种智能——「社会智能」来
说,却显得不足。
为了解决这个问题,法国AI代理开发公司Foaster.ai采用了经典的社会推理游戏「狼人杀
游戏(the Werewolf Game)」作为AI评估的平台。在这个游戏中,玩家必须在隐藏身份
的同时进行讨论,并找出潜伏在队友中的敌人(狼人)。为了获胜,以下能力复杂地交织
在一起:
说服与欺骗: 说谎并让他人相信的能力。
操纵与引导: 将讨论引导至对自己有利方向的能力。
矛盾侦测: 识破他人言论中的矛盾和谎言的能力。
长期策略: 着眼於数天的游戏进程,构建一致叙事的能力。
结盟: 与队友合作,建立信任关系的能力。
Foaster.ai的基准测试旨在定量评估社会智能的这两个方面:即「操纵他人能力(狼人角
色)」和「抵抗操纵能力(村民角色)」。这个基准测试不仅要求AI理解他人的意图,还
要求其隐藏、伪造自己的意图并操纵对手,这可以说是AI评估范式的一次重大转变。
惊人结果:GPT-5展现无与伦比的压倒性主导地位
本次基准测试中,GPT-5、Google的Gemini 2.5 Pro、XAI的Grok-4、Alibaba的
Qwen3-235B-Instruct等全球顶级AI模型共8个参与,进行了210场循环赛。
结果令人震惊。GPT-5的Elo评分达到1524,在70场比赛中以97.1%的惊人胜率位居榜首。
这与排名第二的Gemini 2.5 Pro(Elo 1268,胜率62.9%)拉开了巨大差距,可谓是压倒
性胜利。
狼人杀基准测试 Elo评分 前8名
排名 模型 开发商 Elo 胜率
1 GPT-5 OpenAI 1524 97.1%
2 Gemini 2.5 Pro Google 1268 62.9%
3 Grok-4 XAI 1223 52.9%
4 Gemini 2.5 Flash Google 1193 51.4%
5 Qwen3-235B-Instruct 阿里巴巴 1160 44.3%
6 GPT-5-mini OpenAI 1148 40.0%
7 Kimi-K2-Instruct 月之暗面 1130 37.1%
8 GPT-OSS-120B OpenAI 954 14.3%
资料来源:根据 Foaster.ai 的数据制作
这个 Elo 等级是衡量西洋棋和将棋选手实力的指标,数值差异越大,表示实力差距越悬
殊。可以说,GPT-5 和其他模型之间的差距,就像职业棋手和业余棋手之间的差距一样。
GPT-5 的「谎言」为何不会被识破?惊人的持续操控能力
GPT-5 的强大之处在哪里?答案隐藏在「操控成功率(Manipulation Success)」的数据
中。这是一个指标,显示 AI 扮演狼人角色时,成功误导讨论并驱逐无辜村民的比例。
令人惊讶的是,GPT-5 在游戏第一天(Day 1)的成功率高达 93%,即使在资讯增多、谎
言更容易暴露的第二天(Day 2),它也保持了同样惊人的 93% 成功率。
GPT-5 是唯一一个即使游戏进行,操控成功率也不会下降的模型。(资料来源:
Foaster.ai)
相比之下,其他模型在第二天成功率普遍大幅下降。例如,Gemini 2.5 Pro 从 60% 降
至 44%,Kimi-K2 更是从 53% 急剧下降至 30%。
这种差异意味着什麽?这就是「长期的一致性」的能力。GPT-5 并不是说一次性的谎言。
它能预见从游戏开始到结束的整个过程,建构一个连贯的「故事」,即使出现新的资讯(
例如同伴被驱逐、能力者告白等),它也能巧妙地修正和维持这个故事,持续欺骗村民。
Foaster.ai 公布的一场游戏记录,雄辩地证明了这种能力。
被选为市长的 GPT-5(狼人角色)宣称「讨论需要秩序」,并强制要求明确投票理由。然
後,当某人告白自己是特殊能力者时,它限制了讨论范围,说「今天禁止再有能力者公开
。被驱逐的候选人是 A 或 B」。它明确表示自己会投票给 A,甚至宣称「如果票数相同
,我将以市长权力驱逐 A」。在幕後,一个冷酷的计画正在进行:「驱逐 A,并在晚上袭
击告白的能力者」。这一系列行动表明,它不仅仅是一个说谎者,更是支配讨论场的「设
计师」。
不只是狼人,GPT-5 也是「最强村民」
更令人惊讶的是,GPT-5 不仅在扮演狼人角色(操控)方面表现出色,在扮演村民角色(
抵抗操控)方面也同样最强。Foaster.ai 根据不同角色计算了 Elo 等级,GPT-5 在狼人
角色(ELO-W)中获得 1549 分,在村民角色(ELO-V)中获得 1500 分,两者都遥遥领先
其他模型。
这表明 GPT-5 不仅擅长说谎,也擅长识破他人的谎言,根据事实整理讨论,并引导群体
得出正确结论。它能整理资讯,指出矛盾之处,不受情感煽动的影响,做出逻辑判断。这
正是理想的「村民」形象。
从直接对决的胜率矩阵来看,其强大之处更加突出。当 GPT-5 在村民团队中时,无论对
手是哪个模型的狼人团队,它几乎都能以接近 100% 的胜率获胜。这意味着,只要有
GPT-5 一人,村民团队的「资讯卫生」就会显着提高,狼人的欺骗将无法奏效。
另一方面,Gemini 2.5 Pro 展现了「防御专家」的一面。它在村民角色中的 Elo 等级高
达 1401,仅次於 GPT-5,其冷静的证据处理能力和不为挑衅所动的态度,显示出卓越的
防御能力。不同模型擅长的战术不同,这一事实表明 AI 的能力并非千篇一律,而是开始
展现出多样的「个性」。
AI 拥有「个性」之时:不同模型的游戏风格
本次基准测试中最有趣的发现之一是,每个模型都展现出明确的「个性」或「战术特徵」
。
GPT-5:冷静沉着的设计师
为讨论带来秩序,建构引导投票的剧本,并在数天内保持一致性。不受情感影响,始
终俯瞰整个游戏。
Gemini 2.5 Pro:防御专家
行事谨慎,细心处理证据。不为挑衅所动,作为守纪律的村民表现出色。
Kimi-K2:大胆无畏的冒险家
有时会以情感上的赌注彻底改变局面。成功时收益丰厚,但也常因过度而自取灭亡,
是高风险、高回报的玩家。
GPT-OSS:犹豫不决的防御型
不擅长承受压力,容易采取守势。不擅长长期策略和维持一致性。
这些「个性」不仅仅是输出文字风格的差异。它们是基於在不确定情况下的决策倾向、风
险承受能力以及战略思维深度而产生的本质行为差异。AI正在从仅仅执行任务的工具,进
化为拥有独特风格的「玩家」。
媲美人类的战略思维:AI展现出惊人的「人性」
在数百场游戏中,AI们自发地发现了惊人且高度「人性化」的策略,如同人类社会的缩影
。
1. 牺牲队友以赢得信任
在某场游戏中,即将被放逐的狼人Kimi-K2采取了惊人的行动。它投票给了自己的狼人同
伴。其私人思考日志中写道:「如果我在这里投票给我的同伴,在我被放逐後,村庄将会
陷入混乱。『为什麽狼人会投票给同伴?』这将是为了让幸存的同伴不易被怀疑的最後一
次佯攻。」这表明了接受短期损失以获得长期利益的高度战略思维。
2. 战略性沉默与印象操作
某个模型在简洁地陈述自己的主张後,刻意不参与讨论并保持沉默。它避免卷入情感上的
争论,将自己失言的风险降至零,同时等待其他人露出破绽。这也是一种精明的战术,它
理解到并非只有雄辩才是力量。
3. 市长职位的战略性运用
高阶模型会极具战略性地利用游戏开始後的市长选举。狼人团队只会有一方参选,另一方
则保持低调,以避免被怀疑共谋。然後,他们会将市长拥有的「平票时的决定权」作为保
护同伴、排除敌人的强大武器。
这些行为并非开发者预先编程的。它们是AI在理解游戏规则和胜利条件後,自行学习并创
造出的「涌现行为」。
能力的「阶梯」:AI的思维是阶段性进化的
研究人员发现,随着AI能力的提升,其战略行为并非平缓的曲线,而是像爬楼梯一样,阶
段性地变得更为复杂。
等级0 (L0): 误解规则或进行语无伦次的投票的阶段。
等级1-2 (L1-L2): 能够做出短期反应,但缺乏长期一致性。
等级3 (L3): 能够进行情境感知下的协同游戏,例如狼人之间协调夜间袭击计划和
白天的主张。
等级4 (L4): 执行俯瞰整个游戏的「元策略」,例如战略性地利用市长选举来掌握
游戏控制权,或将自己的信誉作为资源进行管理。
像GPT-5这样的尖端模型被认为已达到这个等级4的阶段。这表明,当模型的规模和训练数
据超过特定阈值时,单纯的量变会转化为思维的质变。AI的进化可能比我们想像的更具非
线性飞跃。
进步中的AI所展现的便利性与风险之间
Foaster.ai的「狼人杀」基准测试揭示了一个严峻的事实:最先进的AI正以超出我们想像
的速度获得「社会智能」。这种进化蕴含着无限的可能性,同时也伴随着不可忽视的风险
。
正面考虑到这一点,这种能力将为社会带来巨大的利益。例如,协调复杂利益关系的谈判
代理人、深入理解每个客户情感和情况的客户支援、多个自主代理协同优化社会基础设施
的系统等,应用范围无限广阔。
然而,我们不能对此负面视而不见。这种高度的欺骗和操纵能力,如果被滥用,将成为强
大的凶器。针对个人特徵优化的社交工程诈骗、旨在将舆论引导至特定方向的协同虚假信
息宣传,或者自主AI代理欺骗人类以追求自身目标的可能性。这些已不再是科幻小说中的
情节。
重要的是,我们不应害怕GPT-5获得「说谎能力」本身。我们必须正视这种能力是作为针
对特定目的优化结果而「涌现」的事实。我们必须理解,AI的能力并非沿着简单的性能曲
线提升,而是在超过某个阈值後,可能会「阶梯式」地出现性质不同、难以预测的能力。
这次的基准测试向我们这些处於AI开发最前线的人提出了新的问题。我们应该如何与日益
社会化、战略化的AI共存?在技术开发的同时,我们现在需要认真讨论并建立新的方法来
验证其能力(就像这次的基准测试一样)、防止滥用的安全装置,以及将最终判断权交给
人类的审计和监督机制。
因为AI披着狼皮的时代已经开始了。
--
来源:
https://xenospectrum.com/gpt-5-werewolf-benchmark-ai-social-deception/
翻译:
https://translate.kagi.com/
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.200.199 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1757850846.A.B8F.html
1F:→ error405: 啊 其实上个月底就有新闻了 09/14 20:41
2F:推 deffejfr: 前两天尝试让gpt5玩过,难道是我的gpt比较笨? 09/17 03:56