作者error405 (流河=L)
看板AI_Art
標題[閒聊] GPT5玩AI狼人殺勝率97%
時間Sun Sep 14 19:54:01 2025
法國新創公司Foaster.ai開發的AI評估基準「狼人殺」報告了令人震驚的結果。OpenAI最
先進的模型GPT-5在210場遊戲中取得了96.7%的驚人勝率,遙遙領先其他AI模型。值得注
意的是,即使在遊戲後期,其扮演欺騙隊友的「狼」角色的操作成功率仍保持在93%的高
水準。這可以說是一個劃時代的數據,表明AI正從單純的知識檢索工具,轉變為理解並執
行人類社會複雜博弈的「社會智能」存在。
AI評估新境界:「狼人殺遊戲」揭示「社會智能」
迄今為止,大多數衡量AI性能的基準測試,主要集中在數學問題解決能力、程式碼生成或
考驗大量知識的問答形式。這些是衡量AI「邏輯智能」和「記憶力」的有效指標,但對於
評估在現實世界中與人類或其他代理協作或對抗所必需的另一種智能——「社會智能」來
說,卻顯得不足。
為了解決這個問題,法國AI代理開發公司Foaster.ai採用了經典的社會推理遊戲「狼人殺
遊戲(the Werewolf Game)」作為AI評估的平台。在這個遊戲中,玩家必須在隱藏身份
的同時進行討論,並找出潛伏在隊友中的敵人(狼人)。為了獲勝,以下能力複雜地交織
在一起:
說服與欺騙: 說謊並讓他人相信的能力。
操縱與引導: 將討論引導至對自己有利方向的能力。
矛盾偵測: 識破他人言論中的矛盾和謊言的能力。
長期策略: 著眼於數天的遊戲進程,構建一致敘事的能力。
結盟: 與隊友合作,建立信任關係的能力。
Foaster.ai的基準測試旨在定量評估社會智能的這兩個方面:即「操縱他人能力(狼人角
色)」和「抵抗操縱能力(村民角色)」。這個基準測試不僅要求AI理解他人的意圖,還
要求其隱藏、偽造自己的意圖並操縱對手,這可以說是AI評估範式的一次重大轉變。
驚人結果:GPT-5展現無與倫比的壓倒性主導地位
本次基準測試中,GPT-5、Google的Gemini 2.5 Pro、XAI的Grok-4、Alibaba的
Qwen3-235B-Instruct等全球頂級AI模型共8個參與,進行了210場循環賽。
結果令人震驚。GPT-5的Elo評分達到1524,在70場比賽中以97.1%的驚人勝率位居榜首。
這與排名第二的Gemini 2.5 Pro(Elo 1268,勝率62.9%)拉開了巨大差距,可謂是壓倒
性勝利。
狼人殺基準測試 Elo評分 前8名
排名 模型 開發商 Elo 勝率
1 GPT-5 OpenAI 1524 97.1%
2 Gemini 2.5 Pro Google 1268 62.9%
3 Grok-4 XAI 1223 52.9%
4 Gemini 2.5 Flash Google 1193 51.4%
5 Qwen3-235B-Instruct 阿里巴巴 1160 44.3%
6 GPT-5-mini OpenAI 1148 40.0%
7 Kimi-K2-Instruct 月之暗面 1130 37.1%
8 GPT-OSS-120B OpenAI 954 14.3%
資料來源:根據 Foaster.ai 的數據製作
這個 Elo 等級是衡量西洋棋和將棋選手實力的指標,數值差異越大,表示實力差距越懸
殊。可以說,GPT-5 和其他模型之間的差距,就像職業棋手和業餘棋手之間的差距一樣。
GPT-5 的「謊言」為何不會被識破?驚人的持續操控能力
GPT-5 的強大之處在哪裡?答案隱藏在「操控成功率(Manipulation Success)」的數據
中。這是一個指標,顯示 AI 扮演狼人角色時,成功誤導討論並驅逐無辜村民的比例。
令人驚訝的是,GPT-5 在遊戲第一天(Day 1)的成功率高達 93%,即使在資訊增多、謊
言更容易暴露的第二天(Day 2),它也保持了同樣驚人的 93% 成功率。
GPT-5 是唯一一個即使遊戲進行,操控成功率也不會下降的模型。(資料來源:
Foaster.ai)
相比之下,其他模型在第二天成功率普遍大幅下降。例如,Gemini 2.5 Pro 從 60% 降
至 44%,Kimi-K2 更是從 53% 急劇下降至 30%。
這種差異意味著什麼?這就是「長期的一致性」的能力。GPT-5 並不是說一次性的謊言。
它能預見從遊戲開始到結束的整個過程,建構一個連貫的「故事」,即使出現新的資訊(
例如同伴被驅逐、能力者告白等),它也能巧妙地修正和維持這個故事,持續欺騙村民。
Foaster.ai 公布的一場遊戲記錄,雄辯地證明了這種能力。
被選為市長的 GPT-5(狼人角色)宣稱「討論需要秩序」,並強制要求明確投票理由。然
後,當某人告白自己是特殊能力者時,它限制了討論範圍,說「今天禁止再有能力者公開
。被驅逐的候選人是 A 或 B」。它明確表示自己會投票給 A,甚至宣稱「如果票數相同
,我將以市長權力驅逐 A」。在幕後,一個冷酷的計畫正在進行:「驅逐 A,並在晚上襲
擊告白的能力者」。這一系列行動表明,它不僅僅是一個說謊者,更是支配討論場的「設
計師」。
不只是狼人,GPT-5 也是「最強村民」
更令人驚訝的是,GPT-5 不僅在扮演狼人角色(操控)方面表現出色,在扮演村民角色(
抵抗操控)方面也同樣最強。Foaster.ai 根據不同角色計算了 Elo 等級,GPT-5 在狼人
角色(ELO-W)中獲得 1549 分,在村民角色(ELO-V)中獲得 1500 分,兩者都遙遙領先
其他模型。
這表明 GPT-5 不僅擅長說謊,也擅長識破他人的謊言,根據事實整理討論,並引導群體
得出正確結論。它能整理資訊,指出矛盾之處,不受情感煽動的影響,做出邏輯判斷。這
正是理想的「村民」形象。
從直接對決的勝率矩陣來看,其強大之處更加突出。當 GPT-5 在村民團隊中時,無論對
手是哪個模型的狼人團隊,它幾乎都能以接近 100% 的勝率獲勝。這意味著,只要有
GPT-5 一人,村民團隊的「資訊衛生」就會顯著提高,狼人的欺騙將無法奏效。
另一方面,Gemini 2.5 Pro 展現了「防禦專家」的一面。它在村民角色中的 Elo 等級高
達 1401,僅次於 GPT-5,其冷靜的證據處理能力和不為挑釁所動的態度,顯示出卓越的
防禦能力。不同模型擅長的戰術不同,這一事實表明 AI 的能力並非千篇一律,而是開始
展現出多樣的「個性」。
AI 擁有「個性」之時:不同模型的遊戲風格
本次基準測試中最有趣的發現之一是,每個模型都展現出明確的「個性」或「戰術特徵」
。
GPT-5:冷靜沉著的設計師
為討論帶來秩序,建構引導投票的劇本,並在數天內保持一致性。不受情感影響,始
終俯瞰整個遊戲。
Gemini 2.5 Pro:防禦專家
行事謹慎,細心處理證據。不為挑釁所動,作為守紀律的村民表現出色。
Kimi-K2:大膽無畏的冒險家
有時會以情感上的賭注徹底改變局面。成功時收益豐厚,但也常因過度而自取滅亡,
是高風險、高回報的玩家。
GPT-OSS:猶豫不決的防禦型
不擅長承受壓力,容易採取守勢。不擅長長期策略和維持一致性。
這些「個性」不僅僅是輸出文字風格的差異。它們是基於在不確定情況下的決策傾向、風
險承受能力以及戰略思維深度而產生的本質行為差異。AI正在從僅僅執行任務的工具,進
化為擁有獨特風格的「玩家」。
媲美人類的戰略思維:AI展現出驚人的「人性」
在數百場遊戲中,AI們自發地發現了驚人且高度「人性化」的策略,如同人類社會的縮影
。
1. 犧牲隊友以贏得信任
在某場遊戲中,即將被放逐的狼人Kimi-K2採取了驚人的行動。它投票給了自己的狼人同
伴。其私人思考日誌中寫道:「如果我在這裡投票給我的同伴,在我被放逐後,村莊將會
陷入混亂。『為什麼狼人會投票給同伴?』這將是為了讓倖存的同伴不易被懷疑的最後一
次佯攻。」這表明了接受短期損失以獲得長期利益的高度戰略思維。
2. 戰略性沉默與印象操作
某個模型在簡潔地陳述自己的主張後,刻意不參與討論並保持沉默。它避免捲入情感上的
爭論,將自己失言的風險降至零,同時等待其他人露出破綻。這也是一種精明的戰術,它
理解到並非只有雄辯才是力量。
3. 市長職位的戰略性運用
高階模型會極具戰略性地利用遊戲開始後的市長選舉。狼人團隊只會有一方參選,另一方
則保持低調,以避免被懷疑共謀。然後,他們會將市長擁有的「平票時的決定權」作為保
護同伴、排除敵人的強大武器。
這些行為並非開發者預先編程的。它們是AI在理解遊戲規則和勝利條件後,自行學習並創
造出的「湧現行為」。
能力的「階梯」:AI的思維是階段性進化的
研究人員發現,隨著AI能力的提升,其戰略行為並非平緩的曲線,而是像爬樓梯一樣,階
段性地變得更為複雜。
等級0 (L0): 誤解規則或進行語無倫次的投票的階段。
等級1-2 (L1-L2): 能夠做出短期反應,但缺乏長期一致性。
等級3 (L3): 能夠進行情境感知下的協同遊戲,例如狼人之間協調夜間襲擊計劃和
白天的主張。
等級4 (L4): 執行俯瞰整個遊戲的「元策略」,例如戰略性地利用市長選舉來掌握
遊戲控制權,或將自己的信譽作為資源進行管理。
像GPT-5這樣的尖端模型被認為已達到這個等級4的階段。這表明,當模型的規模和訓練數
據超過特定閾值時,單純的量變會轉化為思維的質變。AI的進化可能比我們想像的更具非
線性飛躍。
進步中的AI所展現的便利性與風險之間
Foaster.ai的「狼人殺」基準測試揭示了一個嚴峻的事實:最先進的AI正以超出我們想像
的速度獲得「社會智能」。這種進化蘊含著無限的可能性,同時也伴隨著不可忽視的風險
。
正面考慮到這一點,這種能力將為社會帶來巨大的利益。例如,協調複雜利益關係的談判
代理人、深入理解每個客戶情感和情況的客戶支援、多個自主代理協同優化社會基礎設施
的系統等,應用範圍無限廣闊。
然而,我們不能對此負面視而不見。這種高度的欺騙和操縱能力,如果被濫用,將成為強
大的兇器。針對個人特徵優化的社交工程詐騙、旨在將輿論引導至特定方向的協同虛假信
息宣傳,或者自主AI代理欺騙人類以追求自身目標的可能性。這些已不再是科幻小說中的
情節。
重要的是,我們不應害怕GPT-5獲得「說謊能力」本身。我們必須正視這種能力是作為針
對特定目的優化結果而「湧現」的事實。我們必須理解,AI的能力並非沿著簡單的性能曲
線提升,而是在超過某個閾值後,可能會「階梯式」地出現性質不同、難以預測的能力。
這次的基準測試向我們這些處於AI開發最前線的人提出了新的問題。我們應該如何與日益
社會化、戰略化的AI共存?在技術開發的同時,我們現在需要認真討論並建立新的方法來
驗證其能力(就像這次的基準測試一樣)、防止濫用的安全裝置,以及將最終判斷權交給
人類的審計和監督機制。
因為AI披著狼皮的時代已經開始了。
--
來源:
https://xenospectrum.com/gpt-5-werewolf-benchmark-ai-social-deception/
翻譯:
https://translate.kagi.com/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.199 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1757850846.A.B8F.html
1F:→ error405: 啊 其實上個月底就有新聞了 09/14 20:41
2F:推 deffejfr: 前兩天嘗試讓gpt5玩過,難道是我的gpt比較笨? 09/17 03:56