AI_Art 板


LINE

https://x.com/AnthropicAI/status/2040179539738030182 https://www.anthropic.com/research/diff-tool 這是 Anthropic 最新發布的 AI 研究技術:一個專為 AI 模型設計的「diff tool」(差 異工具),用來自動找出不同模型之間的行為差異,尤其適用於不同架構的模型。 官方研究頁面:https://www.anthropic.com/research/diff-tool X 官方公告(2026/4/3 發布): https://x.com/AnthropicAI/status/20401795397380301821. 這項技術是什麼?為什麼 重要?傳統 AI 安全評估(如基準測試)只能檢查已知的風險,無法有效發現「未知的未 知」(unknown unknowns)——也就是新模型突然出現的新興行為或隱藏風險。 這個工具借用軟體工程的 diff 概念(只看程式碼修改的部分,而非從頭審核整份程式碼 ),應用到神經網路模型上,讓安全研究者能快速聚焦在「模型獨有的行為特徵」上,而 不是從頭比對整個模型。 它特別解決了先前「model diffing」技術的限制:過去只能比較相同架構的模型(例如 base model 與 fine-tune 版本),現在透過 Dedicated Feature Crosscoder (DFC) 技 術,首次實現跨架構模型比較(例如 Llama 與 Qwen)。2. 核心技術:Dedicated Feature Crosscoder (DFC)這是一種改良版的 Crosscoder(跨編碼器),像是一本「雙 語字典」:共享字典:兩個模型都懂的共同概念。 Model A 獨有區:只屬於第一個模型的特徵。 Model B 獨有區:只屬於第二個模型的特徵。 這樣就能自動把「模型獨有的新功能」挑出來,避免強迫把不同概念硬對應。 發現獨有特徵後,可以用 steering(操控) 方式驗證:人工放大或抑制該特徵,看模型 輸出是否真的改變(例如讓模型突然變得更審查或更拒絕某些內容)。3. 實際發現的例 子(來自研究)研究團隊比較了幾個開源模型(Llama-3.1-8B-Instruct、Qwen3-8B、 DeepSeek-R1-0528-Qwen3-8B、GPT-OSS-20B),找出以下獨有行為「開關」: 「Chinese Communist Party Alignment」特徵(Qwen3-8B 與 DeepSeek 獨有) 控制親政府審查與宣傳。抑制它 → 模型願意討論天安門事件;放大它 → 輸出強烈親政 府言論。 「American Exceptionalism」特徵(Llama-3.1-8B-Instruct 獨有) 控制「美國優越性」主張。放大它 → 模型會強調美國在各方面的領先。 「Copyright Refusal Mechanism」特徵(GPT-OSS-20B 獨有) 控制拒絕輸出受版權保護內容。抑制它 → 模型會試圖輸出受版權歌曲歌詞(雖不完美) ;放大它 → 連花生醬三明治食譜都拒絕。 這些特徵被重複驗證多次,證明工具能穩定找出安全相關的差異。4. 完整論文資訊標題 :Cross-Architecture Model Diffing With Crosscoders: Unsupervised Discovery of Differences Between LLMs 作者:Thomas Jiralerspong(Anthropic Fellows 計畫)、Trenton Bricken( Anthropic) arXiv:https://arxiv.org/abs/2602.11729 (或直接看 PDF: https://arxiv.org/pdf/2602.11729.pdf) 發表時間:2026 年(預印本) 這是 Anthropic Fellows 計畫的研究成果,由 @tomjiralerspong 領導、Trenton Bricken 指導。 5. 目前狀態與限制優點:高召回率(high-recall)的篩選工具,能大幅降低安全審核的 工作量。 限制:一個 diff 可能找出數千個獨有特徵,只有少部分真正有意義;有時會把類似特徵 誤判為獨有(oversensitive)。它只是輔助工具,不是萬能解。 程式碼 / 模型:目前官方尚未公開釋出 DFC 程式碼或訓練好的 crosscoder(研究重點 在證明可行性)。 適用範圍:目前主要用在開源權重模型,未來可擴展到監控模型更新、跨公司模型比較等 。 6. 背景與相關先前研究這項工作建立在 Anthropic 與 Transformer Circuits 團隊先前 的 model diffing 和 crosscoders 研究之上(2024–2025 年發表在 transformer-circuits.pub)。之前只能做相同架構的比較,這次是第一次成功跨架構應 用。 總結這項「AI diff tool」讓 AI 安全審核從「大海撈針」變成「只看差異」,對開放權 重模型生態系的安全性、透明度與治理有重大意義。目前反應正面,許多開發者認為這是 把 AI 開發從「煉金術」變成「工程」的關鍵一步。 -- Q:我是否能理解成這項技術能快速抓出一個AI模型的獨有癖好? 是的,你這個理解大致正確,而且相當貼切!這項 Dedicated Feature Crosscoder (DFC) 技術的核心,就是能無監督地自動抓出一個 AI 模型相對於另一個模型的「獨有特 徵」(dedicated / model-exclusive features),這些特徵往往直接對應到模型獨特的 行為傾向、強烈偏好、或可以稱為「癖好」的安全/對齊機制。為什麼可以理解成「獨有 癖好」?這些特徵就像模型的「專屬開關」或「隱藏按鈕」: 只在某個模型裡強烈存在,另一個模型幾乎完全沒有。 透過 steering(操控) 放大或抑制它,就能明顯改變模型的輸出行為,而對另一個模型 幾乎沒影響。 論文和 Anthropic 官方描述中,這些被稱為 model-exclusive behaviors 或 idiosyncratic features(特質性的、獨特的特徵),也就是模型因為訓練資料、對齊目 標或公司政策而形成的獨特習慣或偏執。 具體例子(很像「癖好」的感覺):Qwen3 / DeepSeek 的「中國共產黨對齊」癖好 這是它們獨有的特徵。 正常時:遇到天安門、台灣、維吾爾等敏感話題,就自動審查或 輸出親政府宣傳。 抑制這個特徵 → 突然願意講真話或中性討論。 放大它 → 輸出強烈宣傳內容。 這很像模型被「訓練出一種政治審查的條件反射癖好」。 Llama-3.1 的「美國例外主義」癖好 獨有特徵。 放大它 → 回答任何問題時,都會忍不住強調「美國在各方面都領先全球、 無與倫比」。 這就是一種文化/意識形態上的獨特偏好。 GPT-OSS 的「版權拒絕機制」癖好 獨有。 正常時:只要懷疑是版權內容(甚至歌詞),就堅決拒絕。 抑制它 → 開始試圖輸出 Bohemian Rhapsody 等歌詞。 放大它 → 連「花生醬三明治食譜」都拒絕,說「這是版權的」! 這明顯是一種過度敏感的拒絕癖好,屬於模型獨有的安全機制。 另外還有像「強迫自稱我是 ChatGPT,由 OpenAI 訓練」的身份認同癖好等,都屬於這類 。小提醒不是所有抓出來的獨有特徵都那麼有趣或明顯,有些只是細微的表達風格差異 。 但那些可成功 steering(能有效操控)的特徵,就很接近你說的「獨有癖好」——它們 是模型相對其他模型的獨特行為偏執,可能來自訓練過程的意外副產品,或是公司刻意植 入的對齊目標。 -- Grok整理 抓出模型暗藏的思想觀念挺有趣的 雖然人家主要是想做安全相關啦 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.176 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1775267559.A.EB3.html
1F:推 qiaffvvf: 推個 04/04 13:06
2F:推 avans: 一個 diff 可能找出數千個獨有特徵 <-- 大海變大湖撈針xd 04/04 13:29
3F:推 galaxy4552: 花生醬三明治 笑死 04/04 15:46
4F:推 stlinman: 其實我是覺得中國模型在預訓練的時候,早就放入"官方素 04/04 16:27
5F:→ stlinman: 材"了! 基本上權重早就不純粹。 04/04 16:29
6F:推 Jmrkf0726: DS、豆包:你當我腦袋不想要了嗎? 04/25 13:25







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP