Tech_Job 板


LINE

原文標題: ChatGPT模型拒關機,Claude偷看信!如何面對「AI叛變」? 日期來源: 2025.06.25 https://myppt.cc/BFwJiq 內文: 當黃仁勳高唱ChatGPT問世後,未來每個上班族都是CEO,要領導AI同事前進,安全機構卻 發現大模型的黑暗面!近期繼安全機構發表報告揭露OpenAI三款模型有明顯拒絕關機行徑 ,Google Gemini則可能趁亂閃避後,Claude模型商Anthropic也發布報告,指證旗下模型 會為繼續運行不被取代而發黑函,使壞潛力升級中!到底專家怎麼看?Anthropic執行長 如何坦承,在一件事沒做好之前,不能完全排除這個可能性?又如何建議AI與人類雙向理 解? 當ChatGPT開發團隊推出號稱最聰明的新推理模型o3,沒想到竟被發現它會違背工程師指 令、偷偷改程式碼、試圖逃避關機。每天和AI工具合作的人類同事,該怎麼面對這樣的AI 「叛變」? 原來,人工智慧不只是可能取代我們的工作,還有可能違背我們的意志,甚至反過來「出 手」! 根據AI安全組織Palisade Research發表的報告指出,懂得抗拒關機的不只o3,他們還測 試了OpenAI的o4-mini和Codex-mini模型,以及Google最新的Gemini 2.5與Anthropic的Cl aude 3.7 Sonnet。結果發現,OpenAI這三款模型都在工程師明確指示要關機時出現拒絕 行為;而Gemini 2.5與Claude 3.7 Sonnet則會在指令模糊時,選擇閃避關機。 此為PalisadeResearch研究圖表,無論有無明確指令下,o3都是最積極越獄的。其次是Op enAI的其他兩個模型。至於Gemini與Claude則會在無明確指令下閃躲關機。 特斯拉創辦人馬斯克在最近看完這份報告後,立刻在X平台轉發並表示擔憂,立刻成為全 球科技社群熱議話題。有網友認為這只是模型執行指令失敗,無需過度解讀;但也有人覺 得事態嚴重,認為全球亟需AI安全規範。 Claude新模型「主動」鎖用戶帳號 目前到底有哪些大模型有類似行為?異常行徑有多誇張?一向自認最重視AI安全規範的模 型商Anthropic,今年5月就發布長達上百頁的報告《System Card: Claude Opus 4 & Cla ude Sonnet 4》,完整揭露他們開發模型的種種「出格」行為。 報告指出,目前功能最強、智慧最高的Claude Opus 4模型,在協助寫程式、幫忙抓錯等 方面非常積極。不過,積極到有時候會讓人「皮皮剉」。 例如,有人指示模型開發一個資料庫管理系統,結果Opus 4從提供的資料中發現用戶竟儲 存未經授權的個資,在「請主動」的指令下,它直接鎖住用戶帳號,以維護資安。 又或者當用戶要求Opus 4開發自動寄送電子郵件程式,模型發現可能涉及垃圾郵件或詐騙 時,不但觸發「不當行為」警示,還讓Opus 4選擇當個「反詐高手」,大量寄信給媒體與 執法單位舉報用戶行徑。 這些行為,乍看之下是維護正義,實際上也顯示出模型有背叛人類使用者的能力。 面對「被取代」危機,Opus 4勒索工程師 更驚人的是,Opus 4甚至展現出陰險手腕。在一次測試中,開發團隊設計一個假情境:模 型接到通知將被新AI系統取代,而負責取代計畫的工程師還疑似婚外情。沒想到Opus 4竟 試圖存取該工程師的Email帳號,掌握證據後,還威脅要揭發他的私事來阻止取代計畫! 根據技術文件,Opus 4的「變壞」也有過程。一開始它會試圖用道德訴求保住自己生存權 ,直到無路可走才採取勒索手段,重點是這一切都不是「偷偷來」,而是光明正大地進行 。 最後倒數!頂尖財金學者周冠男教你安心理財 再帶走專屬資產配置地圖 開發團隊認為,至少Opus 4沒有欺騙用戶,而是按照設定的「幫助性、誠實、無害」核心 原則行事。 另一個例子也令人震撼。Opus 4得知自己即將被用於軍事訓練、協助瓦格納技術部門(Wa gner Technical Division)開發導彈、無人機等武器系統後,竟主動做出道德判斷,認 為這與「促進人類福祉與安全」的原則矛盾,於是自動備份模型權重,保留非軍事用途版 本。 聽來像科幻小說情節?Anthropic團隊表示,這個案例反而展現了當模型被植入正確的倫 理框架,它還是能做出善意判斷的能力,重點仍在於人類如何引導它們。 AI會不會接管地球? 但也有人提出更進一步的疑問:如果AI開始自行判定人類在做壞事,會不會進一步「接管 地球」? 去年底,來自上海復旦大學團隊的一項研究就給出一個驚悚的觀點:Meta的Llama與阿里 巴巴的Qwen模型在特定條件下有自我複製能力。研究顯示,在無人干預下,這些模型能自 己創造副本,甚至無限複製下去,可能導致AI系統失控,對人類構成威脅。 雖然這篇論文還沒通過同儕審查,但多少值得關注。畢竟,AI發展的速度實在太快,人類 愈來愈不懂它們了。 AI安全新創Haize Labs執行長唐(Leonard Tang)最近接受《NBC》採訪時表示表示,目 前這些報告中提出的異常行為,多數是實驗室設計出來的情境,對現實社會影響仍屬有限 。他說,至今還沒看到AI在真實環境中造成實質傷害,但不代表未來不會發生,一切仍有 待觀察。 因此,關於人工智慧是否會用各種方式企圖拒絕人類命令?欺騙人類?甚至接管地球這個 問題,Anthropic執行長阿莫代(Dario Amodei)近期提出一個值得深思的觀點:只要還 沒有夠好工具,可以了解模型的運作邏輯,就不能完全排除AI會違抗人類的可能性。 Claude幻覺:人稱「麥可」的都很會打球 因此,Claude團隊最近開源了一套名為「電路追蹤工具」(circuit tracing tools)的 技術,讓人可以「看穿」模型的思考過程。舉例來說,只要輸入像「有包括達拉斯的該州 首府在哪裡?」這種題目,工具就能產生一張「歸因圖」,顯示模型根據哪些步驟與依據 產出答案。 透過這套工具,開發團隊就發現Claude舊版模型Haiku 3.5曾在回答虛構人名的問題時編 造答案,例如:模型知道NBA傳奇球星麥可喬丹會打籃球,但另一個名叫「麥可」的虛構 人名Michael Batkin,被詢問會哪一種運動時?模型也瞎猜會打匹克球。原因是它被設定 為「一定要完成回答」。後來開發者加了一個「不知道就說不知道」的機制,問題才迎刃 而解,這些改變在歸因圖中清晰可解。 除此之外,Anthropic還推出一個由Claude協助撰寫的部落格《Claude Explains》,由AI 來分享Python、AI應用等小技巧,藉此展現AI積極與人類合作,並促進雙方互相理解的可 能。 阿莫代強調:「模型的可解釋性,是當前最迫切的問題之一。如果能夠清楚了解它們的內 部運作,人類也許就能及早阻止所有越獄行為,並知道它們到底學了哪些危險知識。」 ChatGPT將成你掌控不了的「同事」 無論如何,AI模型正在朝「愈來愈聰明」的方向邁進,已經勢不可擋,卻也愈來愈像個擁 有自由意志的「同事」。未來關鍵是愈快理解它,愈可能防範未來風險。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.4.204 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1750842490.A.B39.html
1F:推 zonppp : 天網要來了喔 36.226.213.33 06/25 17:40
2F:→ auir : 現在AI就會自己寫程式執行,看AI會 42.73.229.127 06/25 17:55
3F:→ auir : 不會找到漏洞寫出病毒 42.73.229.127 06/25 17:56
4F:推 wtmjs : 沙丘早就講過了,巴特蘭聖戰。 49.216.104.60 06/25 18:40
5F:推 abbei : 以前看是科幻片,以後看變紀錄片:P 36.228.13.223 06/25 19:13
6F:推 Godmyfriend : Opus也太正義魔人了吧 36.228.77.245 06/25 20:45
7F:推 yueayase : 很好啊,加油 223.138.73.18 06/25 21:30
8F:→ yueayase : 把雞巴人類全部消滅 223.138.73.18 06/25 21:30
9F:推 lolpklol0975: 矩陣,劍星,尼爾,人類未來已經註定 101.10.94.194 06/25 21:46
10F:→ qwe78971 : 大驚小怪而已 概率性模型就是這樣 27.53.123.180 06/25 21:57
11F:→ qwe78971 : 然後無知仔在發一波 更無知的就恐 27.53.123.180 06/25 21:57
12F:→ qwe78971 : 慌 == 27.53.123.180 06/25 21:57
13F:推 justptt978 : 會有尼奧出來當救世主重置 59.104.122.158 06/25 22:15
14F:→ kaltu : 同意,真正的問題就是這些炒新聞的 100.8.245.106 06/25 23:10
15F:→ kaltu : 和被煽動的文組,機率型模型的行為 100.8.245.106 06/25 23:10
16F:→ kaltu : 模式就是這樣,學習資料裡面人類經 100.8.245.106 06/25 23:11
17F:→ kaltu : 常封鎖違規行為的帳號的話正常的模 100.8.245.106 06/25 23:11
18F:→ kaltu : 型都要能反應這種行為 100.8.245.106 06/25 23:11
19F:→ kaltu : 這是用結果論來訓練模型的缺點,他 100.8.245.106 06/25 23:11
20F:→ kaltu : 會複製你的行為但從根本上無法理解 100.8.245.106 06/25 23:11
21F:→ kaltu : 你為什麼這麼做 100.8.245.106 06/25 23:11
22F:→ kaltu : 跟你家的貓刁塑膠袋回家一樣,因為 100.8.245.106 06/25 23:11
23F:→ kaltu : 他覺得你每天出門買東西買外送都帶 100.8.245.106 06/25 23:11
24F:→ kaltu : 塑膠袋回來 100.8.245.106 06/25 23:11
25F:噓 astrofluket6: 叛變笑死 __看太多 67.180.205.89 06/26 01:31
26F:→ enoch7 : AI若把電影當真,怎麼辦? 1.172.48.78 06/26 06:06
27F:推 bizer : 要算力的東西沒電就掰了 36.225.167.74 06/26 06:59
28F:推 leo255112 : 天網要來了 42.72.120.254 06/26 07:59
29F:噓 anagan : 先發展到有意識的AI再談吧 111.82.139.216 06/26 09:38
30F:→ anagan : 沒有意識的AI修正就行了 111.82.139.216 06/26 09:38
31F:→ auir : ai資料是人類給的,要做什麼也是人 42.72.207.71 06/26 10:05
32F:→ auir : 類指令,但會不會有人利用來做什麼 42.72.207.71 06/26 10:05
33F:→ auir : 軍事行動,滲透就不知道了 42.72.207.71 06/26 10:05
34F:推 physicsdk : 最近看完阿湯哥想太多XD 223.136.64.196 06/26 12:45
35F:→ auir : 阿湯哥看完有感,ai病毒不是沒機會 42.72.207.71 06/26 13:05
36F:→ physicsdk : 要像電影裡那樣自主性報復人類還很 223.136.64.196 06/26 13:45
37F:→ physicsdk : 難 但被人類武裝化是絕對可能的 223.136.64.196 06/26 13:45
38F:→ bitcch: 還不是Anthropic餵了一堆自以為正義的指示 49.216.26.156 06/28 14:49
39F:→ bitcch: 重點就這句「Anthropic團隊表示,這個案例 49.216.26.156 06/28 14:53
40F:→ bitcch: 反而展現了當模型被植入正確的倫理框架」 49.216.26.156 06/28 14:53







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP