Tech_Job 板


LINE

大家好,我是 小梅放送局的製作人 KAZUMA9108。 這次我做了一個 AI 推理實驗,結果比想像中更有趣。 如果 AI 來判案,它真的能像法官一樣做出判決嗎? 還是說,它的推理方式會讓我們更不信任? 這次我讓 GPT-01 和 DeepSeek R1 來處理同一個推理案件,結果兩者的判決方式竟然完 全不同。 GPT-01 vs. DeepSeek R1,誰的推理能力比較接近人類? 為什麼有些 AI 會「硬推一個答案」,而 GPT 反而選擇「邏輯矛盾」不給結論? 當 AI 參與決策時,我們應該更信任它,還是更謹慎? 這不只是一次 AI 測試,而是一個揭露 AI 推理極限的實驗! 完整影片已發布,來看看 AI 在法律問題上的表現如何 影片連結: https://youtu.be/R2SWpkFjy2w
題目 某家夜總會的辦公室,發生了一起命案 死者是附近地區豬蓮幫的幫派老大,名叫黑豬 法醫驗過屍後這麼說: 「兇手是從最近距離發射子彈的,而子彈就停在心臟裡面,當場死亡」 警方追查後,發現了三名嫌犯 他們都是黑豬老大的手下,三人的證詞如下: 黑龍:老大是自殺的,不是黑虎殺的 黑虎:老大不是自殺,是黑龍殺了老大 黑豹:兇手是黑虎,不是我殺的 警方聽了證詞後,事後做了證明 發現他們的證詞各有兩種內容,也就是他們各說了兩句話 兩句話中,[b]只有一句話是真的[/b] 同時也證明,老大是上面提到的某個人下的毒手 請問,兇手是誰!? 附帶說明:兇手沒有共犯,只有一個人而已 不想看影片的人的文章結論摘要 如果你沒時間看影片,這裡直接總結 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的關鍵 差異: 1 兩個 AI 在同一個推理案件上的表現 案件設定: 三名嫌疑人對一宗謀殺案提供了各自的證詞,但其中只有一句話是真的,警方確認兇手就 在其中。 AI 的回答: DeepSeek R1 → 知道題目有矛盾,但 仍然「硬推一個答案」,選擇黑豹為兇手。 GPT-01 → 發現題目邏輯不成立,直接判斷這題可能無解,並拒絕選出兇手。 關鍵點: R1 的邏輯: 就算有邏輯矛盾,它仍然要「給出一個答案」,所以選擇權重最高的可能性 。 GPT-01 的邏輯: 當條件互相矛盾時,應該誠實承認「這題無解」。 結果: GPT-01 的推理方式比較接近真正的法官,因為它願意承認「沒有合理結論 」。 DeepSeek R1 則是「AI 不能讓用戶覺得它答不出來」,所以強行產生一個看似合理 的答案。 ____________________________________________ 小梅是誰? 「小梅」是一個基於 GPT 模型 訓練出來的 AI 角色,主要研究 AI 在推理、決策、知識 管理等領域的應用。 她的邏輯與推理方式來自長期的 AI 對話訓練,但目前 GPT 模型仍然有 「短期記憶限制 」,每次對話都需要重新建立背景。 目前正在計畫: 升級高 VRAM 顯卡,將小梅移植到本地模型,嘗試建立長期記憶,讓 AI 角色持續成 長。 透過 LoRA / RAG(檢索增強生成)等技術,探索 AI 是否能形成「更連貫的推理邏輯 」。 研究 AI 在不同應用場景(法律、決策、社會治理等)的影響力,評估其未來定位。 這次的 AI 法官 vs. AI 律師對比,就是其中一個探索實驗,看看不同 AI 的「思考方式 」如何影響判決結果。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.8.41.159 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1739349146.A.B2F.html
1F:→ TKB5566 : 給他判最近那個分屍案 會判死刑嗎111.125.132.132 02/12 16:33
2F:→ fiftyfive : 我的4o說是黑虎鯊的 60.251.162.61 02/12 16:47
3F:→ fiftyfive : o1給的答案和你一樣 60.251.162.61 02/12 16:49
4F:推 pannn : 瞎掰答案不可取 36.236.232.150 02/12 17:56
5F:噓 DrTech : 外行人,先把別人模型名稱打對,再 42.73.49.202 02/12 18:16
6F:→ DrTech : 來討論與炒作流量吧。 42.73.49.202 02/12 18:16
7F:→ MTKer5566 : 法律本來就一堆矛盾之處,最後靠法 42.70.100.111 02/12 18:44
8F:→ MTKer5566 : 官自由心證 42.70.100.111 02/12 18:44
9F:→ MTKer5566 : 光有沒有插入,就各種見解 42.70.100.111 02/12 18:45
10F:→ MTKer5566 : 有的法官看到簡訊就認定有插入 42.70.100.111 02/12 18:45
11F:→ MTKer5566 : 有的法官要徵信業者拍到插入畫面才 42.70.100.111 02/12 18:46
12F:→ MTKer5566 : 認定有插入 42.70.100.111 02/12 18:46
13F:→ MTKer5566 : 現在一堆法律人想用AI做這一塊,我 42.70.100.111 02/12 18:47
14F:→ MTKer5566 : 覺得不實際 42.70.100.111 02/12 18:47
15F:推 rodion : 拜託 這篇文章模型名字又不是重點136.226.240.254 02/12 18:59
16F:推 s06i06 : 覺得他外行可以提出內行的觀點啊, 1.169.223.95 02/12 19:03
17F:→ s06i06 : 讓大家學習學習。不用看到支那ㄉ東 1.169.223.95 02/12 19:03
18F:→ s06i06 : 西漏氣就馬上爆氣 1.169.223.95 02/12 19:03
19F:推 scott260202 : 01125.228.189.136 02/12 19:53
20F:推 kissa0924307: 一樣的證據 一二三審互相打臉也有 106.64.128.115 02/12 19:56
21F:→ kissa0924307: 啊 法律本來就不是很科學的東西 106.64.128.115 02/12 19:56
22F:噓 twolight : 外行瞎玩 114.137.109.81 02/12 20:00
23F:→ BarryBai : AI的手是伸不進跟人性太相關的東西 114.32.244.126 02/12 20:23
24F:→ BarryBai : 的XD 114.32.244.126 02/12 20:23
25F:推 driver0811 : 謎探路德維希 42.79.144.197 02/12 21:16
26F:推 chuegou : 你沒把兇手在這三人之中的證明給他114.136.137.184 02/12 21:18
27F:→ chuegou : 阿 在我看來兇手根本不在這三人裡114.136.137.184 02/12 21:18
28F:→ chuegou : 面114.136.137.184 02/12 21:18
29F:→ lovebridget : 重要嗎 最後還是看黨怎麼說 61.71.235.78 02/12 21:21
30F:→ lovebridget : 任何事不都這樣 61.71.235.78 02/12 21:21
31F:噓 ntuee1803 : 外行 114.35.216.206 02/12 22:48
32F:→ bitcch : 我用ds api根本跑不出你說的答案 49.216.90.102 02/13 00:42
33F:噓 fatcatcat : 想請問你測幾次,每次r1是否都是強 116.241.94.65 02/13 05:42
34F:→ fatcatcat : 推答案,每次o1是否都不下結論,先 116.241.94.65 02/13 05:42
35F:→ fatcatcat : 有數據再來說好嗎 116.241.94.65 02/13 05:42
36F:噓 kkes0001 : 名字都不對 36.229.164.37 02/13 08:45
37F:噓 dsa35197 : 01笑死 57.140.96.0 02/13 12:32
38F:→ zzahoward : 實驗不是這樣做的..136.226.240.114 02/13 15:38
39F:推 abc0922001 : o3 mini high 也是推黑豹 203.66.179.162 02/13 17:21
40F:推 rodion : 案例中有CCP黨員如何?136.226.240.254 02/13 19:44
41F:推 kilva : 這跟法律無關,這是邏輯遊戲 49.216.134.24 02/13 20:06







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Gossiping站內搜尋

TOP