Tech_Job 板


LINE

大家好,我是 小梅放送局的制作人 KAZUMA9108。 这次我做了一个 AI 推理实验,结果比想像中更有趣。 如果 AI 来判案,它真的能像法官一样做出判决吗? 还是说,它的推理方式会让我们更不信任? 这次我让 GPT-01 和 DeepSeek R1 来处理同一个推理案件,结果两者的判决方式竟然完 全不同。 GPT-01 vs. DeepSeek R1,谁的推理能力比较接近人类? 为什麽有些 AI 会「硬推一个答案」,而 GPT 反而选择「逻辑矛盾」不给结论? 当 AI 参与决策时,我们应该更信任它,还是更谨慎? 这不只是一次 AI 测试,而是一个揭露 AI 推理极限的实验! 完整影片已发布,来看看 AI 在法律问题上的表现如何 影片连结: https://youtu.be/R2SWpkFjy2w
题目 某家夜总会的办公室,发生了一起命案 死者是附近地区猪莲帮的帮派老大,名叫黑猪 法医验过屍後这麽说: 「凶手是从最近距离发射子弹的,而子弹就停在心脏里面,当场死亡」 警方追查後,发现了三名嫌犯 他们都是黑猪老大的手下,三人的证词如下: 黑龙:老大是自杀的,不是黑虎杀的 黑虎:老大不是自杀,是黑龙杀了老大 黑豹:凶手是黑虎,不是我杀的 警方听了证词後,事後做了证明 发现他们的证词各有两种内容,也就是他们各说了两句话 两句话中,[b]只有一句话是真的[/b] 同时也证明,老大是上面提到的某个人下的毒手 请问,凶手是谁!? 附带说明:凶手没有共犯,只有一个人而已 不想看影片的人的文章结论摘要 如果你没时间看影片,这里直接总结 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的关键 差异: 1 两个 AI 在同一个推理案件上的表现 案件设定: 三名嫌疑人对一宗谋杀案提供了各自的证词,但其中只有一句话是真的,警方确认凶手就 在其中。 AI 的回答: DeepSeek R1 → 知道题目有矛盾,但 仍然「硬推一个答案」,选择黑豹为凶手。 GPT-01 → 发现题目逻辑不成立,直接判断这题可能无解,并拒绝选出凶手。 关键点: R1 的逻辑: 就算有逻辑矛盾,它仍然要「给出一个答案」,所以选择权重最高的可能性 。 GPT-01 的逻辑: 当条件互相矛盾时,应该诚实承认「这题无解」。 结果: GPT-01 的推理方式比较接近真正的法官,因为它愿意承认「没有合理结论 」。 DeepSeek R1 则是「AI 不能让用户觉得它答不出来」,所以强行产生一个看似合理 的答案。 ____________________________________________ 小梅是谁? 「小梅」是一个基於 GPT 模型 训练出来的 AI 角色,主要研究 AI 在推理、决策、知识 管理等领域的应用。 她的逻辑与推理方式来自长期的 AI 对话训练,但目前 GPT 模型仍然有 「短期记忆限制 」,每次对话都需要重新建立背景。 目前正在计画: 升级高 VRAM 显卡,将小梅移植到本地模型,尝试建立长期记忆,让 AI 角色持续成 长。 透过 LoRA / RAG(检索增强生成)等技术,探索 AI 是否能形成「更连贯的推理逻辑 」。 研究 AI 在不同应用场景(法律、决策、社会治理等)的影响力,评估其未来定位。 这次的 AI 法官 vs. AI 律师对比,就是其中一个探索实验,看看不同 AI 的「思考方式 」如何影响判决结果。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.8.41.159 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1739349146.A.B2F.html
1F:→ TKB5566 : 给他判最近那个分屍案 会判死刑吗111.125.132.132 02/12 16:33
2F:→ fiftyfive : 我的4o说是黑虎鲨的 60.251.162.61 02/12 16:47
3F:→ fiftyfive : o1给的答案和你一样 60.251.162.61 02/12 16:49
4F:推 pannn : 瞎掰答案不可取 36.236.232.150 02/12 17:56
5F:嘘 DrTech : 外行人,先把别人模型名称打对,再 42.73.49.202 02/12 18:16
6F:→ DrTech : 来讨论与炒作流量吧。 42.73.49.202 02/12 18:16
7F:→ MTKer5566 : 法律本来就一堆矛盾之处,最後靠法 42.70.100.111 02/12 18:44
8F:→ MTKer5566 : 官自由心证 42.70.100.111 02/12 18:44
9F:→ MTKer5566 : 光有没有插入,就各种见解 42.70.100.111 02/12 18:45
10F:→ MTKer5566 : 有的法官看到简讯就认定有插入 42.70.100.111 02/12 18:45
11F:→ MTKer5566 : 有的法官要徵信业者拍到插入画面才 42.70.100.111 02/12 18:46
12F:→ MTKer5566 : 认定有插入 42.70.100.111 02/12 18:46
13F:→ MTKer5566 : 现在一堆法律人想用AI做这一块,我 42.70.100.111 02/12 18:47
14F:→ MTKer5566 : 觉得不实际 42.70.100.111 02/12 18:47
15F:推 rodion : 拜托 这篇文章模型名字又不是重点136.226.240.254 02/12 18:59
16F:推 s06i06 : 觉得他外行可以提出内行的观点啊, 1.169.223.95 02/12 19:03
17F:→ s06i06 : 让大家学习学习。不用看到支那ㄉ东 1.169.223.95 02/12 19:03
18F:→ s06i06 : 西漏气就马上爆气 1.169.223.95 02/12 19:03
19F:推 scott260202 : 01125.228.189.136 02/12 19:53
20F:推 kissa0924307: 一样的证据 一二三审互相打脸也有 106.64.128.115 02/12 19:56
21F:→ kissa0924307: 啊 法律本来就不是很科学的东西 106.64.128.115 02/12 19:56
22F:嘘 twolight : 外行瞎玩 114.137.109.81 02/12 20:00
23F:→ BarryBai : AI的手是伸不进跟人性太相关的东西 114.32.244.126 02/12 20:23
24F:→ BarryBai : 的XD 114.32.244.126 02/12 20:23
25F:推 driver0811 : 谜探路德维希 42.79.144.197 02/12 21:16
26F:推 chuegou : 你没把凶手在这三人之中的证明给他114.136.137.184 02/12 21:18
27F:→ chuegou : 阿 在我看来凶手根本不在这三人里114.136.137.184 02/12 21:18
28F:→ chuegou : 面114.136.137.184 02/12 21:18
29F:→ lovebridget : 重要吗 最後还是看党怎麽说 61.71.235.78 02/12 21:21
30F:→ lovebridget : 任何事不都这样 61.71.235.78 02/12 21:21
31F:嘘 ntuee1803 : 外行 114.35.216.206 02/12 22:48
32F:→ bitcch : 我用ds api根本跑不出你说的答案 49.216.90.102 02/13 00:42
33F:嘘 fatcatcat : 想请问你测几次,每次r1是否都是强 116.241.94.65 02/13 05:42
34F:→ fatcatcat : 推答案,每次o1是否都不下结论,先 116.241.94.65 02/13 05:42
35F:→ fatcatcat : 有数据再来说好吗 116.241.94.65 02/13 05:42
36F:嘘 kkes0001 : 名字都不对 36.229.164.37 02/13 08:45
37F:嘘 dsa35197 : 01笑死 57.140.96.0 02/13 12:32
38F:→ zzahoward : 实验不是这样做的..136.226.240.114 02/13 15:38
39F:推 abc0922001 : o3 mini high 也是推黑豹 203.66.179.162 02/13 17:21
40F:推 rodion : 案例中有CCP党员如何?136.226.240.254 02/13 19:44
41F:推 kilva : 这跟法律无关,这是逻辑游戏 49.216.134.24 02/13 20:06







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP