Stock 板


LINE

这不是常识吗??? 你用LLM最常看到的不就免责条款 你有没有想过 为什麽那些免责条款需要存在 仅仅是因为现在技术力不足??? 才不是... 1.LLM会不会思考 https://ibb.co/k2gjs7rv 2.为什麽看起来像会思考 https://ibb.co/d0mZrSnH 3.这号称的推理能力哪里来的? https://ibb.co/LX6T1PBd 4.结论 https://ibb.co/dsLMGynj 延伸问题 1.LLM究竟有无可能走向自我纠错 不可能,其回答是立基於机率而非逻辑 永远都会有一个高机率答案 https://ibb.co/wZdjy8sD 2.未来可能方向 https://ibb.co/0pz2NbSp 所以这条路未来是不可能走向AGI 这是LLM底层架构、逻辑 所决定的事 哪需要揭露 我还以为这是常识 因此你只要问LLM可以验证的问题 它有很高机率回你个错误答案 因为它是猜一个看起来对的答案给你 而不是真的下去思考、计算 例如 543.21*543.21=??? 上面这题 Gork、Gemini、GPT都可以是错的 这才是为什麽要很小心用LLM的理由 整个思路、流程看起来都没问题 但答案极有可能是错的 结果错在最智障的地方 计算式你给我用猜的... ※ 引述《huabandd (我是阿肥巴你头)》之铭言: : https://is.gd/U7lWC8 : 看到一个影片,非新闻报导,仅创作者想法 : 讨论苹果揭露关於人工智能当中的最大谎言 : 之前也看过一个影片指出 : AI无法产出指针在10:10以外的手表 : (网路手表图片通常指针停留在10:10) : 自己尝试过几次确实是这样 : 因为AI的训练是基於现有大量资料 : 去产生一个与大量资料相似的产物给你 : 无法产生未曾有过资料的产物 : (以上为个人猜测,若错误请指正) : 虽然现在已有研究尝试将AI接入人类神经元 : 未来思考的方式有可能因此改变 : 不再只是记忆,而是真正的推理 : (但是这好像也是一件满恐怖的事情?) : 如果说给AI一个围棋组,但不教他玩法 : 也不让他参考棋类玩法,让他自行摸索 : 就像婴儿拿到玩具後自己乱玩那样 : AI能够自行生成玩法是不是就算是成功? : 中文翻译 : 苹果刚刚揭露了人工智慧中最大的谎言,即「思考」的假象,证明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型实际上并不会思考。苹果没有重复使用旧有的数学问 : 题,而是创造了这些模型从未见过全新谜题。结果令人震惊。 : 对於简单问题,标准 AI 模型表现优於昂贵的推理模型,同时消耗更少的资源。对於中等复 : 杂度问题,推理模型显示出一些优势,但对於模拟现实世界情境的高复杂度问题,两种类型 : 的模型都崩溃到 0% 的准确度。 : 这是确凿的证据:苹果给予 AI 模型逐步的演算法,就像给某人食谱一样,但它们仍在相同 : 的门槛下失败了。这证明它们无法遵循逻辑指令。该研究没有发现任何形式推理的证据,得 : 出结论认为其行为最好用复杂的模式匹配来解释。 : 简单地更改名称和问题会显着降低性能。苹果测试了河内塔(Tower of Hanoi)谜题,模型 : 在超过 100 步的移动中成功了,但在新颖的渡河谜题中仅仅 4 步後就失败了。它们是记忆 : 模式,而不是进行逻辑推理。 : 随着问题变得越来越难,「思考」模型使用的 token 越来越少,放弃得更快,而不是更深 : 入地思考。即使无限的计算资源也无济於事。这揭示了数十亿美元的 AI 投资是建立在错误 : 前提上的。 : 公司将复杂的模式匹配宣传为真正的推理,误导消费者对 AI 能力的认知。我们离通用人工 : 智慧(AGI)的距离并没有大家想像的那麽近;我们正在处理的是非常复杂的自动完成系统 : 。当先进的 AI 推理模型连遵循简单指令都失败时,我们是否正生活在一个建立在幻想之上 : 的 AI 炒作泡沫中? : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? ----- Sent from JPTT on my Xiaomi 23090RA98G. --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.242.134.228 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750025617.A.AA0.html ※ 编辑: pujos (27.242.134.228 台湾), 06/16/2025 06:27:39
1F:推 ben108472 : 错的也就算了,还会讲的跟真的一样,而且随着对话 06/16 06:33
2F:→ ben108472 : 越多品质会非常有感的下降 06/16 06:33
3F:推 centaurjr : 写程式也很常出现啊,你给他一个冷门的转换公式请 06/16 07:11
4F:→ centaurjr : 他写,他就会拿相似词句的掰出来一整段 06/16 07:11
5F:→ centaurjr : 上周我拿一个多个if中间有几段完全不会走到的,用 06/16 07:14
6F:→ centaurjr : 省略完问他两个是否一样他也是答错 06/16 07:14
7F:→ centaurjr : 浪费我好几分钟验证 06/16 07:15
8F:推 sunsamy : 讲得跟真的一样才是最致命的 06/16 07:17
9F:→ sunsamy : 我要花双倍的时间去验它所讲的 06/16 07:18
10F:推 abc12812 : 免责条款和会不会思考是两回事 06/16 07:18
11F:→ abc12812 : chatgpt就只是推出来让大家玩的玩具 当然不负责 06/16 07:19
12F:推 Eleganse : 提醒一下:你故意去考AI一个乘法 就像叫模具包水饺 06/16 07:28
13F:→ Eleganse : 模具没有错 你想吃水饺也没有错 那什麽错了 很明显 06/16 07:30
14F:→ pujos : 那能问他什麽问题要不要先定义清楚,还乘法,哪个运 06/16 07:31
15F:推 NTUT56 : 叫chatgpt证明费马小定理,限一行证完 06/16 07:31
16F:→ pujos : 算不需要加减乘除,他算错是使用者的错?? 06/16 07:31
17F:→ NTUT56 : 数学系可以gpt不行,群论一句话证完 trivial 06/16 07:32
18F:→ pujos : 我程式超屌会算财务数据、会算工程数学...balabala 06/16 07:32
19F:→ pujos : ,但是加减乘除错,那是使用者的错...洗地有需要洗 06/16 07:32
20F:→ pujos : 成这样吗 06/16 07:32
21F:推 MinatoFlash : 有常识是一回事 证明常识为真是另一回事 06/16 07:36
22F:→ FMANT : 我的ChatGPT:295,077.1041 06/16 07:38
23F:推 Samurai : 思考方式跟人脑一样啊,考试的时候常常自己错了也 06/16 07:43
24F:→ Samurai : 不知道,因为没学到相关方法 06/16 07:43
25F:→ bnn : 你人类小孩也是牙牙学语开始的... 06/16 08:13
26F:→ bnn : 小孩也会经历过一个时期 模仿发音但不知其所以然 06/16 08:13
27F:→ bnn : 小孩也会死背 关连他记得的记忆乱回答一通 06/16 08:14
28F:→ soem : 我觉得蛮有意思的点是,明明本质是LLM,大家最在乎 06/16 08:15
29F:→ soem : 的却是1+1=2算错 :) 06/16 08:15
30F:→ bnn : 小孩也会看不懂 有边念边(这参数很"像"XXX) 06/16 08:15
31F:推 Eleganse : 感觉正上方那篇写得不错啊 楼主参考一下上一篇吧 06/16 08:15
32F:→ Eleganse : 大家会看线型 研究基本面 算筹码 加减乘除也会错啊 06/16 08:17
33F:→ Eleganse : 你各位错就可以 AI错就不行 宽以律已是吧 06/16 08:18
34F:→ bnn : 1+1=2 学生都是用背的 包含九九乘法表 不是思考 06/16 08:19
35F:→ Eleganse : 上面也说的不错 本质是LLM 最在乎他的1+1 .... 06/16 08:20
36F:→ bnn : 没人在进行算数的时候都还退回去集合论推导一遍 06/16 08:20
37F:→ bnn : 人只是调用他的记忆库 他背下来了1+1=2这件事情 06/16 08:21
38F:嘘 shinewind : 免责条款是两回事吧... 06/16 08:23
39F:→ shinewind : 就算是人都会有错误的机会 06/16 08:23
40F:→ shinewind : 就像医生帮你开刀,难不成失败就告? 06/16 08:23
41F:→ shinewind : 我不觉得LLM可以实现AGI,但这是两回事 06/16 08:24
42F:推 centaurjr : 所以12345x54321 楼上背看看多少? 06/16 08:28
43F:→ strlen : 那人类不更糟 不懂也是猜的 有些更恶意 懂了却骗你 06/16 09:53
44F:→ strlen : 说谎机率超高 甚至高过说真话勒 嘻嘻 你要相信AI还 06/16 09:53
45F:→ strlen : 相信人?有时还真难决定 06/16 09:53
46F:→ mdkn35 : 你可以call function 06/16 10:14
47F:→ NexusPrime : 简单算式应该就直接call 函数算结果了吧,还用机率 06/16 10:24
48F:→ NexusPrime : 模型猜真的太扯 06/16 10:24
49F:→ xam : "错的也就算了,还讲的跟真的一样" 真实世界不也这样 06/16 12:48
50F:→ fatb : 讲得跟真的一样就是真的 06/16 14:08







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP