作者pujos (lks)
看板Stock
标题Re: [心得] 苹果揭露人工智能并不思考
时间Mon Jun 16 06:13:20 2025
这不是常识吗???
你用LLM最常看到的不就免责条款
你有没有想过
为什麽那些免责条款需要存在
仅仅是因为现在技术力不足???
才不是...
1.LLM会不会思考
https://ibb.co/k2gjs7rv
2.为什麽看起来像会思考
https://ibb.co/d0mZrSnH
3.这号称的推理能力哪里来的?
https://ibb.co/LX6T1PBd
4.结论
https://ibb.co/dsLMGynj
延伸问题
1.LLM究竟有无可能走向自我纠错
不可能,其回答是立基於机率而非逻辑
永远都会有一个高机率答案
https://ibb.co/wZdjy8sD
2.未来可能方向
https://ibb.co/0pz2NbSp
所以这条路未来是不可能走向AGI
这是LLM底层架构、逻辑
所决定的事
哪需要揭露
我还以为这是常识
因此你只要问LLM可以验证的问题
它有很高机率回你个错误答案
因为它是猜一个看起来对的答案给你
而不是真的下去思考、计算
例如
543.21*543.21=???
上面这题
Gork、Gemini、GPT都可以是错的
这才是为什麽要很小心用LLM的理由
整个思路、流程看起来都没问题
但答案极有可能是错的
结果错在最智障的地方
计算式你给我用猜的...
※ 引述《huabandd (我是阿肥巴你头)》之铭言:
: https://is.gd/U7lWC8
: 看到一个影片,非新闻报导,仅创作者想法
: 讨论苹果揭露关於人工智能当中的最大谎言
: 之前也看过一个影片指出
: AI无法产出指针在10:10以外的手表
: (网路手表图片通常指针停留在10:10)
: 自己尝试过几次确实是这样
: 因为AI的训练是基於现有大量资料
: 去产生一个与大量资料相似的产物给你
: 无法产生未曾有过资料的产物
: (以上为个人猜测,若错误请指正)
: 虽然现在已有研究尝试将AI接入人类神经元
: 未来思考的方式有可能因此改变
: 不再只是记忆,而是真正的推理
: (但是这好像也是一件满恐怖的事情?)
: 如果说给AI一个围棋组,但不教他玩法
: 也不让他参考棋类玩法,让他自行摸索
: 就像婴儿拿到玩具後自己乱玩那样
: AI能够自行生成玩法是不是就算是成功?
: 中文翻译
: 苹果刚刚揭露了人工智慧中最大的谎言,即「思考」的假象,证明了像 Claude、Deepseek-
: R1 和 OpenAI 的 o3-mini 等推理模型实际上并不会思考。苹果没有重复使用旧有的数学问
: 题,而是创造了这些模型从未见过全新谜题。结果令人震惊。
: 对於简单问题,标准 AI 模型表现优於昂贵的推理模型,同时消耗更少的资源。对於中等复
: 杂度问题,推理模型显示出一些优势,但对於模拟现实世界情境的高复杂度问题,两种类型
: 的模型都崩溃到 0% 的准确度。
: 这是确凿的证据:苹果给予 AI 模型逐步的演算法,就像给某人食谱一样,但它们仍在相同
: 的门槛下失败了。这证明它们无法遵循逻辑指令。该研究没有发现任何形式推理的证据,得
: 出结论认为其行为最好用复杂的模式匹配来解释。
: 简单地更改名称和问题会显着降低性能。苹果测试了河内塔(Tower of Hanoi)谜题,模型
: 在超过 100 步的移动中成功了,但在新颖的渡河谜题中仅仅 4 步後就失败了。它们是记忆
: 模式,而不是进行逻辑推理。
: 随着问题变得越来越难,「思考」模型使用的 token 越来越少,放弃得更快,而不是更深
: 入地思考。即使无限的计算资源也无济於事。这揭示了数十亿美元的 AI 投资是建立在错误
: 前提上的。
: 公司将复杂的模式匹配宣传为真正的推理,误导消费者对 AI 能力的认知。我们离通用人工
: 智慧(AGI)的距离并没有大家想像的那麽近;我们正在处理的是非常复杂的自动完成系统
: 。当先进的 AI 推理模型连遵循简单指令都失败时,我们是否正生活在一个建立在幻想之上
: 的 AI 炒作泡沫中?
: 英文原文
: Apple just exposed the biggest lie in AI with the illusion of "thinking," provin
: g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act
: ually think. Instead of recycling math problems, Apple created brand new puzzles
: these models had never seen. The results were shocking.
: For simple problems, standard AI models outperformed expensive reasoning models
: while using fewer resources. For medium complexity, reasoning models showed some
: advantage, but for high complexity problems that mirror real-world scenarios, b
: oth types collapsed to 0% accuracy.
: Here's the damning evidence: Apple gave AI models step-by-step algorithms, like
: giving someone a recipe, and they still failed at the same thresholds. This prov
: es they can't follow logical instructions. The study found no evidence of formal
: reasoning, concluding behavior is better explained by sophisticated pattern mat
: ching.
: Simply changing names and problems degraded performance dramatically. Apple test
: ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed
: at novel river crossing puzzles after just 4 moves. They memorized patterns rat
: her than reasoned logically.
: As problems got harder, "thinking" models used fewer tokens and gave up faster i
: nstead of thinking deeper. Even unlimited computational resources couldn't help.
: This exposes that billions in AI investment are based on false premises.
: Companies market sophisticated pattern matching as genuine reasoning, misleading
: consumers about AI capabilities. We are not as close to AGI as everyone thinks;
: we're dealing with very sophisticated autocomplete systems. When advanced AI re
: asoning models fail at following simple instructions, are we living in an AI hyp
: e bubble built on illusions?
-----
Sent from JPTT on my Xiaomi 23090RA98G.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.242.134.228 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750025617.A.AA0.html
※ 编辑: pujos (27.242.134.228 台湾), 06/16/2025 06:27:39
1F:推 ben108472 : 错的也就算了,还会讲的跟真的一样,而且随着对话 06/16 06:33
2F:→ ben108472 : 越多品质会非常有感的下降 06/16 06:33
3F:推 centaurjr : 写程式也很常出现啊,你给他一个冷门的转换公式请 06/16 07:11
4F:→ centaurjr : 他写,他就会拿相似词句的掰出来一整段 06/16 07:11
5F:→ centaurjr : 上周我拿一个多个if中间有几段完全不会走到的,用 06/16 07:14
6F:→ centaurjr : 省略完问他两个是否一样他也是答错 06/16 07:14
7F:→ centaurjr : 浪费我好几分钟验证 06/16 07:15
8F:推 sunsamy : 讲得跟真的一样才是最致命的 06/16 07:17
9F:→ sunsamy : 我要花双倍的时间去验它所讲的 06/16 07:18
10F:推 abc12812 : 免责条款和会不会思考是两回事 06/16 07:18
11F:→ abc12812 : chatgpt就只是推出来让大家玩的玩具 当然不负责 06/16 07:19
12F:推 Eleganse : 提醒一下:你故意去考AI一个乘法 就像叫模具包水饺 06/16 07:28
13F:→ Eleganse : 模具没有错 你想吃水饺也没有错 那什麽错了 很明显 06/16 07:30
14F:→ pujos : 那能问他什麽问题要不要先定义清楚,还乘法,哪个运 06/16 07:31
15F:推 NTUT56 : 叫chatgpt证明费马小定理,限一行证完 06/16 07:31
16F:→ pujos : 算不需要加减乘除,他算错是使用者的错?? 06/16 07:31
17F:→ NTUT56 : 数学系可以gpt不行,群论一句话证完 trivial 06/16 07:32
18F:→ pujos : 我程式超屌会算财务数据、会算工程数学...balabala 06/16 07:32
19F:→ pujos : ,但是加减乘除错,那是使用者的错...洗地有需要洗 06/16 07:32
20F:→ pujos : 成这样吗 06/16 07:32
21F:推 MinatoFlash : 有常识是一回事 证明常识为真是另一回事 06/16 07:36
22F:→ FMANT : 我的ChatGPT:295,077.1041 06/16 07:38
23F:推 Samurai : 思考方式跟人脑一样啊,考试的时候常常自己错了也 06/16 07:43
24F:→ Samurai : 不知道,因为没学到相关方法 06/16 07:43
25F:→ bnn : 你人类小孩也是牙牙学语开始的... 06/16 08:13
26F:→ bnn : 小孩也会经历过一个时期 模仿发音但不知其所以然 06/16 08:13
27F:→ bnn : 小孩也会死背 关连他记得的记忆乱回答一通 06/16 08:14
28F:→ soem : 我觉得蛮有意思的点是,明明本质是LLM,大家最在乎 06/16 08:15
29F:→ soem : 的却是1+1=2算错 :) 06/16 08:15
30F:→ bnn : 小孩也会看不懂 有边念边(这参数很"像"XXX) 06/16 08:15
31F:推 Eleganse : 感觉正上方那篇写得不错啊 楼主参考一下上一篇吧 06/16 08:15
32F:→ Eleganse : 大家会看线型 研究基本面 算筹码 加减乘除也会错啊 06/16 08:17
33F:→ Eleganse : 你各位错就可以 AI错就不行 宽以律已是吧 06/16 08:18
34F:→ bnn : 1+1=2 学生都是用背的 包含九九乘法表 不是思考 06/16 08:19
35F:→ Eleganse : 上面也说的不错 本质是LLM 最在乎他的1+1 .... 06/16 08:20
36F:→ bnn : 没人在进行算数的时候都还退回去集合论推导一遍 06/16 08:20
37F:→ bnn : 人只是调用他的记忆库 他背下来了1+1=2这件事情 06/16 08:21
38F:嘘 shinewind : 免责条款是两回事吧... 06/16 08:23
39F:→ shinewind : 就算是人都会有错误的机会 06/16 08:23
40F:→ shinewind : 就像医生帮你开刀,难不成失败就告? 06/16 08:23
41F:→ shinewind : 我不觉得LLM可以实现AGI,但这是两回事 06/16 08:24
42F:推 centaurjr : 所以12345x54321 楼上背看看多少? 06/16 08:28
43F:→ strlen : 那人类不更糟 不懂也是猜的 有些更恶意 懂了却骗你 06/16 09:53
44F:→ strlen : 说谎机率超高 甚至高过说真话勒 嘻嘻 你要相信AI还 06/16 09:53
45F:→ strlen : 相信人?有时还真难决定 06/16 09:53
46F:→ mdkn35 : 你可以call function 06/16 10:14
47F:→ NexusPrime : 简单算式应该就直接call 函数算结果了吧,还用机率 06/16 10:24
48F:→ NexusPrime : 模型猜真的太扯 06/16 10:24
49F:→ xam : "错的也就算了,还讲的跟真的一样" 真实世界不也这样 06/16 12:48
50F:→ fatb : 讲得跟真的一样就是真的 06/16 14:08