作者LDPC (Channel Coding)
看板Stock
标题Re: [心得] 苹果揭露人工智能并不思考
时间Mon Jun 16 01:32:24 2025
目前与论是这篇测试方法有问题... @@ 旁边吃瓜中
https://hao.cnyes.com/post/176278
不过作者里面有Samy Bengio 是AI三巨头 Yoshua Bengio的弟弟
他们苹果在去年底之前也发过类似风格一篇 说LLM推里有问题
https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml
貌似他们这几个作者喜欢找一堆会失败的场景.....
关键作者Iman Mirzadeh 已经发了好几篇反LLM 文章
这部分也是一堆人的吐嘲
认为其他大厂都在让AI变聪明 你们果家就喜欢测试别人模型 说这玩意哪里不好哪里烂
这样子果家的AI怎追上别人? 而测试方法又是各种千奇百怪
像这次测试方法最近还因为模型token限制翻车
--
因为这样我有阵子想反向操作 买点果家股票 想知道会发生怎样情况@@
※ 引述《huabandd (我是阿肥巴你头)》之铭言:
: https://is.gd/U7lWC8
: 看到一个影片,非新闻报导,仅创作者想法
: 讨论苹果揭露关於人工智能当中的最大谎言
: 之前也看过一个影片指出
: AI无法产出指针在10:10以外的手表
: (网路手表图片通常指针停留在10:10)
: 自己尝试过几次确实是这样
: 因为AI的训练是基於现有大量资料
: 去产生一个与大量资料相似的产物给你
: 无法产生未曾有过资料的产物
: (以上为个人猜测,若错误请指正)
: 虽然现在已有研究尝试将AI接入人类神经元
: 未来思考的方式有可能因此改变
: 不再只是记忆,而是真正的推理
: (但是这好像也是一件满恐怖的事情?)
: 如果说给AI一个围棋组,但不教他玩法
: 也不让他参考棋类玩法,让他自行摸索
: 就像婴儿拿到玩具後自己乱玩那样
: AI能够自行生成玩法是不是就算是成功?
: 中文翻译
: 苹果刚刚揭露了人工智慧中最大的谎言,即「思考」的假象,证明了像 Claude、Deepseek-
: R1 和 OpenAI 的 o3-mini 等推理模型实际上并不会思考。苹果没有重复使用旧有的数学问
: 题,而是创造了这些模型从未见过全新谜题。结果令人震惊。
: 对於简单问题,标准 AI 模型表现优於昂贵的推理模型,同时消耗更少的资源。对於中等复
: 杂度问题,推理模型显示出一些优势,但对於模拟现实世界情境的高复杂度问题,两种类型
: 的模型都崩溃到 0% 的准确度。
: 这是确凿的证据:苹果给予 AI 模型逐步的演算法,就像给某人食谱一样,但它们仍在相同
: 的门槛下失败了。这证明它们无法遵循逻辑指令。该研究没有发现任何形式推理的证据,得
: 出结论认为其行为最好用复杂的模式匹配来解释。
: 简单地更改名称和问题会显着降低性能。苹果测试了河内塔(Tower of Hanoi)谜题,模型
: 在超过 100 步的移动中成功了,但在新颖的渡河谜题中仅仅 4 步後就失败了。它们是记忆
: 模式,而不是进行逻辑推理。
: 随着问题变得越来越难,「思考」模型使用的 token 越来越少,放弃得更快,而不是更深
: 入地思考。即使无限的计算资源也无济於事。这揭示了数十亿美元的 AI 投资是建立在错误
: 前提上的。
: 公司将复杂的模式匹配宣传为真正的推理,误导消费者对 AI 能力的认知。我们离通用人工
: 智慧(AGI)的距离并没有大家想像的那麽近;我们正在处理的是非常复杂的自动完成系统
: 。当先进的 AI 推理模型连遵循简单指令都失败时,我们是否正生活在一个建立在幻想之上
: 的 AI 炒作泡沫中?
: 英文原文
: Apple just exposed the biggest lie in AI with the illusion of "thinking," provin
: g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act
: ually think. Instead of recycling math problems, Apple created brand new puzzles
: these models had never seen. The results were shocking.
: For simple problems, standard AI models outperformed expensive reasoning models
: while using fewer resources. For medium complexity, reasoning models showed some
: advantage, but for high complexity problems that mirror real-world scenarios, b
: oth types collapsed to 0% accuracy.
: Here's the damning evidence: Apple gave AI models step-by-step algorithms, like
: giving someone a recipe, and they still failed at the same thresholds. This prov
: es they can't follow logical instructions. The study found no evidence of formal
: reasoning, concluding behavior is better explained by sophisticated pattern mat
: ching.
: Simply changing names and problems degraded performance dramatically. Apple test
: ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed
: at novel river crossing puzzles after just 4 moves. They memorized patterns rat
: her than reasoned logically.
: As problems got harder, "thinking" models used fewer tokens and gave up faster i
: nstead of thinking deeper. Even unlimited computational resources couldn't help.
: This exposes that billions in AI investment are based on false premises.
: Companies market sophisticated pattern matching as genuine reasoning, misleading
: consumers about AI capabilities. We are not as close to AGI as everyone thinks;
: we're dealing with very sophisticated autocomplete systems. When advanced AI re
: asoning models fail at following simple instructions, are we living in an AI hyp
: e bubble built on illusions?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.21.72.78 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750008748.A.A5E.html
1F:推 sdbb : 逢低买进aapl?因为iPhone是AI最好的载体? 06/16 01:36
※ 编辑: LDPC (76.21.72.78 美国), 06/16/2025 01:39:39
2F:推 strlen : 老巴也没卖光 不会怎样吧 06/16 01:38
3F:推 aegis43210 : 有过图灵测试就表示有在思考 06/16 01:39
4F:推 qwe78971 : 思考 是 幻觉 就像一只鹦鹉 听人类讲话 它学习了 06/16 01:50
5F:→ qwe78971 : 但不代表他理解语言了 河内塔 river cross 会这麽 06/16 01:50
6F:→ qwe78971 : 差 有可能是OOD 就是训练模型没接雏过这个资料 不 06/16 01:50
7F:→ qwe78971 : 是啥token问题 用菜鸡的语言来讲 就是 鹦鹉没听过 06/16 01:50
8F:→ qwe78971 : 一句完整的句子 只是学了 句子里的词 它不懂应用 06/16 01:50
9F:→ qwe78971 : 但是他知道什麽时候说什麽 06/16 01:50
10F:→ qwe78971 : 现在的AI 碰到完全没有数据训练的东西 会直接摆烂 06/16 01:52
11F:→ qwe78971 : 即便 将 解法写给它 它不会去应用 作者也没否定A 06/16 01:52
12F:→ qwe78971 : I 只是认为这不是AGI 会成爲人类辅助工具 而不是取 06/16 01:52
13F:→ qwe78971 : 代人类 06/16 01:52
14F:→ haha98 : 这篇最近被很多人嘲笑 06/16 01:57
15F:→ qwe78971 : 没啥好嘲笑的 当一件新事情没人怀疑时 才奇怪 现在 06/16 01:59
16F:→ qwe78971 : 一堆人 抱着LLM 会成为AGI 只是过於乐观的想法 06/16 01:59
17F:推 aegis43210 : 没错,鹦鹉是好例子,牠有在思考和学习,但智商离人 06/16 02:01
18F:→ aegis43210 : 类还很远 06/16 02:01
19F:→ haha98 : 他被嘲笑的原因不是他的动机阿 是他做实验的方式 06/16 02:14
20F:→ qwe78971 : 他用这两个方法测试 是因为他认为这是可控的?pap 06/16 02:17
21F:→ qwe78971 : er有点长 好像有三种条件 记得很难找到其它数学方 06/16 02:17
22F:→ qwe78971 : 式去测试 06/16 02:17
23F:→ qwe78971 : 大半夜的 很懒得开电脑去找 06/16 02:18
24F:推 thejackys : 要AI用十个字回答100个字才能讲完答案的问题 说他答 06/16 02:22
25F:→ thejackys : 不出来不会思考 这算重新定义思考吗 06/16 02:22
26F:推 aegis43210 : 的确算思考呀,只是AI智商低答不出来而已 06/16 02:25
27F:推 bitcch : 先贬後面就可以在重新定义 06/16 02:28
28F:推 laba5566 : 现在ai顶会里面能重现结果的有10%就算高了 06/16 04:42
29F:→ laba5566 : 一堆灌水文章发完就跑 06/16 04:43
30F:→ xam : 听起来类似AI领域的资安议题啊,针对弱点/短版去研究 06/16 05:31
31F:→ newwu : 这是个低级错误... 06/16 05:54
32F:→ demintree : 有过图灵测试不代表有在思考好吗 06/16 06:04
33F:推 mdkn35 : 我也觉得llama模型不够好啊 但我不敢空meta 06/16 06:44
34F:推 tsubasawolfy: 这就是要peer review的原因 06/16 07:09
35F:→ kajika : 大家已经开始用爽爽 阿婆还在出怪声… 06/16 07:29
36F:推 kobebrian : 思考也是有分等级的 透过文字去揣摩上意也是在思考 06/16 07:41
37F:→ kobebrian : 只是比人类笨而已 06/16 07:41
38F:→ sonatafm2 : 这就像现代人批评古代人大迁徙怎麽不坐飞机有效率 06/16 08:11
39F:→ sonatafm2 : 多了同样的意思 06/16 08:11
40F:→ kao9458 : 的弟弟也能成为头衔… 06/16 08:44
41F:→ strlen : 但这只鹦鹉能解1秒解出你可能花一年学都解不出来的 06/16 09:30
42F:→ strlen : 数学题或程式题 也画得出你可能学十年也画不出来的 06/16 09:31
43F:→ strlen : 图 做出你音感天份不好的人一辈子也做不出来的音乐 06/16 09:31
44F:→ strlen : 另外 虽然只是模仿 当知识渊博 态度永远良好 先不论 06/16 09:32
45F:→ strlen : 牠是不是智能 这商业价值够大了 06/16 09:32
46F:→ strlen : 然後说它只是在模仿 啊不然 你行你模仿看看啊..... 06/16 09:33
47F:→ strlen : 人类喔 大概99%的事连模仿都做不到勒 06/16 09:34
48F:推 abyssa1 : 思考的定义是什麽? 06/16 11:55
49F:推 sdbb : 推楼上,苹果重新定义思考 06/16 12:02