作者LDPC (Channel Coding)

看板Stock

标题

Re: [心得] 苹果揭露人工智能并不思考

时间Mon Jun 16 01:32:24 2025

目前与论是这篇测试方法有问题... @@ 旁边吃瓜中 https://hao.cnyes.com/post/176278 不过作者里面有Samy Bengio 是AI三巨头 Yoshua Bengio的弟弟他们苹果在去年底之前也发过类似风格一篇说LLM推里有问题 https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml 貌似他们这几个作者喜欢找一堆会失败的场景..... 关键作者Iman Mirzadeh 已经发了好几篇反LLM 文章这部分也是一堆人的吐嘲认为其他大厂都在让AI变聪明你们果家就喜欢测试别人模型说这玩意哪里不好哪里烂这样子果家的AI怎追上别人? 而测试方法又是各种千奇百怪像这次测试方法最近还因为模型token限制翻车 -- 因为这样我有阵子想反向操作买点果家股票想知道会发生怎样情况@@ ※ 引述《huabandd (我是阿肥巴你头)》之铭言： : https://is.gd/U7lWC8 : 看到一个影片，非新闻报导，仅创作者想法 : 讨论苹果揭露关於人工智能当中的最大谎言 : 之前也看过一个影片指出 : AI无法产出指针在10:10以外的手表 : （网路手表图片通常指针停留在10:10） : 自己尝试过几次确实是这样 : 因为AI的训练是基於现有大量资料 : 去产生一个与大量资料相似的产物给你 : 无法产生未曾有过资料的产物 : （以上为个人猜测，若错误请指正） : 虽然现在已有研究尝试将AI接入人类神经元 : 未来思考的方式有可能因此改变 : 不再只是记忆，而是真正的推理 : （但是这好像也是一件满恐怖的事情？） : 如果说给AI一个围棋组，但不教他玩法 : 也不让他参考棋类玩法，让他自行摸索 : 就像婴儿拿到玩具後自己乱玩那样 : AI能够自行生成玩法是不是就算是成功？ : 中文翻译 : 苹果刚刚揭露了人工智慧中最大的谎言，即「思考」的假象，证明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型实际上并不会思考。苹果没有重复使用旧有的数学问 : 题，而是创造了这些模型从未见过全新谜题。结果令人震惊。 : 对於简单问题，标准 AI 模型表现优於昂贵的推理模型，同时消耗更少的资源。对於中等复 : 杂度问题，推理模型显示出一些优势，但对於模拟现实世界情境的高复杂度问题，两种类型 : 的模型都崩溃到 0% 的准确度。 : 这是确凿的证据：苹果给予 AI 模型逐步的演算法，就像给某人食谱一样，但它们仍在相同 : 的门槛下失败了。这证明它们无法遵循逻辑指令。该研究没有发现任何形式推理的证据，得 : 出结论认为其行为最好用复杂的模式匹配来解释。 : 简单地更改名称和问题会显着降低性能。苹果测试了河内塔（Tower of Hanoi）谜题，模型 : 在超过 100 步的移动中成功了，但在新颖的渡河谜题中仅仅 4 步後就失败了。它们是记忆 : 模式，而不是进行逻辑推理。 : 随着问题变得越来越难，「思考」模型使用的 token 越来越少，放弃得更快，而不是更深 : 入地思考。即使无限的计算资源也无济於事。这揭示了数十亿美元的 AI 投资是建立在错误 : 前提上的。 : 公司将复杂的模式匹配宣传为真正的推理，误导消费者对 AI 能力的认知。我们离通用人工 : 智慧（AGI）的距离并没有大家想像的那麽近；我们正在处理的是非常复杂的自动完成系统 : 。当先进的 AI 推理模型连遵循简单指令都失败时，我们是否正生活在一个建立在幻想之上 : 的 AI 炒作泡沫中？ : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.21.72.78 (美国) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750008748.A.A5E.html

1^F：推 sdbb : 逢低买进aapl？因为iPhone是AI最好的载体？ 06/16 01:36

※ 编辑: LDPC (76.21.72.78 美国), 06/16/2025 01:39:39

2^F：推 strlen : 老巴也没卖光不会怎样吧 06/16 01:38

3^F：推 aegis43210 : 有过图灵测试就表示有在思考 06/16 01:39

4^F：推 qwe78971 : 思考是幻觉就像一只鹦鹉听人类讲话它学习了 06/16 01:50

5^F：→ qwe78971 : 但不代表他理解语言了河内塔 river cross 会这麽 06/16 01:50

6^F：→ qwe78971 : 差有可能是OOD 就是训练模型没接雏过这个资料不 06/16 01:50

7^F：→ qwe78971 : 是啥token问题用菜鸡的语言来讲就是鹦鹉没听过 06/16 01:50

8^F：→ qwe78971 : 一句完整的句子只是学了句子里的词它不懂应用 06/16 01:50

9^F：→ qwe78971 : 但是他知道什麽时候说什麽 06/16 01:50

10^F：→ qwe78971 : 现在的AI 碰到完全没有数据训练的东西会直接摆烂 06/16 01:52

11^F：→ qwe78971 : 即便将解法写给它它不会去应用作者也没否定A 06/16 01:52

12^F：→ qwe78971 : I 只是认为这不是AGI 会成爲人类辅助工具而不是取 06/16 01:52

13^F：→ qwe78971 : 代人类 06/16 01:52

14^F：→ haha98 : 这篇最近被很多人嘲笑 06/16 01:57

15^F：→ qwe78971 : 没啥好嘲笑的当一件新事情没人怀疑时才奇怪现在 06/16 01:59

16^F：→ qwe78971 : 一堆人抱着LLM 会成为AGI 只是过於乐观的想法 06/16 01:59

17^F：推 aegis43210 : 没错，鹦鹉是好例子，牠有在思考和学习，但智商离人 06/16 02:01

18^F：→ aegis43210 : 类还很远 06/16 02:01

19^F：→ haha98 : 他被嘲笑的原因不是他的动机阿是他做实验的方式 06/16 02:14

20^F：→ qwe78971 : 他用这两个方法测试是因为他认为这是可控的？pap 06/16 02:17

21^F：→ qwe78971 : er有点长好像有三种条件记得很难找到其它数学方 06/16 02:17

22^F：→ qwe78971 : 式去测试 06/16 02:17

23^F：→ qwe78971 : 大半夜的很懒得开电脑去找 06/16 02:18

24^F：推 thejackys : 要AI用十个字回答100个字才能讲完答案的问题说他答 06/16 02:22

25^F：→ thejackys : 不出来不会思考这算重新定义思考吗 06/16 02:22

26^F：推 aegis43210 : 的确算思考呀，只是AI智商低答不出来而已 06/16 02:25

27^F：推 bitcch : 先贬後面就可以在重新定义 06/16 02:28

28^F：推 laba5566 : 现在ai顶会里面能重现结果的有10%就算高了 06/16 04:42

29^F：→ laba5566 : 一堆灌水文章发完就跑 06/16 04:43

30^F：→ xam : 听起来类似AI领域的资安议题啊,针对弱点/短版去研究 06/16 05:31

31^F：→ newwu : 这是个低级错误... 06/16 05:54

32^F：→ demintree : 有过图灵测试不代表有在思考好吗 06/16 06:04

33^F：推 mdkn35 : 我也觉得llama模型不够好啊但我不敢空meta 06/16 06:44

34^F：推 tsubasawolfy: 这就是要peer review的原因 06/16 07:09

35^F：→ kajika : 大家已经开始用爽爽阿婆还在出怪声… 06/16 07:29

36^F：推 kobebrian : 思考也是有分等级的透过文字去揣摩上意也是在思考 06/16 07:41

37^F：→ kobebrian : 只是比人类笨而已 06/16 07:41

38^F：→ sonatafm2 : 这就像现代人批评古代人大迁徙怎麽不坐飞机有效率 06/16 08:11

39^F：→ sonatafm2 : 多了同样的意思 06/16 08:11

40^F：→ kao9458 : 的弟弟也能成为头衔… 06/16 08:44

41^F：→ strlen : 但这只鹦鹉能解1秒解出你可能花一年学都解不出来的 06/16 09:30

42^F：→ strlen : 数学题或程式题也画得出你可能学十年也画不出来的 06/16 09:31

43^F：→ strlen : 图做出你音感天份不好的人一辈子也做不出来的音乐 06/16 09:31

44^F：→ strlen : 另外虽然只是模仿当知识渊博态度永远良好先不论 06/16 09:32

45^F：→ strlen : 牠是不是智能这商业价值够大了 06/16 09:32

46^F：→ strlen : 然後说它只是在模仿啊不然你行你模仿看看啊..... 06/16 09:33

47^F：→ strlen : 人类喔大概99%的事连模仿都做不到勒 06/16 09:34

48^F：推 abyssa1 : 思考的定义是什麽？ 06/16 11:55

49^F：推 sdbb : 推楼上，苹果重新定义思考 06/16 12:02

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

Re: [心得] 苹果揭露人工智能并不思考

热门看板

赞助商连结