Stock 板


LINE

目前与论是这篇测试方法有问题... @@ 旁边吃瓜中 https://hao.cnyes.com/post/176278 不过作者里面有Samy Bengio 是AI三巨头 Yoshua Bengio的弟弟 他们苹果在去年底之前也发过类似风格一篇 说LLM推里有问题 https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml 貌似他们这几个作者喜欢找一堆会失败的场景..... 关键作者Iman Mirzadeh 已经发了好几篇反LLM 文章 这部分也是一堆人的吐嘲 认为其他大厂都在让AI变聪明 你们果家就喜欢测试别人模型 说这玩意哪里不好哪里烂 这样子果家的AI怎追上别人? 而测试方法又是各种千奇百怪 像这次测试方法最近还因为模型token限制翻车 -- 因为这样我有阵子想反向操作 买点果家股票 想知道会发生怎样情况@@ ※ 引述《huabandd (我是阿肥巴你头)》之铭言: : https://is.gd/U7lWC8 : 看到一个影片,非新闻报导,仅创作者想法 : 讨论苹果揭露关於人工智能当中的最大谎言 : 之前也看过一个影片指出 : AI无法产出指针在10:10以外的手表 : (网路手表图片通常指针停留在10:10) : 自己尝试过几次确实是这样 : 因为AI的训练是基於现有大量资料 : 去产生一个与大量资料相似的产物给你 : 无法产生未曾有过资料的产物 : (以上为个人猜测,若错误请指正) : 虽然现在已有研究尝试将AI接入人类神经元 : 未来思考的方式有可能因此改变 : 不再只是记忆,而是真正的推理 : (但是这好像也是一件满恐怖的事情?) : 如果说给AI一个围棋组,但不教他玩法 : 也不让他参考棋类玩法,让他自行摸索 : 就像婴儿拿到玩具後自己乱玩那样 : AI能够自行生成玩法是不是就算是成功? : 中文翻译 : 苹果刚刚揭露了人工智慧中最大的谎言,即「思考」的假象,证明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型实际上并不会思考。苹果没有重复使用旧有的数学问 : 题,而是创造了这些模型从未见过全新谜题。结果令人震惊。 : 对於简单问题,标准 AI 模型表现优於昂贵的推理模型,同时消耗更少的资源。对於中等复 : 杂度问题,推理模型显示出一些优势,但对於模拟现实世界情境的高复杂度问题,两种类型 : 的模型都崩溃到 0% 的准确度。 : 这是确凿的证据:苹果给予 AI 模型逐步的演算法,就像给某人食谱一样,但它们仍在相同 : 的门槛下失败了。这证明它们无法遵循逻辑指令。该研究没有发现任何形式推理的证据,得 : 出结论认为其行为最好用复杂的模式匹配来解释。 : 简单地更改名称和问题会显着降低性能。苹果测试了河内塔(Tower of Hanoi)谜题,模型 : 在超过 100 步的移动中成功了,但在新颖的渡河谜题中仅仅 4 步後就失败了。它们是记忆 : 模式,而不是进行逻辑推理。 : 随着问题变得越来越难,「思考」模型使用的 token 越来越少,放弃得更快,而不是更深 : 入地思考。即使无限的计算资源也无济於事。这揭示了数十亿美元的 AI 投资是建立在错误 : 前提上的。 : 公司将复杂的模式匹配宣传为真正的推理,误导消费者对 AI 能力的认知。我们离通用人工 : 智慧(AGI)的距离并没有大家想像的那麽近;我们正在处理的是非常复杂的自动完成系统 : 。当先进的 AI 推理模型连遵循简单指令都失败时,我们是否正生活在一个建立在幻想之上 : 的 AI 炒作泡沫中? : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 76.21.72.78 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750008748.A.A5E.html
1F:推 sdbb : 逢低买进aapl?因为iPhone是AI最好的载体? 06/16 01:36
※ 编辑: LDPC (76.21.72.78 美国), 06/16/2025 01:39:39
2F:推 strlen : 老巴也没卖光 不会怎样吧 06/16 01:38
3F:推 aegis43210 : 有过图灵测试就表示有在思考 06/16 01:39
4F:推 qwe78971 : 思考 是 幻觉 就像一只鹦鹉 听人类讲话 它学习了 06/16 01:50
5F:→ qwe78971 : 但不代表他理解语言了 河内塔 river cross 会这麽 06/16 01:50
6F:→ qwe78971 : 差 有可能是OOD 就是训练模型没接雏过这个资料 不 06/16 01:50
7F:→ qwe78971 : 是啥token问题 用菜鸡的语言来讲 就是 鹦鹉没听过 06/16 01:50
8F:→ qwe78971 : 一句完整的句子 只是学了 句子里的词 它不懂应用 06/16 01:50
9F:→ qwe78971 : 但是他知道什麽时候说什麽 06/16 01:50
10F:→ qwe78971 : 现在的AI 碰到完全没有数据训练的东西 会直接摆烂 06/16 01:52
11F:→ qwe78971 : 即便 将 解法写给它 它不会去应用 作者也没否定A 06/16 01:52
12F:→ qwe78971 : I 只是认为这不是AGI 会成爲人类辅助工具 而不是取 06/16 01:52
13F:→ qwe78971 : 代人类 06/16 01:52
14F:→ haha98 : 这篇最近被很多人嘲笑 06/16 01:57
15F:→ qwe78971 : 没啥好嘲笑的 当一件新事情没人怀疑时 才奇怪 现在 06/16 01:59
16F:→ qwe78971 : 一堆人 抱着LLM 会成为AGI 只是过於乐观的想法 06/16 01:59
17F:推 aegis43210 : 没错,鹦鹉是好例子,牠有在思考和学习,但智商离人 06/16 02:01
18F:→ aegis43210 : 类还很远 06/16 02:01
19F:→ haha98 : 他被嘲笑的原因不是他的动机阿 是他做实验的方式 06/16 02:14
20F:→ qwe78971 : 他用这两个方法测试 是因为他认为这是可控的?pap 06/16 02:17
21F:→ qwe78971 : er有点长 好像有三种条件 记得很难找到其它数学方 06/16 02:17
22F:→ qwe78971 : 式去测试 06/16 02:17
23F:→ qwe78971 : 大半夜的 很懒得开电脑去找 06/16 02:18
24F:推 thejackys : 要AI用十个字回答100个字才能讲完答案的问题 说他答 06/16 02:22
25F:→ thejackys : 不出来不会思考 这算重新定义思考吗 06/16 02:22
26F:推 aegis43210 : 的确算思考呀,只是AI智商低答不出来而已 06/16 02:25
27F:推 bitcch : 先贬後面就可以在重新定义 06/16 02:28
28F:推 laba5566 : 现在ai顶会里面能重现结果的有10%就算高了 06/16 04:42
29F:→ laba5566 : 一堆灌水文章发完就跑 06/16 04:43
30F:→ xam : 听起来类似AI领域的资安议题啊,针对弱点/短版去研究 06/16 05:31
31F:→ newwu : 这是个低级错误... 06/16 05:54
32F:→ demintree : 有过图灵测试不代表有在思考好吗 06/16 06:04
33F:推 mdkn35 : 我也觉得llama模型不够好啊 但我不敢空meta 06/16 06:44
34F:推 tsubasawolfy: 这就是要peer review的原因 06/16 07:09
35F:→ kajika : 大家已经开始用爽爽 阿婆还在出怪声… 06/16 07:29
36F:推 kobebrian : 思考也是有分等级的 透过文字去揣摩上意也是在思考 06/16 07:41
37F:→ kobebrian : 只是比人类笨而已 06/16 07:41
38F:→ sonatafm2 : 这就像现代人批评古代人大迁徙怎麽不坐飞机有效率 06/16 08:11
39F:→ sonatafm2 : 多了同样的意思 06/16 08:11
40F:→ kao9458 : 的弟弟也能成为头衔… 06/16 08:44
41F:→ strlen : 但这只鹦鹉能解1秒解出你可能花一年学都解不出来的 06/16 09:30
42F:→ strlen : 数学题或程式题 也画得出你可能学十年也画不出来的 06/16 09:31
43F:→ strlen : 图 做出你音感天份不好的人一辈子也做不出来的音乐 06/16 09:31
44F:→ strlen : 另外 虽然只是模仿 当知识渊博 态度永远良好 先不论 06/16 09:32
45F:→ strlen : 牠是不是智能 这商业价值够大了 06/16 09:32
46F:→ strlen : 然後说它只是在模仿 啊不然 你行你模仿看看啊..... 06/16 09:33
47F:→ strlen : 人类喔 大概99%的事连模仿都做不到勒 06/16 09:34
48F:推 abyssa1 : 思考的定义是什麽? 06/16 11:55
49F:推 sdbb : 推楼上,苹果重新定义思考 06/16 12:02







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP