作者LDPC (Channel Coding)

看板Stock

標題

Re: [心得] 蘋果揭露人工智能並不思考

時間Mon Jun 16 01:32:24 2025

目前與論是這篇測試方法有問題... @@ 旁邊吃瓜中 https://hao.cnyes.com/post/176278 不過作者裡面有Samy Bengio 是AI三巨頭 Yoshua Bengio的弟弟他們蘋果在去年底之前也發過類似風格一篇說LLM推里有問題 https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml 貌似他們這幾個作者喜歡找一堆會失敗的場景..... 關鍵作者Iman Mirzadeh 已經發了好幾篇反LLM 文章這部分也是一堆人的吐嘲認為其他大廠都在讓AI變聰明你們果家就喜歡測試別人模型說這玩意哪裡不好哪裡爛這樣子果家的AI怎追上別人? 而測試方法又是各種千奇百怪像這次測試方法最近還因為模型token限制翻車 -- 因為這樣我有陣子想反向操作買點果家股票想知道會發生怎樣情況@@ ※ 引述《huabandd (我是阿肥巴你頭)》之銘言： : https://is.gd/U7lWC8 : 看到一個影片，非新聞報導，僅創作者想法 : 討論蘋果揭露關於人工智能當中的最大謊言 : 之前也看過一個影片指出 : AI無法產出指針在10:10以外的手錶 : （網路手錶圖片通常指針停留在10:10） : 自己嘗試過幾次確實是這樣 : 因為AI的訓練是基於現有大量資料 : 去產生一個與大量資料相似的產物給你 : 無法產生未曾有過資料的產物 : （以上為個人猜測，若錯誤請指正） : 雖然現在已有研究嘗試將AI接入人類神經元 : 未來思考的方式有可能因此改變 : 不再只是記憶，而是真正的推理 : （但是這好像也是一件滿恐怖的事情？） : 如果說給AI一個圍棋組，但不教他玩法 : 也不讓他參考棋類玩法，讓他自行摸索 : 就像嬰兒拿到玩具後自己亂玩那樣 : AI能夠自行生成玩法是不是就算是成功？ : 中文翻譯 : 蘋果剛剛揭露了人工智慧中最大的謊言，即「思考」的假象，證明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問 : 題，而是創造了這些模型從未見過全新謎題。結果令人震驚。 : 對於簡單問題，標準 AI 模型表現優於昂貴的推理模型，同時消耗更少的資源。對於中等複 : 雜度問題，推理模型顯示出一些優勢，但對於模擬現實世界情境的高複雜度問題，兩種類型 : 的模型都崩潰到 0% 的準確度。 : 這是確鑿的證據：蘋果給予 AI 模型逐步的演算法，就像給某人食譜一樣，但它們仍在相同 : 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據，得 : 出結論認為其行為最好用複雜的模式匹配來解釋。 : 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔（Tower of Hanoi）謎題，模型 : 在超過 100 步的移動中成功了，但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶 : 模式，而不是進行邏輯推理。 : 隨著問題變得越來越難，「思考」模型使用的 token 越來越少，放棄得更快，而不是更深 : 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤 : 前提上的。 : 公司將複雜的模式匹配宣傳為真正的推理，誤導消費者對 AI 能力的認知。我們離通用人工 : 智慧（AGI）的距離並沒有大家想像的那麼近；我們正在處理的是非常複雜的自動完成系統 : 。當先進的 AI 推理模型連遵循簡單指令都失敗時，我們是否正生活在一個建立在幻想之上 : 的 AI 炒作泡沫中？ : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1750008748.A.A5E.html

1^F：推 sdbb : 逢低買進aapl？因為iPhone是AI最好的載體？ 06/16 01:36

※ 編輯: LDPC (76.21.72.78 美國), 06/16/2025 01:39:39

2^F：推 strlen : 老巴也沒賣光不會怎樣吧 06/16 01:38

3^F：推 aegis43210 : 有過圖靈測試就表示有在思考 06/16 01:39

4^F：推 qwe78971 : 思考是幻覺就像一隻鸚鵡聽人類講話它學習了 06/16 01:50

5^F：→ qwe78971 : 但不代表他理解語言了河內塔 river cross 會這麼 06/16 01:50

6^F：→ qwe78971 : 差有可能是OOD 就是訓練模型沒接雛過這個資料不 06/16 01:50

7^F：→ qwe78971 : 是啥token問題用菜雞的語言來講就是鸚鵡沒聽過 06/16 01:50

8^F：→ qwe78971 : 一句完整的句子只是學了句子裡的詞它不懂應用 06/16 01:50

9^F：→ qwe78971 : 但是他知道什麼時候說什麼 06/16 01:50

10^F：→ qwe78971 : 現在的AI 碰到完全沒有數據訓練的東西會直接擺爛 06/16 01:52

11^F：→ qwe78971 : 即便將解法寫給它它不會去應用作者也沒否定A 06/16 01:52

12^F：→ qwe78971 : I 只是認為這不是AGI 會成爲人類輔助工具而不是取 06/16 01:52

13^F：→ qwe78971 : 代人類 06/16 01:52

14^F：→ haha98 : 這篇最近被很多人嘲笑 06/16 01:57

15^F：→ qwe78971 : 沒啥好嘲笑的當一件新事情沒人懷疑時才奇怪現在 06/16 01:59

16^F：→ qwe78971 : 一堆人抱著LLM 會成為AGI 只是過於樂觀的想法 06/16 01:59

17^F：推 aegis43210 : 沒錯，鸚鵡是好例子，牠有在思考和學習，但智商離人 06/16 02:01

18^F：→ aegis43210 : 類還很遠 06/16 02:01

19^F：→ haha98 : 他被嘲笑的原因不是他的動機阿是他做實驗的方式 06/16 02:14

20^F：→ qwe78971 : 他用這兩個方法測試是因為他認為這是可控的？pap 06/16 02:17

21^F：→ qwe78971 : er有點長好像有三種條件記得很難找到其它數學方 06/16 02:17

22^F：→ qwe78971 : 式去測試 06/16 02:17

23^F：→ qwe78971 : 大半夜的很懶得開電腦去找 06/16 02:18

24^F：推 thejackys : 要AI用十個字回答100個字才能講完答案的問題說他答 06/16 02:22

25^F：→ thejackys : 不出來不會思考這算重新定義思考嗎 06/16 02:22

26^F：推 aegis43210 : 的確算思考呀，只是AI智商低答不出來而已 06/16 02:25

27^F：推 bitcch : 先貶後面就可以在重新定義 06/16 02:28

28^F：推 laba5566 : 現在ai頂會裡面能重現結果的有10%就算高了 06/16 04:42

29^F：→ laba5566 : 一堆灌水文章發完就跑 06/16 04:43

30^F：→ xam : 聽起來類似AI領域的資安議題啊,針對弱點/短版去研究 06/16 05:31

31^F：→ newwu : 這是個低級錯誤... 06/16 05:54

32^F：→ demintree : 有過圖靈測試不代表有在思考好嗎 06/16 06:04

33^F：推 mdkn35 : 我也覺得llama模型不夠好啊但我不敢空meta 06/16 06:44

34^F：推 tsubasawolfy: 這就是要peer review的原因 06/16 07:09

35^F：→ kajika : 大家已經開始用爽爽阿婆還在出怪聲… 06/16 07:29

36^F：推 kobebrian : 思考也是有分等級的透過文字去揣摩上意也是在思考 06/16 07:41

37^F：→ kobebrian : 只是比人類笨而已 06/16 07:41

38^F：→ sonatafm2 : 這就像現代人批評古代人大遷徙怎麼不坐飛機有效率 06/16 08:11

39^F：→ sonatafm2 : 多了同樣的意思 06/16 08:11

40^F：→ kao9458 : 的弟弟也能成為頭銜… 06/16 08:44

41^F：→ strlen : 但這隻鸚鵡能解1秒解出你可能花一年學都解不出來的 06/16 09:30

42^F：→ strlen : 數學題或程式題也畫得出你可能學十年也畫不出來的 06/16 09:31

43^F：→ strlen : 圖做出你音感天份不好的人一輩子也做不出來的音樂 06/16 09:31

44^F：→ strlen : 另外雖然只是模仿當知識淵博態度永遠良好先不論 06/16 09:32

45^F：→ strlen : 牠是不是智能這商業價值夠大了 06/16 09:32

46^F：→ strlen : 然後說它只是在模仿啊不然你行你模仿看看啊..... 06/16 09:33

47^F：→ strlen : 人類喔大概99%的事連模仿都做不到勒 06/16 09:34

48^F：推 abyssa1 : 思考的定義是什麼？ 06/16 11:55

49^F：推 sdbb : 推樓上，蘋果重新定義思考 06/16 12:02

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Stock 板

Re: [心得] 蘋果揭露人工智能並不思考

熱門看板

贊助商連結