Stock 板


LINE

目前與論是這篇測試方法有問題... @@ 旁邊吃瓜中 https://hao.cnyes.com/post/176278 不過作者裡面有Samy Bengio 是AI三巨頭 Yoshua Bengio的弟弟 他們蘋果在去年底之前也發過類似風格一篇 說LLM推里有問題 https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml 貌似他們這幾個作者喜歡找一堆會失敗的場景..... 關鍵作者Iman Mirzadeh 已經發了好幾篇反LLM 文章 這部分也是一堆人的吐嘲 認為其他大廠都在讓AI變聰明 你們果家就喜歡測試別人模型 說這玩意哪裡不好哪裡爛 這樣子果家的AI怎追上別人? 而測試方法又是各種千奇百怪 像這次測試方法最近還因為模型token限制翻車 -- 因為這樣我有陣子想反向操作 買點果家股票 想知道會發生怎樣情況@@ ※ 引述《huabandd (我是阿肥巴你頭)》之銘言: : https://is.gd/U7lWC8 : 看到一個影片,非新聞報導,僅創作者想法 : 討論蘋果揭露關於人工智能當中的最大謊言 : 之前也看過一個影片指出 : AI無法產出指針在10:10以外的手錶 : (網路手錶圖片通常指針停留在10:10) : 自己嘗試過幾次確實是這樣 : 因為AI的訓練是基於現有大量資料 : 去產生一個與大量資料相似的產物給你 : 無法產生未曾有過資料的產物 : (以上為個人猜測,若錯誤請指正) : 雖然現在已有研究嘗試將AI接入人類神經元 : 未來思考的方式有可能因此改變 : 不再只是記憶,而是真正的推理 : (但是這好像也是一件滿恐怖的事情?) : 如果說給AI一個圍棋組,但不教他玩法 : 也不讓他參考棋類玩法,讓他自行摸索 : 就像嬰兒拿到玩具後自己亂玩那樣 : AI能夠自行生成玩法是不是就算是成功? : 中文翻譯 : 蘋果剛剛揭露了人工智慧中最大的謊言,即「思考」的假象,證明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問 : 題,而是創造了這些模型從未見過全新謎題。結果令人震驚。 : 對於簡單問題,標準 AI 模型表現優於昂貴的推理模型,同時消耗更少的資源。對於中等複 : 雜度問題,推理模型顯示出一些優勢,但對於模擬現實世界情境的高複雜度問題,兩種類型 : 的模型都崩潰到 0% 的準確度。 : 這是確鑿的證據:蘋果給予 AI 模型逐步的演算法,就像給某人食譜一樣,但它們仍在相同 : 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據,得 : 出結論認為其行為最好用複雜的模式匹配來解釋。 : 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔(Tower of Hanoi)謎題,模型 : 在超過 100 步的移動中成功了,但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶 : 模式,而不是進行邏輯推理。 : 隨著問題變得越來越難,「思考」模型使用的 token 越來越少,放棄得更快,而不是更深 : 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤 : 前提上的。 : 公司將複雜的模式匹配宣傳為真正的推理,誤導消費者對 AI 能力的認知。我們離通用人工 : 智慧(AGI)的距離並沒有大家想像的那麼近;我們正在處理的是非常複雜的自動完成系統 : 。當先進的 AI 推理模型連遵循簡單指令都失敗時,我們是否正生活在一個建立在幻想之上 : 的 AI 炒作泡沫中? : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1750008748.A.A5E.html
1F:推 sdbb : 逢低買進aapl?因為iPhone是AI最好的載體? 06/16 01:36
※ 編輯: LDPC (76.21.72.78 美國), 06/16/2025 01:39:39
2F:推 strlen : 老巴也沒賣光 不會怎樣吧 06/16 01:38
3F:推 aegis43210 : 有過圖靈測試就表示有在思考 06/16 01:39
4F:推 qwe78971 : 思考 是 幻覺 就像一隻鸚鵡 聽人類講話 它學習了 06/16 01:50
5F:→ qwe78971 : 但不代表他理解語言了 河內塔 river cross 會這麼 06/16 01:50
6F:→ qwe78971 : 差 有可能是OOD 就是訓練模型沒接雛過這個資料 不 06/16 01:50
7F:→ qwe78971 : 是啥token問題 用菜雞的語言來講 就是 鸚鵡沒聽過 06/16 01:50
8F:→ qwe78971 : 一句完整的句子 只是學了 句子裡的詞 它不懂應用 06/16 01:50
9F:→ qwe78971 : 但是他知道什麼時候說什麼 06/16 01:50
10F:→ qwe78971 : 現在的AI 碰到完全沒有數據訓練的東西 會直接擺爛 06/16 01:52
11F:→ qwe78971 : 即便 將 解法寫給它 它不會去應用 作者也沒否定A 06/16 01:52
12F:→ qwe78971 : I 只是認為這不是AGI 會成爲人類輔助工具 而不是取 06/16 01:52
13F:→ qwe78971 : 代人類 06/16 01:52
14F:→ haha98 : 這篇最近被很多人嘲笑 06/16 01:57
15F:→ qwe78971 : 沒啥好嘲笑的 當一件新事情沒人懷疑時 才奇怪 現在 06/16 01:59
16F:→ qwe78971 : 一堆人 抱著LLM 會成為AGI 只是過於樂觀的想法 06/16 01:59
17F:推 aegis43210 : 沒錯,鸚鵡是好例子,牠有在思考和學習,但智商離人 06/16 02:01
18F:→ aegis43210 : 類還很遠 06/16 02:01
19F:→ haha98 : 他被嘲笑的原因不是他的動機阿 是他做實驗的方式 06/16 02:14
20F:→ qwe78971 : 他用這兩個方法測試 是因為他認為這是可控的?pap 06/16 02:17
21F:→ qwe78971 : er有點長 好像有三種條件 記得很難找到其它數學方 06/16 02:17
22F:→ qwe78971 : 式去測試 06/16 02:17
23F:→ qwe78971 : 大半夜的 很懶得開電腦去找 06/16 02:18
24F:推 thejackys : 要AI用十個字回答100個字才能講完答案的問題 說他答 06/16 02:22
25F:→ thejackys : 不出來不會思考 這算重新定義思考嗎 06/16 02:22
26F:推 aegis43210 : 的確算思考呀,只是AI智商低答不出來而已 06/16 02:25
27F:推 bitcch : 先貶後面就可以在重新定義 06/16 02:28
28F:推 laba5566 : 現在ai頂會裡面能重現結果的有10%就算高了 06/16 04:42
29F:→ laba5566 : 一堆灌水文章發完就跑 06/16 04:43
30F:→ xam : 聽起來類似AI領域的資安議題啊,針對弱點/短版去研究 06/16 05:31
31F:→ newwu : 這是個低級錯誤... 06/16 05:54
32F:→ demintree : 有過圖靈測試不代表有在思考好嗎 06/16 06:04
33F:推 mdkn35 : 我也覺得llama模型不夠好啊 但我不敢空meta 06/16 06:44
34F:推 tsubasawolfy: 這就是要peer review的原因 06/16 07:09
35F:→ kajika : 大家已經開始用爽爽 阿婆還在出怪聲… 06/16 07:29
36F:推 kobebrian : 思考也是有分等級的 透過文字去揣摩上意也是在思考 06/16 07:41
37F:→ kobebrian : 只是比人類笨而已 06/16 07:41
38F:→ sonatafm2 : 這就像現代人批評古代人大遷徙怎麼不坐飛機有效率 06/16 08:11
39F:→ sonatafm2 : 多了同樣的意思 06/16 08:11
40F:→ kao9458 : 的弟弟也能成為頭銜… 06/16 08:44
41F:→ strlen : 但這隻鸚鵡能解1秒解出你可能花一年學都解不出來的 06/16 09:30
42F:→ strlen : 數學題或程式題 也畫得出你可能學十年也畫不出來的 06/16 09:31
43F:→ strlen : 圖 做出你音感天份不好的人一輩子也做不出來的音樂 06/16 09:31
44F:→ strlen : 另外 雖然只是模仿 當知識淵博 態度永遠良好 先不論 06/16 09:32
45F:→ strlen : 牠是不是智能 這商業價值夠大了 06/16 09:32
46F:→ strlen : 然後說它只是在模仿 啊不然 你行你模仿看看啊..... 06/16 09:33
47F:→ strlen : 人類喔 大概99%的事連模仿都做不到勒 06/16 09:34
48F:推 abyssa1 : 思考的定義是什麼? 06/16 11:55
49F:推 sdbb : 推樓上,蘋果重新定義思考 06/16 12:02







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP