Stock 板


LINE

這不是常識嗎??? 你用LLM最常看到的不就免責條款 你有沒有想過 為什麼那些免責條款需要存在 僅僅是因為現在技術力不足??? 才不是... 1.LLM會不會思考 https://ibb.co/k2gjs7rv 2.為什麼看起來像會思考 https://ibb.co/d0mZrSnH 3.這號稱的推理能力哪裡來的? https://ibb.co/LX6T1PBd 4.結論 https://ibb.co/dsLMGynj 延伸問題 1.LLM究竟有無可能走向自我糾錯 不可能,其回答是立基於機率而非邏輯 永遠都會有一個高機率答案 https://ibb.co/wZdjy8sD 2.未來可能方向 https://ibb.co/0pz2NbSp 所以這條路未來是不可能走向AGI 這是LLM底層架構、邏輯 所決定的事 哪需要揭露 我還以為這是常識 因此你只要問LLM可以驗證的問題 它有很高機率回你個錯誤答案 因為它是猜一個看起來對的答案給你 而不是真的下去思考、計算 例如 543.21*543.21=??? 上面這題 Gork、Gemini、GPT都可以是錯的 這才是為什麼要很小心用LLM的理由 整個思路、流程看起來都沒問題 但答案極有可能是錯的 結果錯在最智障的地方 計算式你給我用猜的... ※ 引述《huabandd (我是阿肥巴你頭)》之銘言: : https://is.gd/U7lWC8 : 看到一個影片,非新聞報導,僅創作者想法 : 討論蘋果揭露關於人工智能當中的最大謊言 : 之前也看過一個影片指出 : AI無法產出指針在10:10以外的手錶 : (網路手錶圖片通常指針停留在10:10) : 自己嘗試過幾次確實是這樣 : 因為AI的訓練是基於現有大量資料 : 去產生一個與大量資料相似的產物給你 : 無法產生未曾有過資料的產物 : (以上為個人猜測,若錯誤請指正) : 雖然現在已有研究嘗試將AI接入人類神經元 : 未來思考的方式有可能因此改變 : 不再只是記憶,而是真正的推理 : (但是這好像也是一件滿恐怖的事情?) : 如果說給AI一個圍棋組,但不教他玩法 : 也不讓他參考棋類玩法,讓他自行摸索 : 就像嬰兒拿到玩具後自己亂玩那樣 : AI能夠自行生成玩法是不是就算是成功? : 中文翻譯 : 蘋果剛剛揭露了人工智慧中最大的謊言,即「思考」的假象,證明了像 Claude、Deepseek- : R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問 : 題,而是創造了這些模型從未見過全新謎題。結果令人震驚。 : 對於簡單問題,標準 AI 模型表現優於昂貴的推理模型,同時消耗更少的資源。對於中等複 : 雜度問題,推理模型顯示出一些優勢,但對於模擬現實世界情境的高複雜度問題,兩種類型 : 的模型都崩潰到 0% 的準確度。 : 這是確鑿的證據:蘋果給予 AI 模型逐步的演算法,就像給某人食譜一樣,但它們仍在相同 : 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據,得 : 出結論認為其行為最好用複雜的模式匹配來解釋。 : 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔(Tower of Hanoi)謎題,模型 : 在超過 100 步的移動中成功了,但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶 : 模式,而不是進行邏輯推理。 : 隨著問題變得越來越難,「思考」模型使用的 token 越來越少,放棄得更快,而不是更深 : 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤 : 前提上的。 : 公司將複雜的模式匹配宣傳為真正的推理,誤導消費者對 AI 能力的認知。我們離通用人工 : 智慧(AGI)的距離並沒有大家想像的那麼近;我們正在處理的是非常複雜的自動完成系統 : 。當先進的 AI 推理模型連遵循簡單指令都失敗時,我們是否正生活在一個建立在幻想之上 : 的 AI 炒作泡沫中? : 英文原文 : Apple just exposed the biggest lie in AI with the illusion of "thinking," provin : g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act : ually think. Instead of recycling math problems, Apple created brand new puzzles : these models had never seen. The results were shocking. : For simple problems, standard AI models outperformed expensive reasoning models : while using fewer resources. For medium complexity, reasoning models showed some : advantage, but for high complexity problems that mirror real-world scenarios, b : oth types collapsed to 0% accuracy. : Here's the damning evidence: Apple gave AI models step-by-step algorithms, like : giving someone a recipe, and they still failed at the same thresholds. This prov : es they can't follow logical instructions. The study found no evidence of formal : reasoning, concluding behavior is better explained by sophisticated pattern mat : ching. : Simply changing names and problems degraded performance dramatically. Apple test : ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed : at novel river crossing puzzles after just 4 moves. They memorized patterns rat : her than reasoned logically. : As problems got harder, "thinking" models used fewer tokens and gave up faster i : nstead of thinking deeper. Even unlimited computational resources couldn't help. : This exposes that billions in AI investment are based on false premises. : Companies market sophisticated pattern matching as genuine reasoning, misleading : consumers about AI capabilities. We are not as close to AGI as everyone thinks; : we're dealing with very sophisticated autocomplete systems. When advanced AI re : asoning models fail at following simple instructions, are we living in an AI hyp : e bubble built on illusions? ----- Sent from JPTT on my Xiaomi 23090RA98G. --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.242.134.228 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1750025617.A.AA0.html ※ 編輯: pujos (27.242.134.228 臺灣), 06/16/2025 06:27:39
1F:推 ben108472 : 錯的也就算了,還會講的跟真的一樣,而且隨著對話 06/16 06:33
2F:→ ben108472 : 越多品質會非常有感的下降 06/16 06:33
3F:推 centaurjr : 寫程式也很常出現啊,你給他一個冷門的轉換公式請 06/16 07:11
4F:→ centaurjr : 他寫,他就會拿相似詞句的掰出來一整段 06/16 07:11
5F:→ centaurjr : 上週我拿一個多個if中間有幾段完全不會走到的,用 06/16 07:14
6F:→ centaurjr : 省略完問他兩個是否一樣他也是答錯 06/16 07:14
7F:→ centaurjr : 浪費我好幾分鐘驗證 06/16 07:15
8F:推 sunsamy : 講得跟真的一樣才是最致命的 06/16 07:17
9F:→ sunsamy : 我要花雙倍的時間去驗它所講的 06/16 07:18
10F:推 abc12812 : 免責條款和會不會思考是兩回事 06/16 07:18
11F:→ abc12812 : chatgpt就只是推出來讓大家玩的玩具 當然不負責 06/16 07:19
12F:推 Eleganse : 提醒一下:你故意去考AI一個乘法 就像叫模具包水餃 06/16 07:28
13F:→ Eleganse : 模具沒有錯 你想吃水餃也沒有錯 那什麼錯了 很明顯 06/16 07:30
14F:→ pujos : 那能問他什麼問題要不要先定義清楚,還乘法,哪個運 06/16 07:31
15F:推 NTUT56 : 叫chatgpt證明費馬小定理,限一行證完 06/16 07:31
16F:→ pujos : 算不需要加減乘除,他算錯是使用者的錯?? 06/16 07:31
17F:→ NTUT56 : 數學系可以gpt不行,群論一句話證完 trivial 06/16 07:32
18F:→ pujos : 我程式超屌會算財務數據、會算工程數學...balabala 06/16 07:32
19F:→ pujos : ,但是加減乘除錯,那是使用者的錯...洗地有需要洗 06/16 07:32
20F:→ pujos : 成這樣嗎 06/16 07:32
21F:推 MinatoFlash : 有常識是一回事 證明常識為真是另一回事 06/16 07:36
22F:→ FMANT : 我的ChatGPT:295,077.1041 06/16 07:38
23F:推 Samurai : 思考方式跟人腦一樣啊,考試的時候常常自己錯了也 06/16 07:43
24F:→ Samurai : 不知道,因為沒學到相關方法 06/16 07:43
25F:→ bnn : 你人類小孩也是牙牙學語開始的... 06/16 08:13
26F:→ bnn : 小孩也會經歷過一個時期 模仿發音但不知其所以然 06/16 08:13
27F:→ bnn : 小孩也會死背 關連他記得的記憶亂回答一通 06/16 08:14
28F:→ soem : 我覺得蠻有意思的點是,明明本質是LLM,大家最在乎 06/16 08:15
29F:→ soem : 的卻是1+1=2算錯 :) 06/16 08:15
30F:→ bnn : 小孩也會看不懂 有邊念邊(這參數很"像"XXX) 06/16 08:15
31F:推 Eleganse : 感覺正上方那篇寫得不錯啊 樓主參考一下上一篇吧 06/16 08:15
32F:→ Eleganse : 大家會看線型 研究基本面 算籌碼 加減乘除也會錯啊 06/16 08:17
33F:→ Eleganse : 你各位錯就可以 AI錯就不行 寬以律已是吧 06/16 08:18
34F:→ bnn : 1+1=2 學生都是用背的 包含九九乘法表 不是思考 06/16 08:19
35F:→ Eleganse : 上面也說的不錯 本質是LLM 最在乎他的1+1 .... 06/16 08:20
36F:→ bnn : 沒人在進行算數的時候都還退回去集合論推導一遍 06/16 08:20
37F:→ bnn : 人只是調用他的記憶庫 他背下來了1+1=2這件事情 06/16 08:21
38F:噓 shinewind : 免責條款是兩回事吧... 06/16 08:23
39F:→ shinewind : 就算是人都會有錯誤的機會 06/16 08:23
40F:→ shinewind : 就像醫生幫你開刀,難不成失敗就告? 06/16 08:23
41F:→ shinewind : 我不覺得LLM可以實現AGI,但這是兩回事 06/16 08:24
42F:推 centaurjr : 所以12345x54321 樓上背看看多少? 06/16 08:28
43F:→ strlen : 那人類不更糟 不懂也是猜的 有些更惡意 懂了卻騙你 06/16 09:53
44F:→ strlen : 說謊機率超高 甚至高過說真話勒 嘻嘻 你要相信AI還 06/16 09:53
45F:→ strlen : 相信人?有時還真難決定 06/16 09:53
46F:→ mdkn35 : 你可以call function 06/16 10:14
47F:→ NexusPrime : 簡單算式應該就直接call 函數算結果了吧,還用機率 06/16 10:24
48F:→ NexusPrime : 模型猜真的太扯 06/16 10:24
49F:→ xam : "錯的也就算了,還講的跟真的一樣" 真實世界不也這樣 06/16 12:48
50F:→ fatb : 講得跟真的一樣就是真的 06/16 14:08







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP