作者midas82539 (喵)
看板Stock
标题Re: [心得] 苹果揭露人工智能并不思考
时间Mon Jun 16 02:04:32 2025
大语言模型(LLM)它的原始目的是要「模仿人类回答出人类看得懂的答案。」
但跟人类的语言不同,你我使用的与言语表达会是一系列的文字规则,
例如「主词,动词,受词」的SVO结构。
但模型本身并不是这样学习的,它是把你看到的字,拆成词素(token)
然後将这些词向量化,变成一系列数列:
king → [0.8, 0.1, 0.3, 0.7]
queen → [0.9, 0.1, 0.5, 0.9]
man → [0.9, 0.0, 0.3, 0.6]
woman → [0.8, 0.0, 0.5, 0.8]
这个数列可以很长,例如有必要的话,可以到有300多个。然後模型可以找到特徵。
这个特徵用人类可以理解例子,就姑且浓缩成一个角度,便为说明就简化成:
king=右上 man=右上
queen=左上 woman=左上
那麽就算是你,也可以找到king跟man都是右上,故似乎有关连性。
而king跟queen角度不同,所以这两个不是同样的东西。
再把朕、殿下、皇帝、国王,排在一起。
只要资讯够多,理论上是可以让模型自己圈出有向量角度相近的集合。
我们可以再增加这个字出现在字首、字尾、中间第几个字的频率作为变数。
那麽就可以算出这个字出现在哪里的特徵比较大。
这时我们回到刚刚的SVO结构,模型就可以在不懂中文,但凭统计出的特徵,
可以拼凑出一个你可以看懂的中文回答。
然而这并不是人类的理解与语意判定,以及衍伸的推理。
所以它就会造就出「中文房间」的错觉,例如假设一个外国人被关在房间。
但他有一本教战手则,上面说明了那些字出现了,可以给出哪些答案。
那他就算不懂中文,在手册的指引上也可以回答定型文。
大语言模型也是同样的概念,它是基於大量的资料来找出「特徵」,
而这些特徵的组合在在它的神经网络会给予特定的权重,最後形成类似"手册"
的东西,然後依照手册找到近似值的解答,生成给你看。
但它不见得是理解回答是否有意义,所以才会出现错误。
比如说很常见的,现在threads被一堆诈骗仔用AI生成图片,
例如啥我是护理师给我一个赞好吗?但里面的图片会出现一些错误,
例如叙述自己是75年出生,但生成的身分证是57年出生。
或者有生成名字了,但它的字型大小很明显不一致。
然而对於模型来说,它不会知道"怎麽样才是对的格式",而它只是针对
中华民国身分证大概是长怎样,而随机生成一个结果。
故单纯直接产出,就免不了会有以上的问题。
GPT4-O3它是说有多一个推理功能。然而它的底层还是大语言模型(LLM)
加上它的数据处理是弄成很长串的多维资料,你人类也看不懂,
所以你还是不会知道,它的推理过程,是不是也是模仿生成人类看得懂的逻辑。
但这个算法是否正确与必要,不见得正确。
这个问题在你处理只有你会面对的数学问题就有机会发生。
例如假设你要模型生成一个模型由0至指定最大值,与指定最小值机率递减,
而机率递减的分配公式,正常我们人类就是设一个权重来分配。
但我问过O3它就很奇葩,它想用自然常数来分配,然後算式会出现错误。
其他你看过的就是GPT跟deepseek下西洋棋,结果deepseek凭空出现棋子,
或者无视规则走奇怪的动作。这些都说明了语言模型并不是真的了解规则,
而只是像两只猴子看人类下棋,而模仿人类玩西洋棋。
由於这不是你熟知的建立规则(base rule),所以在面对复杂的随机模拟。
它可能做出错误的资讯,而你没有发现错误的话,它就会继续引用上下文
而给出错误的结论,但你看起来觉得是对的。
比如说你不会选择权,但你想要模型直接生成一个卖方与调整策略。
而模型基於call有正的delta,而错误认为sell call也有正dela,
那它就会继续基於错误资讯引用,而得出:
当标的价格趋近於SC履约价,整体delta会变正而且增加,故需要买put调整的规则。
当然对我来说我可以看出哪里有问题,但对於没有理解的人来说,
那他就不会发现这个推理与建立规则错误,就会导致利用而产生亏损。
而这我认为基於大语言模型的训练方式,本质上是无解。
你只能靠自己判断模型的回答是否逻辑正确。而不是期望模型像神灯精灵,
你不用会你也可以产出一个东西跟专业的人竞争。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 192.253.210.90 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1750010675.A.954.html
1F:推 aegis43210 : 人类的建立规则是靠五感的回馈机制不断修正而来,但 06/16 02:09
2F:→ aegis43210 : LLM只能靠文字 06/16 02:09
3F:推 eric878787 : 目前AI只负责生成,不负责对错 06/16 02:12
4F:推 qwe78971 : LLM 讲白 只是接受很多数据 然後连连看 哪个规律最 06/16 02:15
5F:→ qwe78971 : 高 最匹配就用哪个 不是真正 thinking 根本不是AG 06/16 02:15
6F:→ qwe78971 : I的方向 一旦碰到的东西没这数据 就当机了 没有学 06/16 02:15
7F:→ qwe78971 : 习及纠错能力 跟人脑差距还是太大 06/16 02:15
8F:→ haha98 : 我比较认同Ilya的看法 目前的LLM甚至 MLLM只是一种 06/16 02:24
9F:→ haha98 : 基於语意的压缩世界模型 离真正的世界模型还差的远 06/16 02:25
10F:推 fajita : 目前的模型,等老黄卖到G2兆时看能不能突破 06/16 03:09
11F:推 abc12812 : alphago下棋就没这种问题 06/16 03:20
12F:推 edward0811 : 生成式AI就大骗局,非人类进步方向 06/16 03:46
13F:推 s0914714 : 生成式AI的概念可能只是人类思考的一部分而已 06/16 03:55
14F:→ bobogei81123: 讲的好像别人跟你说一句话 你是先拆成主词 受词... 06/16 04:55
15F:→ bobogei81123: 再去理解分析的 06/16 04:55
16F:推 ripple0129 : 其实大量的回归与收敛,最後答案都会越来越正确, 06/16 05:21
17F:→ ripple0129 : 只是在於有没有人校正什麽是错误什麽是正确。AI本 06/16 05:21
18F:→ ripple0129 : 来就不应该完全与人类相同的思考模式发展,否则就 06/16 05:21
19F:→ ripple0129 : 不可控了。让AI限缩在LLM的极致与正确性,或许对人 06/16 05:21
20F:→ ripple0129 : 类是一种安全的选择。 06/16 05:21
21F:推 guanting886 : 短时间内LLM还是要依赖Scale AI这类公司做资料清洗 06/16 06:04
22F:→ guanting886 : 、修正跟媒合血汗打工仔帮忙打标签 没有工人智慧就 06/16 06:04
23F:→ guanting886 : 没有你现在看到的人工智慧 06/16 06:04
24F:推 guanting886 : 目前人们要的就是想要一个酷东西 他们才不会在乎後 06/16 06:08
25F:→ guanting886 : 面到底是统计模型 还是真的会推理 包括整个行业可 06/16 06:08
26F:→ guanting886 : 能也不想戳这个东西的真相 06/16 06:08
27F:推 guanting886 : 苹果的论文可惜的是他发表的时间让他们很尴尬 只有 06/16 06:15
28F:→ guanting886 : 被讨骂的份而已 06/16 06:15
29F:→ guanting886 : 现在的Ai被包装的很好 会有让用户认为他们是全能的 06/16 06:18
30F:→ guanting886 : 但可能要小心其实会错大 包括整理资料跟分析讲结 06/16 06:18
31F:→ guanting886 : 论 06/16 06:18
32F:→ guanting886 : 用户事後都要去验证 但新的问题又来了 当你习惯什 06/16 06:20
33F:→ guanting886 : 麽东西的丢给这样的模型去帮你做整理 你要核实数字 06/16 06:20
34F:→ guanting886 : 的难度就会变高 06/16 06:20
35F:推 guanting886 : 因为藉由Ai你获得了一个极佳的杠杆 你甚至可以一次 06/16 06:21
36F:→ guanting886 : 做的工作量变得以往多好几倍 06/16 06:21
37F:→ guanting886 : 但也丢出很大的工作量给Ai 你无法有限的时间核实A 06/16 06:23
38F:→ guanting886 : i给你说的数据是否正确 最後你会鬼遮眼选择忽略会 06/16 06:23
39F:→ guanting886 : 发生这个问题的事实 06/16 06:23
40F:推 guanting886 : (之前拿某个模型来分析资料 看了模型在推理过程直 06/16 06:30
41F:→ guanting886 : 到他崩溃/幻觉,不难想像如果这样的东西要在苹果手 06/16 06:30
42F:→ guanting886 : 机上,我看某个用户可能因为某个原因发生严重问题 06/16 06:30
43F:→ guanting886 : 我看集体诉讼就来了 06/16 06:30
44F:→ ewayne : 14楼,不然呢?还是你以为你可以在主词受词动词都搞 06/16 06:37
45F:→ ewayne : 不清楚的状态下就能理解一个句子? 06/16 06:37
46F:推 dildoe : 随便问个简单问题都略过万数量词了XD 06/16 06:39
47F:推 pujos : @24楼,你可以藉由他有十倍百倍工作量,但你没有十 06/16 06:54
48F:→ pujos : 倍、百倍的验证能量,所以错误就成了必然 06/16 06:54
49F:→ pujos : 你还没能力预防、控制这个“错”,会不会出在什麽巨 06/16 06:55
50F:→ pujos : 大的地方 06/16 06:55
51F:推 NTUT56 : 看起来背後就一堆线性代书运算 06/16 07:05
52F:→ NTUT56 : 所以线代真的超重要的,从来不会退流行 06/16 07:05
53F:→ bobogei81123: 6岁小孩根本没听过主词受词这些概念 还不是听得懂人 06/16 07:19
54F:→ bobogei81123: 话 06/16 07:19
55F:推 NTUT56 : 人家有爸妈天天跟他练英文,你有吗 06/16 07:20
56F:→ NTUT56 : 而且美国的小孩一样要上英文课 06/16 07:20
57F:嘘 chang1248w : 现在token embedding dim不是2048起跳吗= = 06/16 07:34
58F:推 zero00072 : 有点概念了,有点像人类识别颜色座标,相近的颜色座 06/16 07:36
59F:→ zero00072 : 标相近;但是色弱的座标相对狭窄。 06/16 07:36
60F:推 mdkn35 : 词性只是能更复杂地形容精确的状态 不然只有名词也 06/16 07:37
61F:→ mdkn35 : 是能描述 06/16 07:37
62F:推 kobebrian : 这篇描绘的算蛮深入浅出 06/16 07:39
63F:推 xephon : 没办法很多猴子觉得AI会思考人类要毁灭了 06/16 07:44
64F:推 Samurai : 这篇很专业了,LLM基础就是模糊性,才适用语言交流 06/16 07:51
65F:→ Samurai : ,拿来算数学容易错误 06/16 07:51
66F:→ pujos : 不是算数学容易错,而是这玩意容易验证,对就对、错 06/16 07:54
67F:→ pujos : 就错,生成其他文本类,错了你也看不出来 06/16 07:54
68F:→ pujos : 实际上它的架构、答案生成方式,就决定他做什麽都是 06/16 07:55
69F:→ pujos : 容易出错 06/16 07:55
70F:推 prmotolprlin: 专业推 赞赞 06/16 08:09
71F:推 jorden : AI弄个网格交易工具可以 要玩期货可能有难度 06/16 08:14
72F:推 gold9450412 : 我喜欢台大教授李宏毅的说法 大家都说AI只是找机率 06/16 08:24
73F:→ gold9450412 : 最大的排列组合成句子 不是思考 06/16 08:24
74F:→ gold9450412 : 但人类大脑何尝不是这样操作 同样是计算出最有可能 06/16 08:24
75F:→ gold9450412 : 的答案 06/16 08:24
76F:推 ohlong : LLM只是像大脑里面掌管语言的区块 模仿的功能跟字 06/16 08:27
77F:→ ohlong : 汇更强一点 我们也是从小透过学习文法跟单字可以拼 06/16 08:27
78F:→ ohlong : 凑出语意畅通的句子 LLM就像模仿片语的巨量化 而观 06/16 08:27
79F:→ ohlong : 察小朋友还牙牙学语时 早就有思考逻辑能力了 AGM真 06/16 08:27
80F:→ ohlong : 的还早 06/16 08:27
81F:推 horseorange : 推 06/16 08:28
82F:→ kkking : 台湾填鸭教育教出来的也没好多少 06/16 08:32
83F:推 Homeparty : 写代码跟画图好用,因为是人类创造有逻辑规则。但 06/16 08:44
84F:→ Homeparty : 无法普及现实世界,因为现实转换向量过於复杂。 06/16 08:44
85F:推 Samurai : AI思考方式就跟人脑一样,至於容不容易出错,很难 06/16 08:46
86F:→ Samurai : 定义,现在让AI写考卷,已经赢一大票学生了 06/16 08:46
87F:推 a1379 : 推这篇 现在的AI跟人们幻想的AI根本是两回事 06/16 08:48
88F:推 dearevan : 推 06/16 08:53
89F:推 vovovolibear: 长知识了 06/16 09:03
90F:推 kyukyu : 谢谢分享 06/16 09:08
91F:→ etrangere : 我猜那个推理也是侦测到关键字call function而已xD 06/16 09:14
92F:推 a1234567289 : 推本篇 06/16 09:16
93F:推 ProTrader : 对於AI与机器学习来说自有资讯分析与呈现的方式 06/16 09:17
94F:→ ProTrader : 目前模型跟人类真正的资讯分析呈现方式并不相同 06/16 09:18
95F:→ ProTrader : LLM只是尽可能让结果与人类语言类似 06/16 09:19
96F:推 steven961302: 好文 06/16 09:20
97F:→ ProTrader : 这些模型分析追求的是最大可能性 并不能保证正确 06/16 09:21
98F:→ ProTrader : 从google搜寻的角度来看 这是更好用的智慧型搜寻 06/16 09:23
99F:→ ProTrader : 然而 这还不是有可靠度的任务代理人 06/16 09:24
100F:推 Sinreigensou: 推 所以大型语言模型才有幻觉问题 06/16 09:27
101F:→ Sinreigensou: 所以我搜寻东西还是尽可能用传统搜寻引擎 06/16 09:27
102F:推 fan415 : 不管你说的对不对,人家已经打趴9成人类的工作,该 06/16 09:34
103F:→ fan415 : 庆幸机器不能像牛马一样负责任扛包,不然哪还有工 06/16 09:34
104F:→ fan415 : 作给你做 06/16 09:34
105F:推 addy7533967 : 线代...死去的记忆在攻击我 06/16 09:36
106F:→ ARTORIA : 9成...要吹也别这麽夸张 连大部分低端工作都还不能 06/16 09:40
107F:→ ARTORIA : 做你跟我说9成 06/16 09:41
108F:→ takase : 所以需要对齐啊 06/16 09:41
109F:推 strlen : 其实我忘了在哪个地方看过 底层是靠机率在排出答案 06/16 09:46
110F:→ strlen : 的这个模式 并不一定是错的喔 想想看 这世界基本是 06/16 09:47
111F:→ strlen : 量子力学所组成的 量子力学本身就有随机性 06/16 09:47
112F:→ strlen : 所以代表这个世界的基础 其实也是建立在机率之上 06/16 09:47
113F:→ strlen : 那为什麽量子能达到现在这样「看似」普通的稳定态? 06/16 09:48
114F:→ strlen : 答案就在量子的规模 够巨大 随机性被降到极低 就没 06/16 09:49
115F:→ strlen : 事惹 这也是为何奥本海默团队有人就计算到 核弹是有 06/16 09:50
116F:→ strlen : 机率烧掉整个大气层 连锁反应停不下来 但很低而已 06/16 09:50
117F:→ strlen : LLM用机率当底层也没什麽关系吧?出错的机率够低就 06/16 09:50
118F:→ strlen : 好了 简单说 方向就是把算力当量子 他X加爆就对了 06/16 09:51
119F:推 moonlovemai : 苹果的不行不代表别人的也不行 06/16 09:55
120F:→ liliumeow : 人脑可能就是这样思考的 06/16 09:56
121F:推 pmes9866 : 人类大脑的预测能力屌打LLM 06/16 10:00
122F:嘘 uller : LLM确实是统计机率并不会思考,但这就必经的路,不 06/16 10:09
123F:→ uller : 是说,这没用,我不要研究。那你苹果乖乖滚下去吧 06/16 10:09
124F:推 hank850503 : 如果智慧的本质就是这样呢? 06/16 10:23
125F:→ hank850503 : LLM 现在办到的就是我家鹦鹉会的 06/16 10:23
126F:推 dream1124 : 推解释 06/16 10:40
127F:→ VicLien : 社群媒体狂洗某只股票利多 就是一堆人会去买 谁说A 06/16 11:02
128F:→ VicLien : I不如人 AI插电就学习 串越多学越快 取代5成人类 06/16 11:02
129F:→ VicLien : 认知很难吗 06/16 11:02
130F:推 AlarmAlarm : 用这麽久AI 要由人判断正确不是很明显吗 一堆说专 06/16 11:07
131F:→ AlarmAlarm : 业要被取代就觉得好笑 讲这种话的AI都没用过几次吧 06/16 11:07
132F:推 axz123999 : 推推 06/16 11:48
133F:→ aloness : 验证这个状况只适合拥有专业的人来执行,对外行人 06/16 12:13
134F:→ aloness : 来讲,不论是透过ai给答案,还是自己翻书凑答案, 06/16 12:13
135F:→ aloness : 无法保证两边都能对,此时ai因为被问过同样类型的 06/16 12:13
136F:→ aloness : 问题次数多,ai的答案方向或许还比自力学习来的可 06/16 12:13
137F:→ aloness : 靠 06/16 12:13
138F:→ aloness : ai并不是在创造解答,但一般人遇到的问题多半都是 06/16 12:15
139F:→ aloness : 另一个人每月每年都在处理的,ai只是在各领域吸收 06/16 12:15
140F:→ aloness : 每月每年都在处理的例行公事,回答提问人 06/16 12:15
141F:→ Tatsuya72 : 标签这件事就代表工人智慧 06/16 12:44
142F:→ Tatsuya72 : 靠吹AI欺世盗名捞钱的共犯结构没那麽容易放弃 06/16 12:46
143F:→ Tatsuya72 : 加上战争的因素,给了他们能最大化剥削资源的机会 06/16 12:47
144F:→ Tatsuya72 : 操弄恐惧 06/16 12:48
145F:→ Tatsuya72 : 如一年前提过,过度投资的泡沫会比想像中更快到来 06/16 12:49
146F:推 guanting886 : 长期使用下来的心得:只利用他的统计特性减少我找 06/16 12:52
147F:→ guanting886 : 寻某一种全新知识的时间 至於他能不能直接解决问题 06/16 12:52
148F:→ guanting886 : 通常 不能 06/16 12:52
149F:推 guanting886 : 就连诈骗集团都认爲LLM做翻译 里面的文法都不一定 06/16 12:55
150F:→ guanting886 : 是常用或合理的 06/16 12:55
151F:推 guanting886 : 数值运算证明了 只要他不call python来算,他的回 06/16 12:58
152F:→ guanting886 : 答是基於数据里面某一种类别的资料的解题过程来凑 06/16 12:59
153F:→ guanting886 : 答案 就好比一个没念书的学生为了应付考试 题目什 06/16 12:59
154F:→ guanting886 : 麽他就到处看书的东凑西凑只求这题能写点什麽 06/16 12:59
155F:推 guanting886 : 他的状况很像阿里巴巴全球数学竞赛丑闻 那位被老师 06/16 13:00
156F:→ guanting886 : 当分身帐号使的少女 06/16 13:00
157F:→ guanting886 : 她根本无法解题 只是受老师指示抄给她的答案送上去 06/16 13:02
158F:→ guanting886 : 要她真的理解根本不能 因为她连某些公式符号是什 06/16 13:02
159F:→ guanting886 : 麽都不知道 06/16 13:02
160F:→ guanting886 : 写程式码这件事只能说更离谱 因为特性的关系 程式 06/16 13:03
161F:→ guanting886 : 码都是掰的(LLM特性) 06/16 13:03
162F:→ guanting886 : 就好比你在stackoverflow发起一个问题 结果回答你 06/16 13:04
163F:→ guanting886 : 的人 解决方案都是想像出来的 他也跑过 06/16 13:04
164F:→ guanting886 : 也没跑过 (这个部分大概要解决 只能要让ai想程式 06/16 13:08
165F:→ guanting886 : 码的时候 要同步出你的环境条件 藉由不间断的试错 06/16 13:08
166F:→ guanting886 : 他可能才勉强真的验证过回答是正确的 06/16 13:08
167F:推 guanting886 : 但实现上困难 简单环境可以 复杂一点他的运算资源 06/16 13:09
168F:→ guanting886 : 会反向被滥用或DDoS别人 06/16 13:09
169F:推 Samurai : 人思考过程也是一样啊,根据学习经历去找出能解决 06/16 13:09
170F:→ Samurai : 问题的方法,只是目前模型没这麽全能 06/16 13:09
171F:→ guanting886 : 目前LLM是能解决某些问题 但是他的一开始的架构就 06/16 13:11
172F:→ guanting886 : 已经决定他的极限在哪 06/16 13:11
173F:→ guanting886 : 人类学习过程会试错 得到经验 06/16 13:11
174F:→ guanting886 : LLM是抄题仔 他的答案是没有被验证过的 06/16 13:12
175F:推 Samurai : 模型学习本质就是试错得到经验,也一样 06/16 13:12
176F:→ Samurai : 另外模型训练过程,资料会分成验证组,不是没验证 06/16 13:13
177F:→ guanting886 : 如果他要为他的答案负责 大多数你大概会宁可关掉视 06/16 13:13
178F:→ guanting886 : 窗 因为非常慢 运气好他陷入幻觉你要的答案根本你 06/16 13:13
179F:→ guanting886 : 等不到 06/16 13:13
180F:→ guanting886 : 为什麽Scale Ai这间公司很重要 因为数据来源跟有没 06/16 13:14
181F:→ guanting886 : 有做好整理就大多决定了模型的能力 06/16 13:14
182F:推 guanting886 : 我认为现在研究团队应该就是趁这个时间在热度的高 06/16 13:16
183F:→ guanting886 : 峰 拿到投资人的钱看能不能解决LLM的真实痛点 06/16 13:16
184F:推 Samurai : 人也是一样啊,念了国文课本但去考数学一样爆炸XD 06/16 13:16
185F:→ guanting886 : 在这之前大家都会尽可能拖就拖 06/16 13:17
186F:→ guanting886 : 嗯。~我只想表达LLM真的离通用Ai真的蛮远的 但也 06/16 13:18
187F:→ guanting886 : 因为这个东西的诞生 人们之间的资讯落差 的确有改 06/16 13:18
188F:→ guanting886 : 善 06/16 13:18
189F:推 jodawa : 推 06/16 13:19
190F:推 rickyiu : 推 06/16 13:25
191F:推 johnlin35 : 推 06/16 13:46
192F:推 KrisNYC : 问题是现在有一个军备竞赛强迫一大部分的资源错置 06/16 14:24
193F:→ KrisNYC : 这个方向并没有错 只是单用这个方法走不到终点而已 06/16 14:25
194F:嘘 chenyei : 你的中文很不通顺,外国人? 06/16 15:05
195F:推 ctes940008 : 对答案 06/16 15:14
196F:嘘 lavign : 语言是离散的有限的,真实世界是连续的无限的 06/16 17:31
197F:推 lavign : 数位资料的离散性就注定AI永远不能真的思考 06/16 17:36
198F:推 hanhsiangmax: 推 06/17 01:59
199F:推 jiusishuai : 推推 06/17 07:32