作者sxy67230 (charlesgg)
看板Tech_Job
标题Re: [讨论] ChatGPT的思维是甚麽?
时间Fri Feb 17 08:53:03 2023
※ 引述《paulcaptain (我不会写程式)》之铭言:
阿肥外商码农阿肥啦!
刚好看到这篇文章就回覆一下,这次大型语言模型(LLM)表现出来的是语言模型的涌现能
力,我其实不赞同LeCun说的LLM是歪路,毕竟虽然我们可以直觉知道加大网路连接数可能
是实践人类大脑的一个重要步骤(毕竟人脑的连结数量跟复杂性在生物医学上都有验证),
但科学上不去验证你没办法证明某些事情的。
我这边科普一下涌现(Emergent)能力是啥好了,所谓的涌现源自於生物学就是指当生物
系统够复杂的时候,就会表现出他群集本来不具备的功能,像人类社会就是这样的。而套
用到LM上就发现到这种状况普遍存在大型语言模型,像LaMDA、GPT-3、Gopher这些LLM都
表现出跟人类一样出色的类比、归纳能力甚至更出色,甚至不需要做任何直接训练很多实
验中都验证只要只要够大,自然就有涌现能力,这也验证了为啥prompt tuning在LLM上面
才可行,因为你够大就可以用prompt 刺激他某些激活神经元,出现本来不具备的能力(有
兴趣知道prompt tuning可以去看一下chain of thought 那篇论文)。而正经瞎掰有时候
正是人类文明的特色,自然界很多物种其实是不会虚构事实跟类比的。
回到为啥他数学不好的点上,这边其实蛮多针对chatGPT跟大型LLM的论文或是博客研究都
发现到当前LLM对於归纳推理、因果推论、空间推理都是表现蛮差的,而且大小模型也不
会因为增加参数规模而获得更好的结果,这正好是由於其实模型现在的理解力是基於横向
水平的,而数学、因果推论其实是空间物理树状的,举例来说,你做加法或乘法的时候其
实是先去检索过往有没有背过相似的模板然後在去想像空间树状垂直相乘或相加(我自己
脑袋是比较差的,但是之前讨论过大部分跟我智力水平差不多应该都是这样,也许有人可
以趴一下横向思考脑袋就出现计算结果,但当前不讨论),这点是当前LLM不具备的,毕竟
当前基於的模型结构都是基於横向语言优化的,也没有物理规则的概念,所以也验证了当
前LLM的局限性。
至於程式语言为啥chatGPT表现优异我觉得主要还是在於,其实现代的程式语言都是封闭
自洽的,而且说其实我们人类在看程式码是垂直树状布局的,但其实思维上依然是横向布
局,而这种模式是跟LLM天然相似的,所以你要他实作一个功能真的相对单纯,不过人类
有空间布局的概念也看出来为啥LLM还做不到系统级的设计,你只能一个一个把他原子化
成横向思考再来问他实作功能才是最好的。
其实我更倾向把这次LLM的实验当作是AI/DL领域对於复杂系统的文艺复兴,有了这次的实
验後该思考的是如何解构大脑思维与神经元之间的关联,让机器去真正理解物理世界的规
则、建构树状空间的复杂语言模型,坦白说,这只是通用人工智慧(AGI)的一个开端,打
开这个复杂的盒子後才是黑暗大陆的探索。
剩下的因为太过学术的东西就不再这个版上讨论了,有兴趣未来可以聊,差不多先酱
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.176.13 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1676595185.A.64B.html
※ 编辑: sxy67230 (49.216.176.13 台湾), 02/17/2023 08:55:32
※ 编辑: sxy67230 (49.216.176.13 台湾), 02/17/2023 09:21:44
1F:推 moboo : 板上同时有高水准文章好不适应xd 02/17 09:48
2F:推 switch : 强大 02/17 10:07
3F:推 e12518166339: 推一下02/17 10:09
4F:推 paulcaptain : 涌现的现象确实很耐人寻味,差500这个点是chatGPT02/17 10:15
5F:推 paulcaptain : 有意为之还是真的算错?还是真的耍俏皮?耐人寻味 02/17 10:18
6F:推 IdiotYuan : 推 02/17 10:45
7F:推 roseritter : push 02/17 10:49
8F:推 jhangyu : 推 02/17 10:58
9F:→ samm3320 : 好认真啊02/17 10:59
10F:嘘 recorriendo : 一堆不太相干的名词 其实什麽都没解释到02/17 11:09
对,我可能讲得不太好,这边是综合好几篇的Paper跟自己长年研究NLP的一点小心得,真
的有兴趣我觉得可以延伸阅读,Emergent Abilities of large language model,这是去
年Google research 跟Deep Mind的综合成果,里面也有详细的实验。敝人学识浅薄,我
说得不好还请包含~
11F:推 ma721 : 很像ChatGPT 的回答02/17 11:12
推 colon2 : 你讲的很清楚,我听的很模糊 02/17 11:13
12F:推 la8day : 你讲的没错02/17 11:27
※ 编辑: sxy67230 (49.216.176.13 台湾), 02/17/2023 11:41:55
13F:推 h920032 : 涌现这个现象确实很有趣 但目前缺乏证据跟因果关系02/17 11:51
目前包含Google research 那篇(Jeff Dean也是作者之一)都是从实验结果验证出来的,
利用物理跟生物的定律来解释为什麽量变产生质变、大力出奇蹟有效,不过人类当前对於
复杂系统为什麽会产生质变跟稳定性还有得探究的说,真的要研究严谨一点的证明LLM可
能还需要再等等。大型语言模型怎麽发生突发演生都能成功解释的话,那复杂系统问题包
含预测混沌都有解了。
补充一下:我会接受这个观点主要还是这样的现象与实验佐证的合理性很高,而且非
常直觉,可能已经接近解释LLM跟人脑的真相了,否则人类做为地球上的一个物种之一,
为
啥只有人类发生智慧,不太可能是因为有特殊构造比较大的可能是我们的神经元连结发生
了物理意义上的突发演生,这也符合奥卡姆剃刀原理,简单可能是最接近真相的。
※ 编辑: sxy67230 (49.216.176.13 台湾), 02/17/2023 13:43:27
14F:推 oachan : 不错的观点,目前LLM百花齐放,未来期待有更多的研 02/17 14:53
15F:→ oachan : 究 02/17 14:53
16F:推 utn875 : 有趣的文,推推 02/17 15:04
17F:推 donkilu : 推 大力出奇蹟确实是很有意思的观察 02/17 15:26
18F:推 erlin : Self attention 要怎麽读才能了解? 02/17 15:49
19F:推 joygo : AGI才正要开始,蛮多学校要开始弄了02/17 16:42
20F:嘘 DrTech : 外行人瞎扯路)乱说,顺便算大神LeCun,结果还有人推 02/17 17:18
21F:→ DrTech : 。 02/17 17:18
22F:→ DrTech : 真的是越外行越爱酸真正懂AI 的人耶 02/17 17:19
23F:→ DrTech : 你先去看那篇论文的 Emergent ability是怎麽定义的02/17 17:25
24F:→ DrTech : ,跟你解释瞎扯的完全不同。 02/17 17:25
25F:→ DrTech : 那篇论文是模型大到一定程度说loss的突然降低,没说 02/17 17:26
26F:→ DrTech : 会出现本来不具备的能力喔。 02/17 17:27
DrTech大大别气,我也没有否定LeCun也没酸他,就是不赞同他说是歪路而已,但我也认
同他说的当前LLM没有因果推理能力。还有我觉得大大可以重读一下paper,作者是用Big-
Benc
h给予测试主要是以EM/BLUE/ACC跟模型参数大小为指标研究(後来还有鲁棒性就暂时不提
了
),作者确实有研究loss在附录中发现一些特定任务在小模型上虽然loss有下降但Error R
ate却没有反应到下游任务上,当参数量加大突然就获得了小模型本来不具备的能力,这
个作者定义为涌现能力。(我想是我在原文中因为一次性想说明太多事情所以就直接给了
结论,这样造成阁下误会我也跟你道歉)。好好讨论就好,不要动不动爆气喔~
28F:→ create8 : An ability is emergent if it is not present in02/17 17:38
29F:→ create8 : smaller models but is present in larger models.02/17 17:39
30F:→ recorriendo : 生出合格的语言/程式码和生出合格的数学式本来就不 02/17 18:15
31F:→ recorriendo : 是同一件事 02/17 18:15
32F:→ recorriendo : 1+1=3是合格的语言/程式码 回传为False02/17 18:17
33F:→ recorriendo : 所以 重点更在於在不同脉络下 人类感觉"厉害"的标 02/17 18:20
34F:→ recorriendo : 准不一样了 自己却没意识到 02/17 18:20
35F:→ recorriendo : 你对数学式做再多树状分析 也找不到使数学式为真的02/17 18:33
36F:→ recorriendo : 规则 因为那是semantics不是syntax 02/17 18:33
37F:推 jamesho8743 : 涌现这种现象本来就很符合现实 现实中很多复杂的东 02/17 20:06
38F:→ jamesho8743 : 西其基础构造都很简单 比如说逻辑闸最後变成CPU GPU 02/17 20:06
39F:→ jamesho8743 : 量大到一定程度 量变产生质变 02/17 20:06
※ 编辑: sxy67230 (114.45.57.172 台湾), 02/17/2023 21:52:09
40F:推 johnlin35 : 板上同时有高水准文章好不适应xd 02/18 01:23
41F:推 oolontea : 不应该说不具备,而是还没发掘而已 02/18 07:54
42F:推 chienk : 觉得台湾这领域的教授可以减薪了。 02/19 07:47
43F:推 Lhmstu : 推推 02/19 14:00
44F:推 yourei : 看不懂呜呜 02/20 11:13