作者sxy67230 (charlesgg)
看板Tech_Job
標題Re: [討論] ChatGPT的思維是甚麼?
時間Fri Feb 17 08:53:03 2023
※ 引述《paulcaptain (我不會寫程式)》之銘言:
阿肥外商碼農阿肥啦!
剛好看到這篇文章就回覆一下,這次大型語言模型(LLM)表現出來的是語言模型的湧現能
力,我其實不贊同LeCun說的LLM是歪路,畢竟雖然我們可以直覺知道加大網路連接數可能
是實踐人類大腦的一個重要步驟(畢竟人腦的連結數量跟複雜性在生物醫學上都有驗證),
但科學上不去驗證你沒辦法證明某些事情的。
我這邊科普一下湧現(Emergent)能力是啥好了,所謂的湧現源自於生物學就是指當生物
系統夠複雜的時候,就會表現出他群集本來不具備的功能,像人類社會就是這樣的。而套
用到LM上就發現到這種狀況普遍存在大型語言模型,像LaMDA、GPT-3、Gopher這些LLM都
表現出跟人類一樣出色的類比、歸納能力甚至更出色,甚至不需要做任何直接訓練很多實
驗中都驗證只要只要夠大,自然就有湧現能力,這也驗證了為啥prompt tuning在LLM上面
才可行,因為你夠大就可以用prompt 刺激他某些激活神經元,出現本來不具備的能力(有
興趣知道prompt tuning可以去看一下chain of thought 那篇論文)。而正經瞎掰有時候
正是人類文明的特色,自然界很多物種其實是不會虛構事實跟類比的。
回到為啥他數學不好的點上,這邊其實蠻多針對chatGPT跟大型LLM的論文或是博客研究都
發現到當前LLM對於歸納推理、因果推論、空間推理都是表現蠻差的,而且大小模型也不
會因為增加參數規模而獲得更好的結果,這正好是由於其實模型現在的理解力是基於橫向
水平的,而數學、因果推論其實是空間物理樹狀的,舉例來說,你做加法或乘法的時候其
實是先去檢索過往有沒有背過相似的模板然後在去想像空間樹狀垂直相乘或相加(我自己
腦袋是比較差的,但是之前討論過大部分跟我智力水平差不多應該都是這樣,也許有人可
以趴一下橫向思考腦袋就出現計算結果,但當前不討論),這點是當前LLM不具備的,畢竟
當前基於的模型結構都是基於橫向語言優化的,也沒有物理規則的概念,所以也驗證了當
前LLM的侷限性。
至於程式語言為啥chatGPT表現優異我覺得主要還是在於,其實現代的程式語言都是封閉
自洽的,而且說其實我們人類在看程式碼是垂直樹狀佈局的,但其實思維上依然是橫向佈
局,而這種模式是跟LLM天然相似的,所以你要他實作一個功能真的相對單純,不過人類
有空間佈局的概念也看出來為啥LLM還做不到系統級的設計,你只能一個一個把他原子化
成橫向思考再來問他實作功能才是最好的。
其實我更傾向把這次LLM的實驗當作是AI/DL領域對於複雜系統的文藝復興,有了這次的實
驗後該思考的是如何解構大腦思維與神經元之間的關聯,讓機器去真正理解物理世界的規
則、建構樹狀空間的複雜語言模型,坦白說,這只是通用人工智慧(AGI)的一個開端,打
開這個複雜的盒子後才是黑暗大陸的探索。
剩下的因為太過學術的東西就不再這個版上討論了,有興趣未來可以聊,差不多先醬
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.176.13 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1676595185.A.64B.html
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 08:55:32
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 09:21:44
1F:推 moboo : 板上同時有高水準文章好不適應xd 02/17 09:48
2F:推 switch : 強大 02/17 10:07
3F:推 e12518166339: 推一下02/17 10:09
4F:推 paulcaptain : 湧現的現象確實很耐人尋味,差500這個點是chatGPT02/17 10:15
5F:推 paulcaptain : 有意為之還是真的算錯?還是真的耍俏皮?耐人尋味 02/17 10:18
6F:推 IdiotYuan : 推 02/17 10:45
7F:推 roseritter : push 02/17 10:49
8F:推 jhangyu : 推 02/17 10:58
9F:→ samm3320 : 好認真啊02/17 10:59
10F:噓 recorriendo : 一堆不太相干的名詞 其實什麼都沒解釋到02/17 11:09
對,我可能講得不太好,這邊是綜合好幾篇的Paper跟自己長年研究NLP的一點小心得,真
的有興趣我覺得可以延伸閱讀,Emergent Abilities of large language model,這是去
年Google research 跟Deep Mind的綜合成果,裡面也有詳細的實驗。敝人學識淺薄,我
說得不好還請包含~
11F:推 ma721 : 很像ChatGPT 的回答02/17 11:12
推 colon2 : 你講的很清楚,我聽的很模糊 02/17 11:13
12F:推 la8day : 你講的沒錯02/17 11:27
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 11:41:55
13F:推 h920032 : 湧現這個現象確實很有趣 但目前缺乏證據跟因果關係02/17 11:51
目前包含Google research 那篇(Jeff Dean也是作者之一)都是從實驗結果驗證出來的,
利用物理跟生物的定律來解釋為什麼量變產生質變、大力出奇蹟有效,不過人類當前對於
複雜系統為什麼會產生質變跟穩定性還有得探究的說,真的要研究嚴謹一點的證明LLM可
能還需要再等等。大型語言模型怎麼發生突發演生都能成功解釋的話,那複雜系統問題包
含預測混沌都有解了。
補充一下:我會接受這個觀點主要還是這樣的現象與實驗佐證的合理性很高,而且非
常直覺,可能已經接近解釋LLM跟人腦的真相了,否則人類做為地球上的一個物種之一,
為
啥只有人類發生智慧,不太可能是因為有特殊構造比較大的可能是我們的神經元連結發生
了物理意義上的突發演生,這也符合奧卡姆剃刀原理,簡單可能是最接近真相的。
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 13:43:27
14F:推 oachan : 不錯的觀點,目前LLM百花齊放,未來期待有更多的研 02/17 14:53
15F:→ oachan : 究 02/17 14:53
16F:推 utn875 : 有趣的文,推推 02/17 15:04
17F:推 donkilu : 推 大力出奇蹟確實是很有意思的觀察 02/17 15:26
18F:推 erlin : Self attention 要怎麼讀才能瞭解? 02/17 15:49
19F:推 joygo : AGI才正要開始,蠻多學校要開始弄了02/17 16:42
20F:噓 DrTech : 外行人瞎扯路)亂說,順便算大神LeCun,結果還有人推 02/17 17:18
21F:→ DrTech : 。 02/17 17:18
22F:→ DrTech : 真的是越外行越愛酸真正懂AI 的人耶 02/17 17:19
23F:→ DrTech : 你先去看那篇論文的 Emergent ability是怎麼定義的02/17 17:25
24F:→ DrTech : ,跟你解釋瞎扯的完全不同。 02/17 17:25
25F:→ DrTech : 那篇論文是模型大到一定程度說loss的突然降低,沒說 02/17 17:26
26F:→ DrTech : 會出現本來不具備的能力喔。 02/17 17:27
DrTech大大別氣,我也沒有否定LeCun也沒酸他,就是不贊同他說是歪路而已,但我也認
同他說的當前LLM沒有因果推理能力。還有我覺得大大可以重讀一下paper,作者是用Big-
Benc
h給予測試主要是以EM/BLUE/ACC跟模型參數大小為指標研究(後來還有魯棒性就暫時不提
了
),作者確實有研究loss在附錄中發現一些特定任務在小模型上雖然loss有下降但Error R
ate卻沒有反應到下游任務上,當參數量加大突然就獲得了小模型本來不具備的能力,這
個作者定義為湧現能力。(我想是我在原文中因為一次性想說明太多事情所以就直接給了
結論,這樣造成閣下誤會我也跟你道歉)。好好討論就好,不要動不動爆氣喔~
28F:→ create8 : An ability is emergent if it is not present in02/17 17:38
29F:→ create8 : smaller models but is present in larger models.02/17 17:39
30F:→ recorriendo : 生出合格的語言/程式碼和生出合格的數學式本來就不 02/17 18:15
31F:→ recorriendo : 是同一件事 02/17 18:15
32F:→ recorriendo : 1+1=3是合格的語言/程式碼 回傳為False02/17 18:17
33F:→ recorriendo : 所以 重點更在於在不同脈絡下 人類感覺"厲害"的標 02/17 18:20
34F:→ recorriendo : 準不一樣了 自己卻沒意識到 02/17 18:20
35F:→ recorriendo : 你對數學式做再多樹狀分析 也找不到使數學式為真的02/17 18:33
36F:→ recorriendo : 規則 因為那是semantics不是syntax 02/17 18:33
37F:推 jamesho8743 : 湧現這種現象本來就很符合現實 現實中很多複雜的東 02/17 20:06
38F:→ jamesho8743 : 西其基礎構造都很簡單 比如說邏輯閘最後變成CPU GPU 02/17 20:06
39F:→ jamesho8743 : 量大到一定程度 量變產生質變 02/17 20:06
※ 編輯: sxy67230 (114.45.57.172 臺灣), 02/17/2023 21:52:09
40F:推 johnlin35 : 板上同時有高水準文章好不適應xd 02/18 01:23
41F:推 oolontea : 不應該說不具備,而是還沒發掘而已 02/18 07:54
42F:推 chienk : 覺得台灣這領域的教授可以減薪了。 02/19 07:47
43F:推 Lhmstu : 推推 02/19 14:00
44F:推 yourei : 看不懂嗚嗚 02/20 11:13