作者DrTech (竹科管理處網軍研發人員)

看板Soft_Job

標題

Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不

時間Sun Nov 3 16:09:00 2024

※ 引述《angus850503 (安格斯)》之銘言： : 借版問 : 小弟目前為前端工程師受益於 Copilot 跟 ChatGPT : 開發上真的輕鬆非常非常多已經把按 tab 當作開發的一環了XD : 不過之前就一直對生成式 AI 有個疑問 : 就是"幻覺"到底有沒有根本上的解決方法? : 我的理解目前的 AI 還是靠大數據去堆疊資料量用以訓練模型 : 現階段也是不斷堆硬體去撐這塊 : (如果理解有誤請小力鞭QQ) : 但幻覺的問題不論是餵更多資料或是透過 RAG 感覺都是治標不治本 : 還是沒辦法完全預防與解決 : 對我來說這樣可以稱得上是 AI 嗎? 還是充其量只是進階版的機器學習? : 請各位軟工大神解惑了QQ : 附上這個議題 ChatGPT 自己的回答: : https://i.meee.com.tw/Gk7IjRH.png

: https://i.meee.com.tw/EVQCczh.png

解決幻覺，不一定要從LLM解，而是靠系統架構解。例如，做一個問答系統，很多人減少幻覺是這樣做的： 0. 預先整理好QA問答資料集 (人工整理，或機器輔助整理) 1. 使用者輸入Query。 2. 搜尋top-k個相似的問題。 3. 將 k個最相似的問題與答案輸入至LLM，要求LLM生成最適合的答案。 4. 將LLM生成的答案輸出。(可能有幻覺，可能沒幻覺，難以控制) 幾乎所有的網路上範例程式都告訴你這樣做。這套系統架構稱為：LLM生成答案。實際上，你只要改個系統架構，就可以得到完全沒幻覺，又同樣準確率又同樣等級的問答系統：流程如下： 0. 整理QA資料集 1. 使用者輸入Query 2. 搜尋top-k相似的問題 3. 要求LLM在K個問題與答案，弄成K個選項要求LLM選擇一個最適合的問題與答案。 LLM只輸出1, 2, 3, 4。 (如有必要，可用outlines 或 guidance，控制 next token 只做這四個選擇) 4. 根據LLM選擇的選項，系統只輸出選項1,2,3,4 對應的答案A。由於A不是LLM生成的，所以永遠不會有幻覺問題。這套系統架構稱為：LLM選擇答案。(而不是生成答案) 也就是說，同樣一個系統，LLM原本是靠生成產生最後結果，轉換成LLM只能從多個沒幻覺的事實間，選擇一個事實。永遠不會有幻覺。以上只是舉例。任何一個AI功能，只要掌握一個訣竅， LLM或AI的輸出結果，不要用在最後階段的輸出而是轉化問題，系統設計成LLM用在中間某任務，在事實間做分類選擇，輸出的就永遠是事實。根據實驗與經驗，答對答錯的機會也不會因為改變了系統設計架構而有影響。做AI應用，真的不是無腦套模型，套別人流程。 LLM也不是只能用在生成文字，傳統的，分類，選擇，NER，排序最佳化，…都可以靠LLM 做。把LLM當成系統中間工具，而不是最終輸出，可以大幅提升AI能力，又完全不會產生幻覺。 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.189.178 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1730621342.A.166.html

1^F：→ neo5277: 樓上這個有專有名詞叫做rerank 我開發系統時有設計 11/03 16:33

2^F：→ DrTech: 重點是系統架構設計。rerank完，該怎麼輸出？如果用rerank 11/03 16:44

3^F：→ DrTech: 完，LLM生成輸出結果，還是永遠有幻覺。如果rerank完，用t 11/03 16:44

4^F：→ DrTech: op-k個答案事實輸出，就不會有幻覺。 11/03 16:44

5^F：→ DrTech: 而且當答案只有一個的情況，何必用到複雜的rerank。直接轉 11/03 16:50

6^F：→ DrTech: 換成搜尋結果 k選一的classification任務，還比較適合。 11/03 16:50

7^F：推 neo5277: 嗯合理同意，下週來玩看看 11/03 18:40

8^F：推 prag222: 你可以一個問題問三次,覺得答案不對的就打臉chatGpt 11/03 20:57

9^F：→ prag222: 多否定幾次可能就會給你正確答案了,(笑 11/03 20:58

10^F：→ labbat: 微軟大老建議過了唄 11/03 21:04

11^F：推 j0958322080: 重點是這個還要靠人整理啊 11/03 23:26

12^F：→ DrTech: 我只是說最簡單的例子，也可做到不用靠人整理，或不要整理 11/03 23:38

13^F：→ DrTech: QA。方法就是跟常見的RAG一樣，不整理QA，直接把文章切成c 11/03 23:38

14^F：→ DrTech: hunk 段落。一樣搜最接近top-K段落，給LLM生成答案，但是 11/03 23:38

15^F：→ DrTech: 生成答案後，"不要"信任LLM的生成文字直接輸出，使用傳統 11/03 23:38

16^F：→ DrTech: 的NLP去糾錯(spell correct ion)，糾錯的候選只能是chunk 11/03 23:38

17^F：→ DrTech: 事實中的連續句子。最後輸出糾正到事實的句子。這樣可做到 11/03 23:38

18^F：→ DrTech: 不整理QA但整個系統只會輸出最正確的事實句子。 11/03 23:38

19^F：→ DrTech: 方法變形很多啦，但原則就是：LLM只是選擇或決策的工具， 11/03 23:44

20^F：→ DrTech: 非最後的答案生成輸出。這樣就會有同樣聰明，又永遠是事實 11/03 23:44

21^F：→ DrTech: 輸出的AI。 11/03 23:44

22^F：推 viper9709: 原來是從問答題變成選擇題 11/04 00:44

23^F：→ agario: 假設你說的LLM只輸出1, 2, 3, 4是指只生出一個數字token 11/04 06:54

24^F：→ agario: 這樣效果應該不是很好吧，畢竟沒時間一步一步思考 11/04 06:54

25^F：→ DrTech: 我只是舉簡單的例子，你先做要CoT然後最後輸出選項，也可 11/04 07:15

26^F：→ DrTech: 以啊。其實許多Agent選tool的概念就是這樣，多種tool用選 11/04 07:15

27^F：→ DrTech: 項讓LLM 選，LLM只限定選1,2,3,4這樣選項，也可控制next t 11/04 07:15

28^F：→ DrTech: oken只選數字。選tool行為就不會有幻覺，同樣的道理。 11/04 07:15

29^F：→ DrTech: viper9709總結得很好。不要有幻覺，就是：問答題轉成，事 11/04 07:17

30^F：→ DrTech: 實的選擇。 11/04 07:17

31^F：→ fallcolor: 生成式ai被拿來當判別式ai用有種泡沫感 11/04 08:11

32^F：→ DrTech: 同樣的技術，也可以想成AI更通用了，用得更全面了，即可以 11/04 08:16

33^F：→ DrTech: 用於生成，也可以用於判斷與分類。產品能賺得錢更多了。 11/04 08:16

34^F：→ DrTech: LLM產品，何必困於於生成或判別二選一。 11/04 08:18

35^F：→ DrTech: causal language model 從來就沒限制next token該怎麼用， 11/04 08:28

36^F：→ DrTech: 沒限制下游任務只能用來判別或生成二選一。 11/04 08:28

37^F：→ Firstshadow: 沒想到從中國大企業回來的D大連這方面都懂...強！ 11/04 21:00

38^F：推 Lhmstu: 這種解法我自己是不看好，本末倒置 11/04 23:20

39^F：→ DrTech: 你可以去多看論文，OpenAI發表的GPT系列論文，模型評測一 11/05 07:34

40^F：→ DrTech: 直都不只是用於生成答案任務，甚至評測LLM 排名的知名benc 11/05 07:34

41^F：→ DrTech: hmark dataset, MMLU系列, 就是選擇題。 11/05 07:34

42^F：→ DrTech: 這種做法叫本末倒置，質疑了所有做LLM benchmark 研究的所 11/05 07:37

43^F：→ DrTech: 有團隊阿。 11/05 07:38

44^F：→ DrTech: 你看到許多LLM leaderboard跑出來的分數，許多題目都是測L 11/05 07:41

45^F：→ DrTech: LM做多選一的選擇題喔。怎麼大家都這樣利用與評測LLM的能 11/05 07:41

46^F：→ DrTech: 力，就你認為是本末倒置呢？ 11/05 07:41

47^F：→ DrTech: 再來，什麼叫作"本"，以使用者為中心，解決使用者困擾才是 11/05 07:46

48^F：→ DrTech: 本。一個公司系統需要不會有亂答題的需求。人家才不管你技 11/05 07:46

49^F：→ DrTech: 術使用是否用得本末倒置，能解決亂生答案的痛點才是本。 11/05 07:46

50^F：→ Lipraxde: 這樣設計要怎麼用 LLM 做行程規劃 or 文字修飾、潤稿？ 11/05 09:26

51^F：推 Lhmstu: 我是覺得你不用什麼都要爭到自己高人一等，我自己現在就 11/05 09:44

52^F：→ Lhmstu: 是做這領域的，你說的這些我當然知道。不過你說是就是吧 11/05 09:44

53^F：→ Lhmstu: ，目前確實是這樣，但跟我認為本末倒置沒有出入 11/05 09:44

54^F：→ DrTech: 純交流技術而言，不需要用到本末導致，高人一等都詞語吧， 11/05 10:21

55^F：→ DrTech: 不同的技術應用哪有高低之分呢。不用太自卑啦，我只是跟你 11/05 10:21

56^F：→ DrTech: 交流技術，技術本身並沒有高人一等之說。 11/05 10:21

57^F：→ DrTech: 能解決使用者問題，何必去分高低呢。 11/05 10:22

58^F：→ DrTech: 你自己就是做這領域了，你解決hallucination了嗎？可以分 11/05 10:28

59^F：→ DrTech: 享交流嗎？至少我在我做的產品都解決了我也很願意跟大家 11/05 10:28

60^F：→ DrTech: 分享。 11/05 10:28

61^F：推 Lhmstu: 確實，我有些用詞過頭了跟D大說聲抱歉，只是著眼點不同而 11/05 11:45

62^F：→ Lhmstu: 已，以軟體應用層面來說目前解法的確如你所說。只是我個 11/05 11:45

63^F：→ Lhmstu: 人心理覺得這只是暫時解而已 11/05 11:45

64^F：→ Lhmstu: 但是還是很感謝你的分享 11/05 11:46

65^F：→ Firstshadow: 對！D大只是實際分享他的技術和應用！ 11/05 12:35

66^F：推 hobnob: 推技術串，受益良多 11/05 13:28

67^F：推 transforman: 推個 11/06 00:14

68^F：推 internetms52: 呃…選擇最適合的答案不也是機率嗎？，怎麼就跟幻 11/06 11:30

69^F：→ internetms52: 覺沒關係了，不太懂... 11/06 11:30

70^F：推 Sportsman: 差別在於使用者看到的都會是人工準備的事實，而不是LLM 11/07 14:31

71^F：→ Lipraxde: 因為他是挑人工預先準備好的答案，LLM 只是做選擇題 11/08 12:26

72^F：→ sealman234: junior? 11/08 17:19

73^F：推 dream1124: 感覺是一套讓AI更可靠的方法，但目前的生成AI沒真正 11/09 13:09

74^F：→ dream1124: 認知與理解能力，因此也沒到真的解決問題 11/09 13:10

75^F：推 iamOsaka: 推分享 11/10 13:30

76^F：推 ohmylove347: 聽起來像是RAG 11/10 20:01

77^F：推 lukelove: 作為工程師就是想辦法降錯誤率, 能降就是好方法 11/24 10:57

78^F：推 daniel021477: 就是reranker ,我開發也是在用這套，但不同的架構 01/10 12:10

79^F：→ daniel021477: 差異很大，我可以理解有人說不喜歡啦，畢竟從AGI來 01/10 12:10

80^F：→ daniel021477: 看，這不是一般人認知的智能，但沒辦法我們都是螺 01/10 12:10

81^F：→ daniel021477: 絲釘，不是Ilya 01/10 12:10

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Soft_Job 板

Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不

熱門看板

贊助商連結