Soft_Job 板


LINE

先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛? 所以我們台灣應該要發展一個"繁體,本土"的搜尋引擎取代google? 即使真的做出來了,台灣版google搜尋: 一個只能搜少量英文,繁體,台灣本土資訊的搜尋系統,可被搜尋到的內容還無法一直更新, 有多少商業價值? 這種搜尋引擎,別期待能做什麼產業的應用。 可成為大家可沿用的基礎系統, 這類搜尋引擎本身沒有什麼實用性。 這時重點反而要放在,我們能不能把這搜尋引擎變成工具,內部可以換成自己想要的資料來賺錢。裡面資料有偏見,不通用,根本沒差。 我有了工具,自己改就好。 (ElasticSearch就是走這條路) 同樣的道理也適用於台灣的 LLM/AI的發展。 現在新聞看到的內容,政府相關單位發展AI的模式都很好笑: 因為模型有偏見,所以我們要產出一個本土化知識,繁體中文,專屬於台灣的LLM。之後可能還會包裝,這模型兼顧國際化,英文能力也還可以。 實際上這種丟棄大量英文與簡體中文知識的模型,能力與後續潛力是絕對不如LLaMA2 (或其他不分地域語料的模型)的發展方式的。 如果OpenAI ChatGPT 丟棄大量全球知識,只能輸出台灣本土知識,你還會用嗎? 過分強調本土化,繁體化的模型根本沒意義。 最後台灣產官學只會輸出一堆,號稱本土化,產業化,繁體中文大模型。 結果每個模型能力,都不如免費的ChatGPT網頁版,或都不如LLaMA2用多語言fine-tune的模型。因為只用繁體知識,本土知識,訓練資料量,與跨語言知識量,推理能力,差太多了。 Demo當然沒問題,問訓練資料內有的就好。 但稍微問偏一點的,通用能力完全不如任何全域不分國界的開源模型。 計畫結束了,也永遠不會更新模型新知識。這類LLMs的發展,就如只能搜台灣知識的搜尋引擎,實用性被嚴重限制。 所以,在台灣做任何LLM研發,本土化知識,繁體中文輸出的LLM根本不是重點。 產出任何LLM意義都不大。 真正的重點,應該是要發展自主的LLM工具, 讓各界能夠任意修改LLM能力。 能不能讓台灣各企業,能換上自己公司的專有資料產生專屬的LLM,在各行各業都能取代部分人力,這才是重要的。 台灣真正需要的, 不是只能搜繁體中文知識都搜尋引擎。 不是只能看台灣知識的短影片APP。 不是只能輸出台灣本土知識與繁體中文的LLM。 而是發展適合中小企業可訓練LLM的簡易工具。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.188.61 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1697308441.A.C83.html
1F:→ BoXeX: 學術研究本來就是做玩具 10/15 02:40
2F:→ BoXeX: 以現在AI發展速度 你要商用還不如多等個幾年 10/15 02:40
3F:→ BoXeX: 等技術都成熟了再拿來用 10/15 02:40
4F:→ BoXeX: 除非你公司跟google微軟一樣有錢 可以成為技術的領頭羊 10/15 02:44
5F:→ BoXeX: 不然你在那邊開發半天 可能比不上未來人家call一行API 10/15 02:45
6F:推 DrizztMon: 關鍵字 騙經費 10/15 07:50
7F:推 Lhmstu: 比較有經費 10/15 09:43
8F:噓 askaleroux: 這麼說不就等 OpenAI Meta就好 10/15 10:51
9F:推 una283: 本來中研院只是一個小組在做中文斷句研究 10/15 11:10
10F:→ una283: 結果一下子被openAI超車只能跑去做明清文書做市場區隔 10/15 11:11
11F:→ una283: 但選舉的時候總是要拿出點成績交待誰叫數發部太廢 10/15 11:12
12F:→ una283: 就這麼被推上火線 10/15 11:12
13F:推 neo5277: 雖然是實在話但是這樣台灣價值不構不會有經費 10/15 15:20
14F:推 lukelove: 台灣價值留給專門的公司做就好了 其他公司做了也拿不到 10/15 16:54
15F:→ lukelove: 錢 10/15 16:54
16F:推 francej: 說穿了就是騙研究經費啊 不過人家有靠山 到最後只要 10/15 17:00
17F:→ francej: 生出個幾篇paper交差了事就好了 10/15 17:01
18F:→ francej: 當國產搜尋引擎都搞不起來了 現在生成式AI運算成本更高 10/15 17:02
19F:→ francej: 自己土炮的系統到最後一定是不了了之 10/15 17:03
20F:→ tsrn46336686: 政府自己都不重視建立資料庫了,憑啥覺得 Google 或 10/18 05:08
21F:→ tsrn46336686: Meta 會想來做 10/18 05:08
22F:推 Mchord: 騙經費 10/19 00:59
23F:噓 hizuki: 怎麼叫本土?金馬非臺算本土嗎?日本時代是好棒棒還是殖民 10/19 10:38
24F:推 oachan: 領域知識或是本土知識還是很重要的,在OpenAI等國外的LLM 10/21 10:13
25F:→ oachan: 大宗還是英文知識。需要引用到相關知識大宗還是得靠RAG手 10/21 10:13
26F:→ oachan: 法,但是這方法還是有局限性。但想復現LLM訓練,台灣的資 10/21 10:13
27F:→ oachan: 料量級跟算力也很難匹即。 10/21 10:13
28F:推 adamlin120: 繁體中文LLM讓大家使用在這裡 https://twllm.com 10/23 01:55
29F:→ adamlin120: 同意發展企業LLM(訓練)解決方案 10/23 01:57







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP