作者CCY0927 (茹絮夢)
看板TW-language
標題[新聞] Google對話式AI有望支援台語 盼攜手本土學者
時間Wed Aug 16 22:57:23 2023
https://www.cna.com.tw/news/ait/202308160338.aspx
Google對話式AI有望支援台語 盼攜手本土學者
2023/8/16 20:17(8/16 22:16 更新)
https://i.imgur.com/2R9XKiu.png
Google傑出科學家紀懷新目前在Google總部DeepMind團隊,帶領大型語言模型研究與對話
式人工智慧(AI)Bard開發。他16日出席媒體聚會,分享Google針對大型語言模型技術研
究與應用的發展概況。中央社記者吳家豪攝 112年8月16日
(中央社記者吳家豪台北16日電)Google對話式人工智慧(AI)服務Bard今年7月擴大支
援包含繁體中文在內的40種語言,Google今天表示,Bard未來有機會支援台語,但台語屬
於低資源語言,較難蒐集相關數據,Google有意願與台灣本土學者合作克服困難。
Google今天由傑出科學家(Distinguished Scientist)紀懷新出席媒體聚會,分享
Google針對大型語言模型技術研究與應用的發展概況。紀懷新來自台灣、目前在總部
Google DeepMind團隊,帶領大型語言模型(LLM)研究與Bard開發工作。
他說,大型語言模型的發展變革仍在早期階段,它會大幅改變人們與AI互動的方式,為生
活帶來顯著改變。Google發表Bard,並非因為已經是完整的產品,Bard更像是實驗性質的
產品,Google希望了解用戶對它的期望。
中央社記者提問,未來Bard是否有機會支援台語、客語等台灣本土語言;紀懷新回應,在
自然語言學術研究上,數據蒐集是相當困難的問題,尤其是低資源語言(low-resource
languages),連Google這麼大的公司,想蒐集相關資料都很困難。
紀懷新說,在全球不同地區,可能已經有當地學者在蒐集當地語言相關資料,如果Google
自行蒐集數據,品質不見得比當地學者更好。台灣學術機構例如中央研究院,對本土語言
的研究相當重視,Google有意願與台灣學者合作,克服相關困難。
紀懷新提到,台灣人才以往較注重硬體製造,1980、1990年代很多人才到國外學習新技術
帶回台灣,奠定台灣製造業在國際的領先地位。
他說,Google目前策略是兼顧硬體和軟體,台灣在AI和機器學習的發展上具有很大潛力,
現在是好時機走向新局面,包括台語和客語研究都是Google與台灣學者可以合作的機會。
談到這次回台灣想做的事,紀懷新笑說,自己大約一年沒回來,希望多吃一點台灣美食、
與Google台灣員工交流。他看好台灣在AI方面有發展潛力,希望能花一些時間為台灣做出
貢獻。
從2013年起,紀懷新帶領的團隊為YouTube、Google新聞、廣告、Google Play商店等產品
,帶來超過720項改進。他著名的研究領域為網路和線上社群系統對使用者行為的影響,
並擁有39項專利和200多篇研究論文發表。(編輯:張良知)1120816
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.153.3 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/TW-language/M.1692197848.A.4A9.html
1F:→ medama: fb之前也有支援 08/17 00:11
2F:推 MilchFlasche: FB那個後來有實際開放使用嗎XD(當然是樂觀其成) 08/17 08:57
3F:推 MilchFlasche: 回應原文,投入資金和人力的話低資源語言也可很快變 08/17 09:01
4F:→ MilchFlasche: 高資源語言啊。期待共享和合作了。 08/17 09:01
5F:推 Tahuiyuan: 不期不待,高機率變成廈門話版本。Google真那麼有本事 08/18 08:21
6F:→ Tahuiyuan: ,就不會拿中國資料庫當作Google翻譯中文版標準資料, 08/18 08:21
7F:→ Tahuiyuan: 正確做法是以信、雅、達且較複雜的台灣繁體及用語為準 08/18 08:21
8F:→ Tahuiyuan: ,由繁馭簡,才能兼顧繁簡。 08/18 08:21
9F:→ medama: 廈門話語料沒有台灣多吧 08/18 08:56
10F:→ medama: fb之前的閩南語翻譯版也是以台灣腔閩南語為主 08/18 08:56
11F:推 MilchFlasche: 我做過幾年的l10n in-house,我知影Google濫著zh-c 08/18 13:55
12F:→ MilchFlasche: n有可能是想欲省錢,閣嘛可能是主持者本成著毋是臺 08/18 13:55
13F:→ MilchFlasche: 灣出身个 08/18 13:55
14F:推 gmkuo: 干焦水餃餡橐個束個捎落去烏白攪包包咧,毋知的人攏講好食 08/18 14:14
15F:→ gmkuo: GIGO 08/18 14:15
16F:→ saram: 振奮人心好消息. 08/18 20:54
17F:→ saram: 語音資料和繁體字沒關係. 08/20 02:56
18F:→ MilchFlasche: 因為人家已經聊開到Google翻譯去了,當然不只關於語 08/20 08:03
19F:→ MilchFlasche: 音資料。看別人在談什麼也看完整一點好嗎 08/20 08:04
20F:→ saram: 我要的不只是翻譯字詞.要得是能輸入語言為字詞,也要按照輸 08/20 19:43
21F:→ saram: 入麥克風語音或串流音檔而翻成台文. 08/20 19:44
22F:→ saram: 就像中文的語音處理一樣. 08/20 19:45
23F:→ saram: 你是地下爬的蟲我則是天上飛的鷹. 08/20 19:46
24F:→ sodabubble: 你要「輸入麥克風語音」,你還打錯字。要「的」是, 08/20 21:47
25F:→ sodabubble: 連字都打不正確、選不正確的人…… 08/20 21:48
26F:推 saram: 字與音是兩個層次,但在最終(以線上翻譯而言)兩樣會一起呈現 08/21 01:25
27F:→ saram: 如果完全不用漢字,以標音符號為字面也無礙於語音的判讀. 08/21 01:27
28F:→ saram: 換言之語音詞庫的索引只是一個內碼而已. 08/21 01:27
29F:→ saram: 先要建立所有台語詞的音檔庫.它怎麼寫(圖形檔)都不重要. 08/21 01:30
30F:→ saram: 接電話時我們聽到熟悉的語音就明白,不必再看文字. 08/21 01:32
31F:→ saram: 呈現的漢字就算你不滿意,或根本是台羅字都無所謂. 08/21 01:34
32F:→ MilchFlasche: 繼續紮稻草人好為人師啊。 08/21 07:37
33F:推 Tahuiyuan: 講啥…只要有了台語的優勢語音,以IPA形式建檔到足以 08/21 09:58
34F:→ Tahuiyuan: 提供TTS服務,再參考人類語言的同位異音模型,就可以 08/21 09:58
35F:→ Tahuiyuan: 建立台語的初版語音輸入法,再參考使用者的語音升級到 08/21 09:58
36F:→ Tahuiyuan: 能辨認各種腔調、口音或不標準發音,語音輸入一般都是 08/21 09:58
37F:→ Tahuiyuan: 這樣建立起來的。 08/21 09:58