作者CCY0927 (茹絮梦)
看板TW-language
标题[新闻] Google对话式AI有望支援台语 盼携手本土学者
时间Wed Aug 16 22:57:23 2023
https://www.cna.com.tw/news/ait/202308160338.aspx
Google对话式AI有望支援台语 盼携手本土学者
2023/8/16 20:17(8/16 22:16 更新)
https://i.imgur.com/2R9XKiu.png
Google杰出科学家纪怀新目前在Google总部DeepMind团队,带领大型语言模型研究与对话
式人工智慧(AI)Bard开发。他16日出席媒体聚会,分享Google针对大型语言模型技术研
究与应用的发展概况。中央社记者吴家豪摄 112年8月16日
(中央社记者吴家豪台北16日电)Google对话式人工智慧(AI)服务Bard今年7月扩大支
援包含繁体中文在内的40种语言,Google今天表示,Bard未来有机会支援台语,但台语属
於低资源语言,较难蒐集相关数据,Google有意愿与台湾本土学者合作克服困难。
Google今天由杰出科学家(Distinguished Scientist)纪怀新出席媒体聚会,分享
Google针对大型语言模型技术研究与应用的发展概况。纪怀新来自台湾、目前在总部
Google DeepMind团队,带领大型语言模型(LLM)研究与Bard开发工作。
他说,大型语言模型的发展变革仍在早期阶段,它会大幅改变人们与AI互动的方式,为生
活带来显着改变。Google发表Bard,并非因为已经是完整的产品,Bard更像是实验性质的
产品,Google希望了解用户对它的期望。
中央社记者提问,未来Bard是否有机会支援台语、客语等台湾本土语言;纪怀新回应,在
自然语言学术研究上,数据蒐集是相当困难的问题,尤其是低资源语言(low-resource
languages),连Google这麽大的公司,想蒐集相关资料都很困难。
纪怀新说,在全球不同地区,可能已经有当地学者在蒐集当地语言相关资料,如果Google
自行蒐集数据,品质不见得比当地学者更好。台湾学术机构例如中央研究院,对本土语言
的研究相当重视,Google有意愿与台湾学者合作,克服相关困难。
纪怀新提到,台湾人才以往较注重硬体制造,1980、1990年代很多人才到国外学习新技术
带回台湾,奠定台湾制造业在国际的领先地位。
他说,Google目前策略是兼顾硬体和软体,台湾在AI和机器学习的发展上具有很大潜力,
现在是好时机走向新局面,包括台语和客语研究都是Google与台湾学者可以合作的机会。
谈到这次回台湾想做的事,纪怀新笑说,自己大约一年没回来,希望多吃一点台湾美食、
与Google台湾员工交流。他看好台湾在AI方面有发展潜力,希望能花一些时间为台湾做出
贡献。
从2013年起,纪怀新带领的团队为YouTube、Google新闻、广告、Google Play商店等产品
,带来超过720项改进。他着名的研究领域为网路和线上社群系统对使用者行为的影响,
并拥有39项专利和200多篇研究论文发表。(编辑:张良知)1120816
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.255.153.3 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1692197848.A.4A9.html
1F:→ medama: fb之前也有支援 08/17 00:11
2F:推 MilchFlasche: FB那个後来有实际开放使用吗XD(当然是乐观其成) 08/17 08:57
3F:推 MilchFlasche: 回应原文,投入资金和人力的话低资源语言也可很快变 08/17 09:01
4F:→ MilchFlasche: 高资源语言啊。期待共享和合作了。 08/17 09:01
5F:推 Tahuiyuan: 不期不待,高机率变成厦门话版本。Google真那麽有本事 08/18 08:21
6F:→ Tahuiyuan: ,就不会拿中国资料库当作Google翻译中文版标准资料, 08/18 08:21
7F:→ Tahuiyuan: 正确做法是以信、雅、达且较复杂的台湾繁体及用语为准 08/18 08:21
8F:→ Tahuiyuan: ,由繁驭简,才能兼顾繁简。 08/18 08:21
9F:→ medama: 厦门话语料没有台湾多吧 08/18 08:56
10F:→ medama: fb之前的闽南语翻译版也是以台湾腔闽南语为主 08/18 08:56
11F:推 MilchFlasche: 我做过几年的l10n in-house,我知影Google滥着zh-c 08/18 13:55
12F:→ MilchFlasche: n有可能是想欲省钱,阁嘛可能是主持者本成着毋是台 08/18 13:55
13F:→ MilchFlasche: 湾出身个 08/18 13:55
14F:推 gmkuo: 干焦水饺馅橐个束个捎落去乌白搅包包咧,毋知的人拢讲好食 08/18 14:14
15F:→ gmkuo: GIGO 08/18 14:15
16F:→ saram: 振奋人心好消息. 08/18 20:54
17F:→ saram: 语音资料和繁体字没关系. 08/20 02:56
18F:→ MilchFlasche: 因为人家已经聊开到Google翻译去了,当然不只关於语 08/20 08:03
19F:→ MilchFlasche: 音资料。看别人在谈什麽也看完整一点好吗 08/20 08:04
20F:→ saram: 我要的不只是翻译字词.要得是能输入语言为字词,也要按照输 08/20 19:43
21F:→ saram: 入麦克风语音或串流音档而翻成台文. 08/20 19:44
22F:→ saram: 就像中文的语音处理一样. 08/20 19:45
23F:→ saram: 你是地下爬的虫我则是天上飞的鹰. 08/20 19:46
24F:→ sodabubble: 你要「输入麦克风语音」,你还打错字。要「的」是, 08/20 21:47
25F:→ sodabubble: 连字都打不正确、选不正确的人…… 08/20 21:48
26F:推 saram: 字与音是两个层次,但在最终(以线上翻译而言)两样会一起呈现 08/21 01:25
27F:→ saram: 如果完全不用汉字,以标音符号为字面也无碍於语音的判读. 08/21 01:27
28F:→ saram: 换言之语音词库的索引只是一个内码而已. 08/21 01:27
29F:→ saram: 先要建立所有台语词的音档库.它怎麽写(图形档)都不重要. 08/21 01:30
30F:→ saram: 接电话时我们听到熟悉的语音就明白,不必再看文字. 08/21 01:32
31F:→ saram: 呈现的汉字就算你不满意,或根本是台罗字都无所谓. 08/21 01:34
32F:→ MilchFlasche: 继续紮稻草人好为人师啊。 08/21 07:37
33F:推 Tahuiyuan: 讲啥…只要有了台语的优势语音,以IPA形式建档到足以 08/21 09:58
34F:→ Tahuiyuan: 提供TTS服务,再参考人类语言的同位异音模型,就可以 08/21 09:58
35F:→ Tahuiyuan: 建立台语的初版语音输入法,再参考使用者的语音升级到 08/21 09:58
36F:→ Tahuiyuan: 能辨认各种腔调、口音或不标准发音,语音输入一般都是 08/21 09:58
37F:→ Tahuiyuan: 这样建立起来的。 08/21 09:58