作者CCY0927 (茹絮梦)
看板TW-language
标题[新闻] Meta打造台语英语AI翻译 研发难度等5大QA一次看
时间Thu Oct 20 22:36:02 2022
https://www.cna.com.tw/news/ait/202210200209.aspx
Meta打造台语英语AI翻译 研发难度等5大QA一次看[影]
2022/10/20 15:17(10/20 19:31 更新)
https://i.imgur.com/VA83ICN.jpg
图为工程师陈鹏仁(左)示范Meta最新人工智慧支援的台语英语即时互译系统。(图取自
twitter.com/MetaAI)
(中央社台北20日综合外电报导)脸书母公司Meta昨天宣布推出首创由人工智慧(AI)技
术支援的闽南语(台语)、英语即时互译系统。究竟闽南语翻译难在哪、研发过程面临哪
些挑战,中央社汇整5大问答一次看懂。
Meta今天在推特(Twitter)发文指出,闽南话翻译有SpeechMatrix系统支援,这是一个
有136个语言组合、含括41.8万小时语音数据的语料库。
Meta指出,至今为止,AI翻译主要着重於各种书写语言上,这次新推出的「通用语言翻译
工具」(Universal Speech Translator, UST)是全球第一个由AI技术支援的「口语对口
语」翻译系统,主要用於口语相传的语言。
闽南语是全球约3000种口语相传的语言之一,由於没有标准书写系统,也少有专门的翻译
人员,这使他们为AI模型建立训练数据时难度更高,也很难仰赖闽南语文本。
Meta指出,他们向所有AI社群开放此基准资料集的原始码,并将闽南语翻译系统纳入UST
,希望其他研究人员能以此为基础继续研发,期盼有朝一日,未来所有语言无论是否可以
书写,都不再是阻碍人们相互理解的障碍。
● 全世界有多少人讲闽南语?
闽南语是华裔群众广泛使用的语言,Meta统整2000年至2018年数据显示,亚洲地区以中国
大陆约2800万人最多,其次依序为台湾约1350万人、马来西亚约200万人、新加坡约150万
人、菲律宾约100万人。
● 打造闽南语翻译系统为何这麽难?
以往的AI翻译工具,必须利用大量的书写文字来训练AI模型,闽南语虽然是华裔族群广泛
使用的语言,但大多以口语沟通,缺乏标准的书写文字系统,无法以传统的方式打造翻译
工具,因此研发团队尝试在「通用语音翻译工具」(UST)项目中开发新的AI翻译技术。
● 除了英文,闽南语还能翻译成哪些语言?
根据Meta网站,目前这套翻译系统只能以闽南语和英语进行即时语音翻译,且每次只能翻
译一个完整的句子。
民众可至Hugging Face网站使用(网站连结点这里)
https://huggingface.co/spaces/facebook/Hokkien_Translation
● 闽南语翻译系统在开发过程中,面临那些挑战?
Meta在开发这套闽南语翻译系统时,共面临3大挑战,分别是资料蒐集、模型设计以及准
确度评估。
为了解决闽南语资源不足问题,研发团队想到了2大方法,首先是利用资源充足且相似度
高的中文作为「中间语言」,补足闽南语的词汇量。研发团队先将闽南语的语音,翻译成
中文文字,接着再翻译成英文,成功後再新增到训练资料库。
二是利用「语音探勘」产生训练资料,研发团队使用预先训练好的语音编码器,系统会自
动分析闽南语语音,并和相似语意的英文语音、文字进行配对。
在模型设计方面,有别传统翻译系统大多依赖「语音转文字」系统,研发团队则采用「语
音转单元翻译」(S2UT)系统,将语音转换成一系列的声学单元并生成波形後,再进行解
码与翻译。
至於准确度评估方面,研发团队使用Meta开发的台罗(Tâi-lô)系统,将闽南语语音转
译成标准化的拼音符号,以音节为单位来评估翻译准确度。
同时根据名为Taiwanese Across Taiwan(TAT)的闽南语语音语料库,建立第一个闽南语
与英语双向的语音翻译基准资料集,未来将开放原始码鼓励其他研究人员合作进行闽南语
语音翻译。
值得注意的是,TAT资料库是由台湾产官学界共同开发,收集台湾各地不同腔调的台语语
音,总共录制长达100小时语料,同时使用6支麦克风模拟各种情况,并使用约3000小时台
语乡土剧片段作为研究语料,帮助训练系统模型,提高准确率。
● 这项AI翻译技术除了翻闽南语,还能做什麽?
这项AI翻译技术,未来可望扩展於其他口说或书写语言,Meta也将公开具资料探勘技术支
援的「大型语音翻译语料库」(LASER),让其他研究人员也能建立自己的语音翻译系统
。(译者:张茗喧/核稿:陈昱婷)1111020
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.40.0.40 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1666276564.A.5D7.html
1F:推 tbrs: 脸书的台罗系统跟我国的台罗系统有何不同 10/23 20:46
2F:推 lantw44: 那个是指系统有用到台罗,不是开发一套新的拼音系统吧。 10/23 21:44