虽然有人转了,不过底下的留言也蛮有价值,所以一并转了
并也再附上 PPT 创世神 的脸书评论
----------------------------------------------------
Ethan Tu
6h ·
雅婷逐字稿本来就有台语即时翻译成英文了唷
https://asr.yating.tw
台语即时辨识翻译在台湾业界有两年多了吧,很多公司有介接使用我们的API。
您可能不知道科技部与教育部计画,用三年(2019-2022)的时间,以建立人工智慧台语
语音资料库全台收集至少300小时,600位语者的台语语音(6音轨录制)。这让全世界科
技公司研究台语语音资料的滥觞,在脸书的论文也有提到TAT资料集贡献。
感谢脸书认证成果困难度,也欢迎台湾团队加入使用或研究!
台湾人下载使用雅婷逐字稿就是对我们最好的支持。
--------------------
作者: RungTai (RungTai) 看板: TW-language
标题: Fw: [情报]祖克柏推出AI口译 闽南语无文字也可翻译
时间: Thu Oct 20 19:04:50 2022
※ [本文转录自 C_Chat 看板 #1ZK3SSWZ ]
作者: medama ( ) 看板: C_Chat
标题: [情报]祖克柏推出AI口译 闽南语无文字也可翻译
时间: Thu Oct 20 01:42:50 2022
之前因「元宇宙」游戏人数不如预期而亏损的meta
https://i.imgur.com/gCXvLX7.png
今天祖克柏宣布将推出AI口译系统
即使是没有统一标准书写系统的闽南语(HOKKIEN)
虽然难以利用文字翻译软体,
但透过AI技术,也能让闽南语即时跟英语进行双向口语对译
展示影片:
https://reurl.cc/KQZbGM
等AI技术更加精进後
想必之後在meta的「元宇宙」游戏中
各国玩家可突破语言藩篱,彼此聊天
创造出一个崭新的宇宙
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.217.25.125 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_Chat/M.1666201372.A.823.html
※ 编辑: medama (180.217.25.125 台湾), 10/20/2022 01:44:45
1F:推 buke: 点开图就笑了 10/20 01:45
2F:推 LEONLOL: 这个人最大的贡献是卖便宜vr头盔吧== ai口译难道会开源 10/20 01:46
3F:→ LEONLOL: 给所有人用吗 10/20 01:46
Mark Zuckerberg :
Meta AI built the first speech translator that works for languages that are
primarily spoken rather than written.
We're open sourcing this so people can
use it for more languages.
台湾八十岁阿嬷不会电脑打字
但之後讲台语就能跟元宇宙里的美国人沟通
这样不是很好吗?
4F:推 BITMajo: 看展示影片是还不错啦,比原宇宙实际多了 10/20 01:47
5F:→ BITMajo: 有种朝ST的万用翻译机方向发展的感觉 10/20 01:48
6F:→ BITMajo: 没有书写系统的语言通常不会是官方语言 10/20 01:49
7F:→ bluejark: 这也是他元宇宙的一环啊可以跨国聊天 10/20 01:49
8F:→ BITMajo: 这种不开放给大众使用,能活用的范围就很小了吧 10/20 01:49
他要推元宇宙游戏啊
研发这个成功後 就算不会讲外文
也可以跟元宇宙游戏里的外国人沟通
9F:推 killeryuan: 台语不管汉字还是台罗都很难推 乾脆用英文算了 10/20 01:50
10F:→ BITMajo: 如果原宇宙是栋房子,这只能算房子的门而已 10/20 01:50
11F:→ bluejark: 还有这是不是新加坡人开发的 10/20 01:50
12F:→ bluejark: 说到拼音 东南亚就有福建话拼音 中国也有闽南语拼音 10/20 01:52
13F:→ bluejark: 台湾要搞的台语拼音又要跟他们不同 10/20 01:53
对啊 影片有说
闽南语没有统一的书写系统
很难利用文字翻译
因此就开发AI语音翻译
14F:推 egg781: 他是不是把一切都赌在元宇宙上了? 10/20 01:53
※ 编辑: medama (180.217.25.125 台湾), 10/20/2022 01:53:53
15F:推 LEONLOL: 元宇宙游戏真的别提了 vr圈里面最丢脸的概念 10/20 01:53
16F:→ asiakid: 那个翻译系统讲英文很明显有电子音 闽南话却没有 10/20 01:53
17F:→ HHiiragi: 很棒 可是游戏看起来还是很垃圾 10/20 01:54
18F:→ LEONLOL: 开源那行吧 看哪天我阿嬷真的用到了再说 10/20 01:54
19F:→ asiakid: 我是觉得用剪接造假的可能性不小啦 10/20 01:55
祖克柏会用剪接造假?
今天又不是愚人节
※ 编辑: medama (180.217.25.125 台湾), 10/20/2022 01:55:53
20F:推 buke: 即时翻有点猛,如果之後扩展到其他语言的话,所以150亿是花 10/20 01:56
21F:→ buke: 在研发这个吗 10/20 01:56
22F:推 ianpttptt: 台湾的拼音比较完善 中国那边闽南语的自媒体 贴吧 论坛 10/20 01:56
23F:→ ianpttptt: 也会用 10/20 01:56
24F:→ ianpttptt: 所以是开发翻译年糕? 10/20 01:57
26F:→ BITMajo: 这里有比较搞笑的造假 10/20 01:57
27F:→ longlongint: 如果不能翻赖打 会被台湾人客诉吗 10/20 01:57
我不知道打火机其他地区的闽南语怎麽叫
但开发出来後
也可以分台湾闽南语、漳州闽南语、泉州闽南语等各版本啊
28F:→ BITMajo: 不知道脏话会不会被自动屏蔽XDDD 10/20 01:58
29F:→ HHiiragi: 造假没必要吧 不过实际上没那麽猛的可能性应该很高 10/20 01:59
演示影片一定是事前先排演过
实际上不可能每一句都那麽顺
但这是全球第一个闽南语跟英语对译的软体
意义非常重大
※ 编辑: medama (180.217.25.125 台湾), 10/20/2022 02:00:52
30F:推 yangtsur: 不用学英文了 10/20 02:06
31F:推 buke: 厉害 好奇英文翻福建话怎麽翻的 10/20 02:09
就跟英翻中一样啊
只是之前的翻译软体都是喂文字资料训练
这个是喂语音资料训练
※ 编辑: medama (180.217.25.125 台湾), 10/20/2022 02:11:18
32F:推 kimisawa: 一定要喂AI吃国骂三字经五字经N字经 让世界知道台语骂人 10/20 02:17
33F:→ kimisawa: 的厉害 10/20 02:18
35F:→ ncturw: 台语的语音辨识台湾也有人在做 10/20 02:22
36F:推 trnkcity: 明明就很猛好吗 10/20 02:25
37F:推 BITMajo: 他的翻译重点大概是会不局限於台语翻译 10/20 02:26
38F:→ BITMajo: 最後应该会做成任意两种语言之间都可以翻译 10/20 02:26
39F:→ egg781: 地球翻译机吗?还是很难想像 10/20 02:27
40F:→ egg781: 不过翻译的确有感觉到比起以前进化很多,水管的自动翻译 10/20 02:28
41F:推 MoritzCL: 欸欸示范的工程师是我大学同学 10/20 02:29
42F:→ egg781: 让我这个外语差的至少大概知道在讲些甚麽 10/20 02:29
43F:→ egg781: 但是有背景音乐的就不行了~无法辨识 10/20 02:30
45F:推 power41: 台湾人开发的 强者我同学 10/20 02:33
46F:推 zizc06719: open source耶,全部推广後,跟国外开会就好多了 10/20 02:36
48F:→ buke: 好有趣 10/20 02:37
49F:推 SweetRice: cyberpunk comfirm 10/20 02:43
50F:推 http: 这个好猛哦 10/20 02:45
51F:推 KaryuuIssen: 台语跟中文很好对接 所以重点还是中英之间的翻译 10/20 02:46
52F:推 aegis123321: 怎麽强者都是乡民同学 好扯 10/20 02:46
53F:→ KaryuuIssen: 要做得很好 10/20 02:46
54F:推 js850604: 意思是语音直接翻不先转文字了? 10/20 02:48
55F:推 Aliensoul: 这还不错阿 10/20 02:49
56F:嘘 pf775: 福建人听得懂台语吗 10/20 02:49
57F:推 buke: 这麽猛还开源 10/20 02:49
58F:推 asiaking5566: 祖我超 10/20 02:50
59F:推 Lb1916: 现在能翻译的是什麽腔调? 10/20 02:50
60F:→ Lb1916: 漳泉混合腔吗? 10/20 02:51
61F:推 Lb1916: hokkien是狭义闽南语也就是闽南语 10/20 03:00
62F:→ Lb1916: 泉漳片,是广义闽南语中最主流的, 10/20 03:00
63F:→ Lb1916: 新马华人称为福建话。 10/20 03:00
64F:推 gekisen: 每讲2分钟自动插播30分钟的广告而且不能跳过 10/20 03:02
65F:→ Lb1916: 其下还有分漳州话or台湾话漳腔、泉州话or台湾话泉腔、厦门 10/20 03:03
66F:→ Lb1916: 话or台湾话混合腔等 10/20 03:03
68F:→ Lb1916: 感觉是个厉害的技术,期盼之後的发展 10/20 03:04
69F:推 qweertyui891: 这翻译听起来真的很道地 10/20 03:10
70F:推 cambusyer: J系在戏盖赞 -> This is awesome 10/20 03:14
71F:推 woaifafewen: 这个就台湾闽南语 真的泉州话漳州话你只能听懂7成 10/20 03:40
72F:→ woaifafewen: 就算是厦门话顶多也听懂9成 10/20 03:40
73F:推 HHH555JJJ: 这个真的屌 10/20 04:04
74F:推 dannyko: 抱歉了台罗 但我真的需要这个酷东西 10/20 04:36
75F:推 AmigoSin: 推李宏毅! 10/20 04:49
76F:推 wei115: 闽南语写文言文就好了R(误 10/20 04:53
77F:推 ryohgi: 台罗仔优越感没了哭啊 10/20 06:25
78F:→ UshiKyuu: 标题没文字真的笑死 乱下 10/20 06:57
79F:→ UshiKyuu: 说真的 某些留言因为台语不需要文字透露出欣喜的感觉就 10/20 07:00
80F:→ UshiKyuu: 是看不起台语啊 目前白话字跟它的变体(台罗+泉腔韵母 10/20 07:00
81F:→ UshiKyuu: )早就能完全标记各地的泉漳片 连马来西亚讲福建话运动 10/20 07:00
82F:→ UshiKyuu: 都有用 10/20 07:00
83F:→ UshiKyuu: 而且重点是 口译跟用文字翻译本来就不一样的东西 就算 10/20 07:02
84F:→ UshiKyuu: 今天华语没有文字 人家一样也能做华英口译系统啊 == 10/20 07:02
85F:推 UshiKyuu: 今天要用文字表达准确的台语还是得靠台文 华语人真的只 10/20 07:05
86F:→ UshiKyuu: 觉得台语只需要停留在语音的层面耶 结果造成的是需要用 10/20 07:05
87F:→ UshiKyuu: 书面载体的时候都是用华语在思考 变相牺牲自己的台语能 10/20 07:05
88F:→ UshiKyuu: 力 10/20 07:05
89F:→ opengaydoor: 如果真的能完成 超猛 10/20 07:24
90F:→ TaiwanFight: 问一下 台语是什麽?? 10/20 07:27
91F:→ TaiwanFight: 是指99%台湾人都会的那个语言?是的话那我知道指什麽 10/20 07:29
92F:推 WindHarbor: 看到台语就崩溃的人真的满可怜的 10/20 07:41
93F:推 holiybo: 元宇宙不解决语言问题就是个笑话 现在终於肯面对现实了 10/20 07:41
94F:推 LordSo: 至少这个很明确知道目标跟要解决哪些问题 比空中楼阁好 10/20 07:46
95F:→ moonshade: 我还蛮惊讶闽南语英文叫"福建" 10/20 08:20
96F:→ moonshade: 所以闽北语跟福州话都不能叫福建语 10/20 08:20
97F:→ moonshade: 全中国的方言全部都有同文异声,这在古代的韩国 10/20 08:21
98F:→ moonshade: 和日本书写汉字都有一样的用法 10/20 08:21
99F:→ moonshade: 在粤语叫书面语 10/20 08:24
100F:推 emptie: 近年来少数觉得meta有前景的产品 10/20 08:26
101F:→ longkiss0618: 怎麽会有台语警察 中国人是不是= =? 10/20 08:40
102F:推 lungyu: 我记得东南亚各地华侨都会称闽南语为福建话 所以英译用 10/20 08:44
103F:→ lungyu: 福建代称? 10/20 08:45
104F:推 scotttomlee: 五告赞!不过让各地不同闽语能通英文的话,150e够吗 10/20 08:48
105F:→ scotttomlee: ?(现在ai不知道进展到什麽地步了 10/20 08:48
106F:推 Tsukasa0320: 除了语言学家哪管你这麽多 10/20 08:59
107F:→ Tsukasa0320: 反过来讲 英苏威美加纽澳 我们不也全都叫「英文」 10/20 08:59
108F:→ Tsukasa0320: 没多少人会在那边分高苏低苏之类的 10/20 09:00
109F:推 Vulpix: 泉漳片自称「福建」,那是祖宗自大的问题,来不及补救了。 10/20 09:01
110F:推 AAA891216: 一个语言不能有两个名字吗 到底在坚持什麽 10/20 09:07
111F:→ hitlerx: 这样若有其他语言版本 Vtuber可以进元宇宙开杂谈 10/20 09:23
112F:→ hitlerx: 然後那些太黄的杂谈V马上被祖w 10/20 09:24
113F:推 cn5566: 有点料 但这跟元宇宙没有关系就是了 10/20 09:55
114F:推 king9122: 推 这比什麽元宇宙棒多了 10/20 09:55
115F:推 pig0038: FB 这种大公司要赚的是平台跟生态系,产品都弄免钱的 10/20 09:59
116F:推 greg90326: 什麽跟元宇宙没关系... 这就元宇宙的一环阿 10/20 10:00
117F:推 jason1515: 这麽猛? 腔调跟地方用语不知道能不能都一样准 10/20 10:09
118F:嘘 leviathan36: 几千年罗汉文盲语,陈元光出面负责。 10/20 10:09
119F:推 nettlefish: 这种AI训练过+open source 基本上就能与全人类沟通了 10/20 10:14
120F:推 bh2142: 原宇宙做那麽烂,我继续用vrchat不就好了 10/20 10:18
121F:推 danny10173: 这个方向就不错,比白痴meta verse 好多了 10/20 10:58
122F:推 arrenwu: 这跟元宇宙关系很大啊 XD 10/20 11:14
123F:推 penta: 这个project就是跟元宇宙相关的啊XD 10/20 11:15
124F:→ k880614: 太酷了吧 10/20 11:42
125F:推 JER2725: 闽南语 台湾南部和中部沿海口音就不一样了 台湾和厦门很 10/20 12:23
126F:→ JER2725: 多用语不同,尤其是日语当外来语的部分 10/20 12:23
127F:→ Nuey: 其实真的满厉害的== 10/20 12:23
128F:推 diabolica: 祖克柏 我的超人 10/20 12:57
129F:推 tekamolo: 乐观其成!但标题有误,台语一直都可以书写的 10/20 13:00
130F:→ medama: 可以书写没错 标题的无文字不是指不能书写 是指 10/20 13:02
131F:→ medama: 是指没有可供AI学习的文字记录 10/20 13:02
132F:→ tekamolo: 在收音机出现前,说台语的人都能用汉字沟通 10/20 13:02
133F:推 WinRARdotrar: 不得不说这的确满屌的 10/20 13:03
134F:推 tekamolo: 纯台文(全拼音或汉字为主)的出版品现在很多呀! 10/20 13:05
135F:→ tekamolo: 希望我们可以拿下台语的文字书写标准 (握拳) 10/20 13:05
136F:→ nthulibrary: 台湾内部就搞不定了还想统一闽南语 10/20 13:11
137F:→ tekamolo: 楼上想必热爱JQX 你的闽南语不是我的台语 统一都给你吃 10/20 13:13
138F:→ medama: 那些古代人都死了啊 用的文字也不符合现代需求 10/20 13:16
139F:→ medama: 祖克柏是要做元宇宙 翻译只是达成目标的手段 10/20 13:17
140F:→ medama: 台语书籍非常少(跟其他热门语言相比)直接用语音训练更 10/20 13:18
141F:→ medama: 快 10/20 13:18
142F:→ nthulibrary: 那你说的希望「我们」可以拿下台语的书写标准是什麽 10/20 13:59
143F:→ nthulibrary: 意思 你是以某种书写系统的推广人身分说的还是以台 10/20 13:59
144F:→ nthulibrary: 湾人身分说的 10/20 13:59
145F:→ nthulibrary: 如果是後者 那你说的话就很矛盾了 10/20 13:59
146F:→ nthulibrary: 既然你只想管台语不想管其他和台语相近的闽南语 何 10/20 13:59
147F:→ nthulibrary: 必强调我们 10/20 13:59
148F:→ nthulibrary: 如果范围限定在台湾 不管谁来订标准都是「我们」拿 10/20 14:00
149F:→ nthulibrary: 下啊 10/20 14:00
150F:→ nthulibrary: 如果范围扩大到大陆、东南亚的闽南语 那就叫闽南语 10/20 14:01
151F:→ nthulibrary: 书写标准而不是台语书写标准 10/20 14:01
152F:推 harryzx0: 这真的很屌 台语的口译不容易 10/20 14:21
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: RungTai (125.231.105.92 台湾), 10/20/2022 19:04:50
※ 编辑: RungTai (125.231.105.92 台湾), 10/20/2022 19:07:48
153F:推 tbrs: 福建的台语发音其实就是hokkien,而福建的官话发音是fuchian 10/23 20:44
154F:→ saram: google有韩语翻中文.但翻起来怪怪的.後来我发现系统把韩语 10/24 02:34
155F:→ saram: 翻成日语再翻成中文. 10/24 02:34
156F:→ saram: "偷吃步" 10/24 02:34
157F:→ saram: 这一招用在少数语言上很管用.如果中翻英资料库很成熟,那 10/24 02:35
158F:→ saram: 只要把台语语音(含共用汉字)先成中文就好办了. 10/24 02:36
159F:→ saram: 脑子要清楚一点.业者只是在夸大,博得大宣. 10/24 02:37
160F:→ saram: 接下来,同样招数,把汉语方言先翻成中文..... 10/24 02:39
161F:→ saram: 因为汉语文法都一样. 10/24 02:39
162F:→ saram: 台湾人真好哄 10/24 02:40
163F:推 CCY0927: 哈哈哈哈哈,「汉语文法都一样」?键盘句法学家,是你? 10/24 09:20
164F:→ MilchFlasche: 无读册saram闪较边啦 10/24 16:22
165F:推 tbrs: 台语及福建话都有宾语提前语法 10/25 19:40
166F:→ tbrs: 基本上我习得的台语语法是台语北京语的混合体 因为北京语太 10/25 19:42
167F:→ tbrs: 流利而没有老派台语的feel 10/25 19:42
168F:推 MilchFlasche: 我嘛是无啥老派感QQ 10/26 17:41
169F:→ saram: 生意人招数.丢一个话题如丢一块臭肉,引来苍蝇,是要捕苍蝇 10/26 22:45
170F:→ saram: 因为业者对国语白话翻英文已经有把握了.但他们不懂台翻中 10/26 22:48
171F:→ saram: ,而台湾有太多人台国语皆通的,这些人有了热情动力,是免洗 10/26 22:50
172F:→ saram: 劳工,把台语语音翻成国语文字档後,业者就捡便宜了. 10/26 22:50
173F:→ saram: 以国语语音输入浏览器检索已经成熟.我见过小孩子没用文字 10/26 22:54
174F:→ saram: 输入却对手机喊歌星名字,很快找到要听的影音档. 10/26 22:55
175F:→ saram: 他甚至也不会注音符号. 10/26 22:56
176F:→ saram: 国语音可以,其他语音当然也行. 10/26 22:56
177F:→ saram: 只不过多一个资料库. 10/26 22:57
178F:→ saram: 而机器计算速度也越来越快.非常有利於语音输入检索. 10/26 22:59
179F:→ saram: 小时候看美国电影有"语音直翻语音"机器,我想那很唬烂.但现 10/26 23:02
180F:→ saram: 在已经是接近事实了. 10/26 23:02
181F:推 CCY0927: 没想到 saram 上一秒还是汉语句法学家,现在又变成语音辨 10/27 00:06
182F:→ CCY0927: 识暨合成专家了 10/27 00:06
183F:→ saram: 不敢当.不过没是我会玩玩线上翻译.对於语音的发展有着兴趣 10/27 06:02
184F:→ saram: 估狗翻译初来时,我有个感概:照业者的技术也可以把各汉语 10/27 06:04
185F:→ saram: 独立起来成为一种线上翻译(或交互译)的语言.因为我发现 10/27 06:06
186F:→ saram: 西班牙有三种语言.而中文只有简体繁体分别两种,译文还一样 10/27 06:08
187F:→ saram: 能不能多个"台语(文)"?譬如打入台语字(假设是汉字或拼音字 10/27 06:10
188F:→ saram: )会机器会播出正确语音与其相应翻译文字(中文或英文..) 10/27 06:11
189F:→ saram: 我想已经有人着手在建立翻译资料库了.让年轻人来吧. 10/27 06:12
190F:→ saram: 语音输入实在比文字输入更容易. 10/27 06:15
191F:→ saram: 声音可以不分年龄的输入(只要口齿清楚). 10/27 06:16
192F:推 CCY0927: 敢问你近年来看过哪几篇机器翻译、语音辨识、语音合成相 10/27 08:31
193F:→ CCY0927: 关论文? 10/27 08:31
194F:→ MilchFlasche: 随便用用线上翻译引擎,把些大家现在都晓得的事情 10/27 10:01
195F:→ MilchFlasche: 讲成自己的新知,自我感觉良好的一天又过去了 10/27 10:05
196F:→ saram: 你们认为要制造电脑技术的人才能上网谈完电脑的感想? 10/29 22:19
197F:→ saram: 还只是看讨厌的人就刁几句,即便他说的也没错? 10/29 22:20
198F:→ saram: 不如把你对语音软体发展的看法也说一些帮助大家. 10/29 22:21
199F:→ saram: 为什麽要看过相关的技术论文才能讨论应用与寄望? 10/29 22:23
200F:→ saram: 消费者只是消费,消费者要下去写程式吗? 10/29 22:24
201F:→ MilchFlasche: 你错了,我不是刁讨厌的人,是刁自以为很厉害的人 10/29 22:39
202F:→ MilchFlasche: 是刁马齿徒长却没料的人,是刁常常被纠正又不改的人 10/29 22:40
203F:→ MilchFlasche: 我看不惯有人把大家都晓得的事情说成自己很有资历 10/29 22:41
204F:→ MilchFlasche: 我看不惯公共言论空间有不准确的资讯或是看似讲得头 10/29 22:44
205F:→ MilchFlasche: 头是道试图建立言论地位但实际上反而造成公害的人 10/29 22:45
206F:→ MilchFlasche: 因为这些都有误导後人之虞、须耗费众人成本辟谣澄清 10/29 22:46
207F:→ MilchFlasche: 如此而已!懂几分就说几分,十几年了一样是个肉跤 10/29 22:48
208F:→ MilchFlasche: 的人拜托不要表现得好像自己打过什麽美好的仗 10/29 22:48
209F:→ saram: 到底要不要说说语音输入的话题? 10/30 00:57
210F:→ MilchFlasche: 你说的根本没有什麽问题,就是大家都知道的, 10/30 09:12
211F:→ MilchFlasche: 各大厂商尚未开发这个语种的翻译模组 10/30 09:12
212F:→ MilchFlasche: 现在就只有TTS、听打、Meta公司的口译这几项有实做 10/30 09:13
213F:→ MilchFlasche: 缺这麽多年还需要你讲喔?这根本不是可讨论的「问题 10/30 09:13
214F:→ MilchFlasche: 「语音比打字方便」你是从1990年代就一直想到现在了 10/30 09:14
215F:→ MilchFlasche: 对吧?这是什麽值得谈的发现或创见吗?实在。 10/30 09:14
216F:→ MilchFlasche: 人家嘲讽你一句不懂装懂你还真以为自己是什麽专家喔 10/30 09:19
217F:→ MilchFlasche: 跟懂太少人讲话实在很累,就像跟小朋友一样需要耐心 10/30 09:19