作者oe725 ( )
看板DataScience
标题[问题] 有关语音辨识的问题
时间Tue Dec 4 14:54:04 2018
各位先进们好
最近在做语音辨识的research, 并对同事做了一些技术分享
当下被问到了一些问题, 我发现这部分我还真的不知道
我的问题如下, 以现今的语音辨识APP, 如apple的siri
Q1.
当我们输入唤醒词 "Hey siri" 或者其他内建的语音命令时
它的语音辨识机制应该是在手机(local)端做掉, 也可以说是离线处理的部分
而这边所用的语音辨识机制, 也是先将时域讯号透过傅立叶转成频域讯号, 然後经过特徵
提取, 再做声学辨识?
还是local端是采用其他较快速的辨识方式?
Q2.
比较复杂的句子的语音辨识(声学/语意分析), 应该都是上传到云端处理
而此时上传的data是原始的语音讯号? 还是会先做一些前处理, 比如降噪/转频域讯号...
等
是否要考虑那一种上传格式的data资料量较小
感谢
-
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.223.48
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1543906448.A.78B.html
※ 编辑: oe725 (114.136.223.48), 12/04/2018 14:56:03
1F:推 whsunset: y Siri 的做法,基本上是跑在手机上的小 DNN 没错 12/05 22:31
3F:→ oe725: 感谢回覆, 至於Q2的部分在原文中并没有提及Orz 12/06 17:31
4F:推 NatsukiH: Q2不确定siri怎麽做,google是传原始讯号~ 12/16 12:39
5F:→ oe725: 感谢回覆, 我有在apple的developer forum上提问, 不过对方 12/17 14:51
6F:→ oe725: 的有点笼统, 後续再问也没得到进一步讯息 Orz 12/17 14:52
7F:→ oe725: That 'pre-work', as you call, is processing done on the 12/17 14:53
8F:→ oe725: device, for use on the device. Additionally, 12/17 14:54
9F:→ oe725: encapsulated voice data is transmitted off the device. 12/17 14:54