作者ahdrew51 (水喔)
看板Electronics
标题[问题] 关於语音讯号分析的倒频谱
时间Mon Nov 7 21:37:05 2016
最近开时研究关於语音讯号方面的东西
其中有读到分析频谱很方便的方法叫做倒频谱(CEPSTRUM)
在这之中为了要找出一个频谱的包络线要做一些步骤
其中一个就是要取对数
例如说本来一个讯号X=H*K H为我们要取出来的地方 K为频谱细节
如果取对数後就会变成 logX= logH+logK
之後再做完逆转换(这里也有一个问题等等把问题整理好)
就能得到已quefregency当作时间参考的座标 来查看这个频谱的组成方便把H取出来
在这边有第一个问题
1.取对数是真的单纯因为要把我们要的H取出来而做的数学技巧,还是有其他的涵意呢?
2.本来音讯频谱图的纵轴应该是幅值,这其中的内容就只有幅值吗?还是也有包含相位?
3.为什麽不是做IFFT或是IDFT而是做DCT呢? 因为我看很多篇有提到的都是说要做
逆傅立叶转换,但其实实作都是用DCT...
PS 第3个问题 我有看到网路上别人给的解答是因为做完对数後只有LOG ENERGY的讯息
如果做IFFT的话会有复数,但若是做DCT就能够得出比较容易看的实数,这也是让我想
到第2个问题,本来的纵轴代表的应该是DB值,那代表他本来就是拿来看振幅的还是
因为取完对数後把一些东西去掉只剩下energy这个内容呢?
谢谢各位耐心看完 这部份我实在是在网路上找不太到解答 同学也没有人是做语音处理的
麻烦大家了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.129.151.249
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Electronics/M.1478525827.A.DBC.html
1F:→ rxiang: 你应该是做语音辨识要求取MFCC(特徵值)吧 先念熟它的过程 11/12 09:19
2F:→ rxiang: 可以去找张智星的网站补相关知识 11/12 09:20
3F:→ rxiang: 不然问看看做语音的教授 全台有名的就那几只 11/12 09:21