作者jaids (做工的人)
看板DataScience
標題[問題] 背景電視講話聲去除或人聲提取
時間Fri Jul 7 19:21:08 2023
請問如果場景中有背景電視人聲
或背景講話聲
要怎麼在語音辨識前去除呢?
或是有辦法在語音辨識以前單獨抽出想要辨識的人聲音嗎?
先謝謝各位任何建議了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 46.15.133.255 (挪威)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1688728872.A.66A.html
1F:推 yiche: 想知道FFT效果好嗎 07/08 16:04
2F:→ DrizztMon: 用別的NN model去解決 07/09 09:20
4F:→ chang1248w: meta那邊去年好像還有推出語音分離,可以把多人分開 07/15 18:32
5F:推 j840715: tasnet 08/18 16:14
6F:推 yoyololicon: 先套個speech enhancement模型 08/30 07:33
7F:→ yoyololicon: 還是有背景人聲就再做speaker separation 08/30 07:34
8F:→ yoyololicon: 得說一下 這些處理多少會影響語音辨識的準度 08/30 07:34