作者mkz6 ( )
看板EZsoft
標題Re: [請問] 長時間把語音轉成字幕的程式
時間Sun Aug 12 13:43:58 2018
※ 引述《mrchuchu (啾啾)》之銘言:
: 大家好
: 最近在看美國的教學影片但是沒有字幕檔
: 想要理解裡面在說什麼
: 有沒有什麼程式可以把聲音即時轉成英文字幕的,或者甚至可以翻成中文
: 付費程式也可以
: 我知道google翻譯有類似的功能
: 但是他無法支持長時間的翻譯
: 於是請教各位網友
你的問題拆開來看就是三個需求:
1.語音轉文字(語音辨識)
2.字幕(時間軸)
3.翻譯
然後影片又分成兩種:
1.本機影片:先分析音訊做成字幕檔
2.線上串流:即時語音辨識
╱ 語音轉文字 ╲
影片檔:提取音訊 做成字幕檔 > 翻譯
╲ 分析時間軸 ╱
板上搜尋"字幕"可以找到
[請問] 自動產生字幕的軟體??
#1P__jLvr https://webptt.com/m.aspx?n=bbs/EZsoft/M.1509948245.A.E75.html
這篇底下推文提到的 Autosub 自動字幕對軸,
整合了提取音訊>上傳Google Speech辨識>輸出字幕檔的流程,
其實跟Youtube做法一樣,但是只需上傳音訊非常省時,
另外再自行翻譯字幕檔就解決了。
Autosub教學
https://www.bilibili.com/video/av26923839/
其他類似的付費軟體:
录音啦
https://www.youtube.com/watch?v=z-XAo6jVA8A
字幕通
https://www.youtube.com/watch?v=V0Xb5URWtR8
線上串流影片的做法不同,
因為不能提取音訊,
也就無法分析時間軸做成字幕,
但可利用各種線上語音辨識服務,
來達成即時語音轉文字。
這些服務都需要麥克風輸入,
但可透過軟體設定將電腦音效當作輸入源:
Speechlogger 邊看國外影片邊翻譯
https://www.youtube.com/watch?v=91acHQfYj48
Win10 似乎可以不用裝軟體直接從系統設定
https://www.youtube.com/watch?v=ePJoZ76Z61c
如果很在意字幕效果的話,
還可以用OBS擷取串流影片+擷取辨識出的文字來即時預覽
https://www.youtube.com/watch?v=_69B-kztMCY
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.83.50
※ 文章網址: https://webptt.com/m.aspx?n=bbs/EZsoft/M.1534052643.A.0B9.html
1F:→ sa12e3: 這個技術領域非常複雜,要把人的抽象語言轉換成電腦看的0 08/12 15:10
2F:→ sa12e3: 和1,是有一定難度的,單純使用軟體是不太能夠辨識出文字 08/12 15:10
3F:→ sa12e3: 語言,所以要透過 Google機器學習演算法等方式達到目標, 08/12 15:10
4F:→ sa12e3: 很難不透過網路等這些平臺進行辨識。 如果真的有這類單機 08/12 15:11
5F:→ sa12e3: 軟體(這裡的單機是指不需要透過網路),直接拿影片檔案進 08/12 15:11
6F:→ sa12e3: 行轉換,那麼這個軟體也會因為機器學習演算法等的關係非常 08/12 15:11
7F:→ sa12e3: 肥大(因為一定會需要機器學習演算法此技術才可),就不會 08/12 15:11
8F:→ sa12e3: 是小軟體了。win10 的部分沒很明確指出是否需要網路,這 08/12 15:11
9F:→ sa12e3: 部分可自行測試,若需要的話可能是透過bing辨識的。若是真 08/12 15:11
10F:→ sa12e3: 的要單機且不透過網路,有個方式是土法煉鋼的概念,那就是 08/12 15:11
11F:→ sa12e3: 把聲音真的放出來再利用語音輸入法(win10內建或其他需要 08/12 15:12
12F:→ sa12e3: 網路的)、ViaVoice等進行辨識,辨識效果也是很有限,可 08/12 15:12
13F:→ sa12e3: 能比youtube的還差。若是語音輸入法是否可為同一電腦設備 08/12 15:12
14F:→ sa12e3: 下進行放音及語音辨識就要自行測試了,理論上應該是可以, 08/12 15:13
15F:→ sa12e3: 但是影片播放部分可能需要讓它在背景下執行。類似這篇提 08/12 15:13
17F:→ sa12e3: c 08/12 15:13
呃… 抱歉我看不懂你回這一大串是想表達什麼… XD
※ 編輯: mkz6 (122.116.83.50), 08/12/2018 16:47:21
18F:→ sa12e3: 針對最重要的語音辨識這項目做說明,看不太瞭解那就請直 08/12 18:00
19F:→ sa12e3: 接忽視了,謝謝。 08/12 18:00