作者mkz6 ( )
看板EZsoft
标题Re: [请问] 长时间把语音转成字幕的程式
时间Sun Aug 12 13:43:58 2018
※ 引述《mrchuchu (啾啾)》之铭言:
: 大家好
: 最近在看美国的教学影片但是没有字幕档
: 想要理解里面在说什麽
: 有没有什麽程式可以把声音即时转成英文字幕的,或者甚至可以翻成中文
: 付费程式也可以
: 我知道google翻译有类似的功能
: 但是他无法支持长时间的翻译
: 於是请教各位网友
你的问题拆开来看就是三个需求:
1.语音转文字(语音辨识)
2.字幕(时间轴)
3.翻译
然後影片又分成两种:
1.本机影片:先分析音讯做成字幕档
2.线上串流:即时语音辨识
╱ 语音转文字 ╲
影片档:提取音讯 做成字幕档 > 翻译
╲ 分析时间轴 ╱
板上搜寻"字幕"可以找到
[请问] 自动产生字幕的软体??
#1P__jLvr https://webptt.com/cn.aspx?n=bbs/EZsoft/M.1509948245.A.E75.html
这篇底下推文提到的 Autosub 自动字幕对轴,
整合了提取音讯>上传Google Speech辨识>输出字幕档的流程,
其实跟Youtube做法一样,但是只需上传音讯非常省时,
另外再自行翻译字幕档就解决了。
Autosub教学
https://www.bilibili.com/video/av26923839/
其他类似的付费软体:
录音啦
https://www.youtube.com/watch?v=z-XAo6jVA8A
字幕通
https://www.youtube.com/watch?v=V0Xb5URWtR8
线上串流影片的做法不同,
因为不能提取音讯,
也就无法分析时间轴做成字幕,
但可利用各种线上语音辨识服务,
来达成即时语音转文字。
这些服务都需要麦克风输入,
但可透过软体设定将电脑音效当作输入源:
Speechlogger 边看国外影片边翻译
https://www.youtube.com/watch?v=91acHQfYj48
Win10 似乎可以不用装软体直接从系统设定
https://www.youtube.com/watch?v=ePJoZ76Z61c
如果很在意字幕效果的话,
还可以用OBS撷取串流影片+撷取辨识出的文字来即时预览
https://www.youtube.com/watch?v=_69B-kztMCY
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.83.50
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/EZsoft/M.1534052643.A.0B9.html
1F:→ sa12e3: 这个技术领域非常复杂,要把人的抽象语言转换成电脑看的0 08/12 15:10
2F:→ sa12e3: 和1,是有一定难度的,单纯使用软体是不太能够辨识出文字 08/12 15:10
3F:→ sa12e3: 语言,所以要透过 Google机器学习演算法等方式达到目标, 08/12 15:10
4F:→ sa12e3: 很难不透过网路等这些平台进行辨识。 如果真的有这类单机 08/12 15:11
5F:→ sa12e3: 软体(这里的单机是指不需要透过网路),直接拿影片档案进 08/12 15:11
6F:→ sa12e3: 行转换,那麽这个软体也会因为机器学习演算法等的关系非常 08/12 15:11
7F:→ sa12e3: 肥大(因为一定会需要机器学习演算法此技术才可),就不会 08/12 15:11
8F:→ sa12e3: 是小软体了。win10 的部分没很明确指出是否需要网路,这 08/12 15:11
9F:→ sa12e3: 部分可自行测试,若需要的话可能是透过bing辨识的。若是真 08/12 15:11
10F:→ sa12e3: 的要单机且不透过网路,有个方式是土法炼钢的概念,那就是 08/12 15:11
11F:→ sa12e3: 把声音真的放出来再利用语音输入法(win10内建或其他需要 08/12 15:12
12F:→ sa12e3: 网路的)、ViaVoice等进行辨识,辨识效果也是很有限,可 08/12 15:12
13F:→ sa12e3: 能比youtube的还差。若是语音输入法是否可为同一电脑设备 08/12 15:12
14F:→ sa12e3: 下进行放音及语音辨识就要自行测试了,理论上应该是可以, 08/12 15:13
15F:→ sa12e3: 但是影片播放部分可能需要让它在背景下执行。类似这篇提 08/12 15:13
17F:→ sa12e3: c 08/12 15:13
呃… 抱歉我看不懂你回这一大串是想表达什麽… XD
※ 编辑: mkz6 (122.116.83.50), 08/12/2018 16:47:21
18F:→ sa12e3: 针对最重要的语音辨识这项目做说明,看不太了解那就请直 08/12 18:00
19F:→ sa12e3: 接忽视了,谢谢。 08/12 18:00