作者Laviathan ()
看板AI_Art
標題Re: [分享] openai_whisper / faster-whisper /webui
時間Mon Jul 1 23:14:54 2024
借標題請教一下
今天faster-whisper發布新版本支援Silero VAD
可是我看他的範例是用mp3檔,不是用串流
這樣如果我要做即時逐字稿跟翻譯的話
是不是只能用while反覆偵測有沒有人在講話?
※ 引述《blarc (blarc)》之銘言:
: 先感謝大大分享跟介紹!
: 最近使用fast-whisper-large-v2來翻譯日綜
: 有一些心得跟問題想請教
: 目前翻譯的效果還可以, 至少可以看懂7成內容了, 但感覺還有改善空間
: 遇到一些人名/地名/專有名詞會比較苦手
: 這部份我是利用Initial Prompt來改善
: 先把藝人名或節目介紹的地名先打上去, 翻譯會比較傾向用你提示的內容
: 不過好像有224個token限制的樣子
: 另外有時候會遇到一段翻譯一直重複同一個句子長達幾分鐘
: 感覺像是卡住或是落入loop
: 我有試著把VAD - Max Merge Size 從90改成180或更高
: 或是去Full頁面把Condition on previous text取消掉
: 可以減少這種重複句子的問題
: 最後有兩個想請教的地方
: web-ui上有translate model和language欄位
: 這兩個欄位的用途是? for translate task用的嗎?
: 還是跟翻譯成中文有關?
: 另外我透過修改config的方式下載其他model來做transcrbie
: ex: zh-plus/faster-whisper-large-v2-japanese-5k-steps
: arc-r/faster-whisper-large-v2-mix-jp
: 不過效果怎麼比原本faster-whisper-large-v2還差 @@
: 我以為這些model是為了加強日語辨識, 還是我還少做了什麼步驟嗎?
: 謝謝.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.218.244 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1719846897.A.DD8.html
1F:推 SKYHas: 如果是串流yt 可以看看stream-translator-gpt這個專案 07/23 01:59