Notebook 板


LINE

網頁好讀版:https://reurl.cc/2lDeQa 影片提供更詳細的操作流程與轉錄過程,能更快速體驗本篇的內容: https://youtu.be/08kLZRvPD9U
還記得在早期沒有AI工具的學生時代,要做逐字稿幾乎只能一段段人工聽打,不但需要耗 費大量時間,同時也顯得較枯燥。 後來智慧型手機開始內建語音辨識功能,雖然也試過幾次,但準確度與實用性都還不理想 。 隨著近年語音辨識藉由導入AI技術再進步,語音轉文字已經變得更快、更準確,也更容易 整合進日常工作;不論是需要自動產生字幕的影音創作者、想整理會議紀錄或講座筆記的 學生與社會人士,甚至需要多語言轉錄的使用者,都能從這類AI工具中受惠。 這次主要以節省時間與提升效率為出發點,實測WhisperDesktop、MyEdit與威力導演三種 AI 語音轉文字工具,針對「所需時間」、「準確率」與「方便性」三項重點進行比較, 最後會以圖表方式整理差異,方便大家快速了解結果。 https://i.imgur.com/eFfYrNd.jpeg 過程中使用MSI所推出的16吋AI PC,搭載目前筆電市場頗受好評的Intel Lunar Lake架構 ,CPU為Core Ultra 7 258V,內建Arc 140V GPU 16GB(64 AI TOPS)、4代NPU(47 AI TOPS),AI算力比上一代分別提升約3、4倍,皆有助於加快本機AI運算速度。 AI PC輕薄的設計除了具備日常攜帶的便利性外,也較以往機種擁有更長效的續航力,讓 語音轉文字處理的流程能在戶外或室內等多種情境下順暢進行,兼具效能與行動力的優勢 。 接下來便開始進行這三款AI工具的實際使用方式與轉錄表現。 第一個要介紹的工具是WhisperDesktop,是一款基於OpenAI Whisper技術所開發的桌面應 用程式,可以在本地端直接進行語音轉文字處理,不需要額外撰寫程式或使用命令列工具 ,對一般使用者來說相當方便。 這套工具的優點除了免費之外,也支援多國語言辨識,操作介面簡單直覺,很適合用來處 理日常的錄音轉錄或字幕生成。 首先要到GitHub下載WhisperDesktop。 https://i.imgur.com/TA3IzH0.png 再到Hugging Face下載專用的ggml語言模型。 https://i.imgur.com/vWghnH2.png 設定好模型路徑後就可以開始使用,Model Implementation分為GPU、Hybrid、Reference 三種模式。 https://i.imgur.com/z7J2p5i.jpeg WhisperDesktop支援音訊與影片檔兩種格式,選擇語言以及要轉錄的檔案,設定好輸出格 式與轉錄檔儲存位置後,就能開始轉錄(Transcribe)。 輸出部分可以選擇一般的純文字檔(Text file),或是可直接使用於影片字幕的SRT檔 (SubRip Subtitles)。 https://i.imgur.com/bO7b7er.jpeg 這次測試分別使用兩段自錄影片進行: 第一段是AI筆電發表說明會現場實拍影片、第二段則是Computex 2025快速帶看Intel攤位 影片。 兩支影片中包含環境噪音、背景音樂、單人演說,以及中英文混雜的內容,長度分別為4 分40秒與1分23秒。 轉錄時間分別僅需1分30秒與27秒即可完成,將文字檔與原始影片透過一字一句重新人工 核對,整理出辨識準確率約落在94~95%。 除了像「Core Ultra」這類專有名詞偶爾會誤判外,大部分中英夾雜的內容都能正確辨識 。 更特別的是會自動省略像「嗯」、「那」、「這個」等贅詞,讓逐字稿的可讀性更高。 https://i.imgur.com/hFcIiEw.jpeg 最後再以英文演講影片進行測試,長度達1小時42分。 https://i.imgur.com/ekyyClI.jpeg 這一段轉錄時間僅27分52秒就能完成。 實測結果看起來,WhisperDesktop對影片長度沒有限制,整體效率相當優異,也展現出 AI PC在本地轉錄任務上的效能優勢。 整體流程相當順暢,也不需要連線雲端就能完成辨識。 https://i.imgur.com/eYG0oqW.jpeg 接下來要介紹第二種語音轉文字的方法,是透過線上AI工具MyEdit來進行轉錄。 進到MyEdit網頁後,在上方工具列中選擇「音訊編輯工具 => 語音轉文字」,即可進入轉 錄頁面。 上傳音訊檔案前,可以先確認語言、檔案格式與長度限制是否支援,每轉錄1分鐘音訊需 要消耗1點數。 https://i.imgur.com/oDDuSkp.png 音訊原聲支援多種語言,匯出時同樣提供純文字檔(Text)或SRT字幕檔兩種格式可選。 這次同樣使用前面提到的兩段影片進行測試: AI筆電發表說明會(4分40秒)與Intel Computex 2025攤位快速帶看影片(1分23秒)。 產生時間約為23秒與11秒即可完成,速度相當快。 https://i.imgur.com/bqxNQoF.png 產生後可直接線上播放音檔、即時檢視內容,也能立即在頁面中編輯文字。 整體辨識準確率約95~96%。 不過在部分英文單字上仍有漏字情況,例如「HuggingFace」、「Stable Diffusion」、 「Notebook」等專有名詞,偶爾會出現拼字錯誤。 另外,MyEdit在斷句與標點符號的處理較為雜亂,但中文語音的辨識率相當高,對於講者 語氣、語助詞及語句節奏也能準確呈現。 整體來說,MyEdit線上工具的介面簡潔,搭配即時預覽與可編輯功能,在處理音檔的逐字 稿或字幕檔時,能有效提升效率。 https://i.imgur.com/qLWEMhv.png 如果是影音創作者,或影片檔需要製作字幕,可以試試第三種方法 - 威力導演 (PowerDirector)內建的字幕功能。 在軟體中匯入檔案並開啟字幕工具後,選擇「AI 語音轉文字」即可開始轉錄。 這項功能與MyEdit相同,同樣都是由訊連科技(CyberLink)所開發,因此在產生結果與準 確率上差異不大。 雖然需要先安裝威力導演才能使用,但優點在於轉錄完成後能直接編輯字幕內容並同步製 作影片,等於在同一套軟體中就能完成整個流程。 https://i.imgur.com/ebXt7bq.png 選擇音訊來源與語言,另外也提供在字幕中加入標點符號的功能。 https://i.imgur.com/0JVog07.png 接著執行製作本段影片字幕。 https://i.imgur.com/ur6QJCL.png 斷句與標點符號可自由調整,若發現有重複的用詞錯誤,也能利用上方的「尋找與取代」 功能快速一併修正,操作流程相當直覺。 https://i.imgur.com/yQ4oyOg.png 圖為將紋身(相似音字)修改為文生(正確詞彙)。 https://i.imgur.com/2ptTqA9.png 字幕完成後,只要點選右上角省略符號內的「匯出字幕 => 匯出(不含樣式格式)」,就能 輸出SRT檔,方便直接套用到影片或上傳到平台使用。 https://i.imgur.com/78nNPrb.png 最後來統整這三種方法的使用結果與感想: 以相同的影片檔案計算處理速度,威力導演最快,其次是MyEdit,最後是 WhisperDesktop。 WhisperDesktop透過這台AI PC在本地運算效能,雖不及另外兩種工具在雲端大模型運算 的那樣快速,不過仰賴內顯140V 16GB,轉錄速度比預想中要好上不少,加上免連網有更 好的隱私性。 https://i.imgur.com/XC6NF6A.png 這3種工具準確率平均都有95%以上,若內容中英夾雜,建議使用WhisperDesktop,可避免 英文漏字。 若是純中文內容,用MyEdit或威力導演的精準度會更高。 在方便性方面,MyEdit因為免安裝、線上操作最簡單,但需要點數且僅支援音檔。 WhisperDesktop雖安裝步驟略多,但免費且支援音檔與影片檔,幾乎沒有長度限制。 威力導演則整合影片編輯、斷句調整與快速修正功能,適合想一次完成字幕與影片的創作 者。 https://i.imgur.com/r1Wr49C.png 以上就是本篇對於三種AI語音轉文字工具的實測結果。 這台搭載Intel Lunar Lake架構的AI PC,內顯140V共用記憶體容量達16GB,對AI應用相 當有助益,本篇轉錄語音的過程很順暢,同時也感受到高續航力與輕薄筆電帶來的便攜性 。 如果是外出利用空檔或用餐時間,隨時能執行這幾樣語音轉文字工具,還沒到家就完成了 大部分內容,在實際使用中能有效節省處理時間,整體作業效率也比預期更高,對於經常 需要處理影音內容、會議記錄或筆記轉錄的使用者來說,AI PC的效能表現不僅實用,也 更貼近日常應用的便利性。 先前也分享過AI軟體編輯影片、外出使用一天AI PC包含視訊與工作軟體的文章,過程中 Lunar Lake筆電不論在效能、續航力與溫度表現,比起前幾代的輕薄筆電更讓人滿意。 https://i.imgur.com/lURad1s.jpeg 未來隨著AI技術的軟硬體持續進步,相信會有更高準確率與更多樣的應用。 大家可依照各自的需求、預算與硬體做選擇,並在挑選工具時能更清楚各自的特性與差異 ,希望這次的分享能幫助到有語音轉錄需求的網友,我們下篇文章見:) --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.132.188 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Notebook/M.1763123165.A.D0B.html
1F:推 qlver: whisperdesktop很久沒更新了,有沿用相同技術的whisperer 11/20 12:11
2F:→ qlver: UI較好用,還支援批次轉檔(tigros/whisperer) 11/20 12:11
3F:→ qlver: whisperdesktop系列的GPU加速技術很有趣,是走通用的direct 11/20 12:13
4F:→ qlver: compute,所以N/A/I三廠的GPU單元都能用來加速,可惜沒繼續 11/20 12:14
5F:→ qlver: 本地轉文字還有buzz,但GPU加速還只吃N家的CUDA,較可惜 11/20 12:15







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP