Notebook 板


LINE

网页好读版:https://reurl.cc/2lDeQa 影片提供更详细的操作流程与转录过程,能更快速体验本篇的内容: https://youtu.be/08kLZRvPD9U
还记得在早期没有AI工具的学生时代,要做逐字稿几乎只能一段段人工听打,不但需要耗 费大量时间,同时也显得较枯燥。 後来智慧型手机开始内建语音辨识功能,虽然也试过几次,但准确度与实用性都还不理想 。 随着近年语音辨识藉由导入AI技术再进步,语音转文字已经变得更快、更准确,也更容易 整合进日常工作;不论是需要自动产生字幕的影音创作者、想整理会议纪录或讲座笔记的 学生与社会人士,甚至需要多语言转录的使用者,都能从这类AI工具中受惠。 这次主要以节省时间与提升效率为出发点,实测WhisperDesktop、MyEdit与威力导演三种 AI 语音转文字工具,针对「所需时间」、「准确率」与「方便性」三项重点进行比较, 最後会以图表方式整理差异,方便大家快速了解结果。 https://i.imgur.com/eFfYrNd.jpeg 过程中使用MSI所推出的16寸AI PC,搭载目前笔电市场颇受好评的Intel Lunar Lake架构 ,CPU为Core Ultra 7 258V,内建Arc 140V GPU 16GB(64 AI TOPS)、4代NPU(47 AI TOPS),AI算力比上一代分别提升约3、4倍,皆有助於加快本机AI运算速度。 AI PC轻薄的设计除了具备日常携带的便利性外,也较以往机种拥有更长效的续航力,让 语音转文字处理的流程能在户外或室内等多种情境下顺畅进行,兼具效能与行动力的优势 。 接下来便开始进行这三款AI工具的实际使用方式与转录表现。 第一个要介绍的工具是WhisperDesktop,是一款基於OpenAI Whisper技术所开发的桌面应 用程式,可以在本地端直接进行语音转文字处理,不需要额外撰写程式或使用命令列工具 ,对一般使用者来说相当方便。 这套工具的优点除了免费之外,也支援多国语言辨识,操作介面简单直觉,很适合用来处 理日常的录音转录或字幕生成。 首先要到GitHub下载WhisperDesktop。 https://i.imgur.com/TA3IzH0.png 再到Hugging Face下载专用的ggml语言模型。 https://i.imgur.com/vWghnH2.png 设定好模型路径後就可以开始使用,Model Implementation分为GPU、Hybrid、Reference 三种模式。 https://i.imgur.com/z7J2p5i.jpeg WhisperDesktop支援音讯与影片档两种格式,选择语言以及要转录的档案,设定好输出格 式与转录档储存位置後,就能开始转录(Transcribe)。 输出部分可以选择一般的纯文字档(Text file),或是可直接使用於影片字幕的SRT档 (SubRip Subtitles)。 https://i.imgur.com/bO7b7er.jpeg 这次测试分别使用两段自录影片进行: 第一段是AI笔电发表说明会现场实拍影片、第二段则是Computex 2025快速带看Intel摊位 影片。 两支影片中包含环境噪音、背景音乐、单人演说,以及中英文混杂的内容,长度分别为4 分40秒与1分23秒。 转录时间分别仅需1分30秒与27秒即可完成,将文字档与原始影片透过一字一句重新人工 核对,整理出辨识准确率约落在94~95%。 除了像「Core Ultra」这类专有名词偶尔会误判外,大部分中英夹杂的内容都能正确辨识 。 更特别的是会自动省略像「嗯」、「那」、「这个」等赘词,让逐字稿的可读性更高。 https://i.imgur.com/hFcIiEw.jpeg 最後再以英文演讲影片进行测试,长度达1小时42分。 https://i.imgur.com/ekyyClI.jpeg 这一段转录时间仅27分52秒就能完成。 实测结果看起来,WhisperDesktop对影片长度没有限制,整体效率相当优异,也展现出 AI PC在本地转录任务上的效能优势。 整体流程相当顺畅,也不需要连线云端就能完成辨识。 https://i.imgur.com/eYG0oqW.jpeg 接下来要介绍第二种语音转文字的方法,是透过线上AI工具MyEdit来进行转录。 进到MyEdit网页後,在上方工具列中选择「音讯编辑工具 => 语音转文字」,即可进入转 录页面。 上传音讯档案前,可以先确认语言、档案格式与长度限制是否支援,每转录1分钟音讯需 要消耗1点数。 https://i.imgur.com/oDDuSkp.png 音讯原声支援多种语言,汇出时同样提供纯文字档(Text)或SRT字幕档两种格式可选。 这次同样使用前面提到的两段影片进行测试: AI笔电发表说明会(4分40秒)与Intel Computex 2025摊位快速带看影片(1分23秒)。 产生时间约为23秒与11秒即可完成,速度相当快。 https://i.imgur.com/bqxNQoF.png 产生後可直接线上播放音档、即时检视内容,也能立即在页面中编辑文字。 整体辨识准确率约95~96%。 不过在部分英文单字上仍有漏字情况,例如「HuggingFace」、「Stable Diffusion」、 「Notebook」等专有名词,偶尔会出现拼字错误。 另外,MyEdit在断句与标点符号的处理较为杂乱,但中文语音的辨识率相当高,对於讲者 语气、语助词及语句节奏也能准确呈现。 整体来说,MyEdit线上工具的介面简洁,搭配即时预览与可编辑功能,在处理音档的逐字 稿或字幕档时,能有效提升效率。 https://i.imgur.com/qLWEMhv.png 如果是影音创作者,或影片档需要制作字幕,可以试试第三种方法 - 威力导演 (PowerDirector)内建的字幕功能。 在软体中汇入档案并开启字幕工具後,选择「AI 语音转文字」即可开始转录。 这项功能与MyEdit相同,同样都是由讯连科技(CyberLink)所开发,因此在产生结果与准 确率上差异不大。 虽然需要先安装威力导演才能使用,但优点在於转录完成後能直接编辑字幕内容并同步制 作影片,等於在同一套软体中就能完成整个流程。 https://i.imgur.com/ebXt7bq.png 选择音讯来源与语言,另外也提供在字幕中加入标点符号的功能。 https://i.imgur.com/0JVog07.png 接着执行制作本段影片字幕。 https://i.imgur.com/ur6QJCL.png 断句与标点符号可自由调整,若发现有重复的用词错误,也能利用上方的「寻找与取代」 功能快速一并修正,操作流程相当直觉。 https://i.imgur.com/yQ4oyOg.png 图为将纹身(相似音字)修改为文生(正确词汇)。 https://i.imgur.com/2ptTqA9.png 字幕完成後,只要点选右上角省略符号内的「汇出字幕 => 汇出(不含样式格式)」,就能 输出SRT档,方便直接套用到影片或上传到平台使用。 https://i.imgur.com/78nNPrb.png 最後来统整这三种方法的使用结果与感想: 以相同的影片档案计算处理速度,威力导演最快,其次是MyEdit,最後是 WhisperDesktop。 WhisperDesktop透过这台AI PC在本地运算效能,虽不及另外两种工具在云端大模型运算 的那样快速,不过仰赖内显140V 16GB,转录速度比预想中要好上不少,加上免连网有更 好的隐私性。 https://i.imgur.com/XC6NF6A.png 这3种工具准确率平均都有95%以上,若内容中英夹杂,建议使用WhisperDesktop,可避免 英文漏字。 若是纯中文内容,用MyEdit或威力导演的精准度会更高。 在方便性方面,MyEdit因为免安装、线上操作最简单,但需要点数且仅支援音档。 WhisperDesktop虽安装步骤略多,但免费且支援音档与影片档,几乎没有长度限制。 威力导演则整合影片编辑、断句调整与快速修正功能,适合想一次完成字幕与影片的创作 者。 https://i.imgur.com/r1Wr49C.png 以上就是本篇对於三种AI语音转文字工具的实测结果。 这台搭载Intel Lunar Lake架构的AI PC,内显140V共用记忆体容量达16GB,对AI应用相 当有助益,本篇转录语音的过程很顺畅,同时也感受到高续航力与轻薄笔电带来的便携性 。 如果是外出利用空档或用餐时间,随时能执行这几样语音转文字工具,还没到家就完成了 大部分内容,在实际使用中能有效节省处理时间,整体作业效率也比预期更高,对於经常 需要处理影音内容、会议记录或笔记转录的使用者来说,AI PC的效能表现不仅实用,也 更贴近日常应用的便利性。 先前也分享过AI软体编辑影片、外出使用一天AI PC包含视讯与工作软体的文章,过程中 Lunar Lake笔电不论在效能、续航力与温度表现,比起前几代的轻薄笔电更让人满意。 https://i.imgur.com/lURad1s.jpeg 未来随着AI技术的软硬体持续进步,相信会有更高准确率与更多样的应用。 大家可依照各自的需求、预算与硬体做选择,并在挑选工具时能更清楚各自的特性与差异 ,希望这次的分享能帮助到有语音转录需求的网友,我们下篇文章见:) --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.141.132.188 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Notebook/M.1763123165.A.D0B.html
1F:推 qlver: whisperdesktop很久没更新了,有沿用相同技术的whisperer 11/20 12:11
2F:→ qlver: UI较好用,还支援批次转档(tigros/whisperer) 11/20 12:11
3F:→ qlver: whisperdesktop系列的GPU加速技术很有趣,是走通用的direct 11/20 12:13
4F:→ qlver: compute,所以N/A/I三厂的GPU单元都能用来加速,可惜没继续 11/20 12:14
5F:→ qlver: 本地转文字还有buzz,但GPU加速还只吃N家的CUDA,较可惜 11/20 12:15







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP