作者shusei (公子钧)
看板transgender
标题[情报] 男女声倾向检视网页小工具
时间Wed Oct 22 11:39:35 2025
大家好,分享一个开源小工具:在浏览器端本地推论,估计声音被模型感知为 女性化/
男性化 的倾向。音档不会上传,录完立刻看分数。
Demo:
https://shusei.github.io/vpa
https://i.meee.com.tw/bfZKqaH.png
◎怎麽用
*进页面按「开始录音」说 5–10 秒(日常说话),再按停止;
或用右下角 上传现有音档。支援 mp3 / m4a / mp4 / mov(影片只取音轨)。
*会显示两个百分比条(女性化/男性化),可按【▶播放刚才的声音】重听原音。
*有即时状态与进度提示,长档也看得到进度。
◎隐私与快取
*推论在浏览器本地完成,不会上传音档。
*只保留最新一段的回放音档;模型档会快取在浏览器(可在页面点「清除模型快取」)
◎结果怎麽看
*这是「语音表现的倾向」分数,不是性别认同、也不是医疗/法律判定。请当作自我练习
的回馈。
*灰色带:分数介於 40–60% 比较模糊,建议多录几段、看趋势。
◎已知局限
*模型主要来自 Common Voice 英语朗读资料;中文/方言/唱歌/戏腔可能有落差。
*噪音、回音、感冒、或单纯「硬拉音高」都会影响结果。
◎技术透明
*前端使用 @xenova/transformers 在浏览器做 ONNX/WASM/WebGPU 推论。
*模型:prithivMLmods/Common-Voice-Gender-Detection-ONNX(Wav2Vec2,Apache-2.0)
*前处理最小化:只做 单声道混合 与 16 kHz 重采样(不去静音、不调音量)。
*50 秒整段一次;>150 秒自动改为串流分段并在记忆体吃紧时自动缩短片段,避免浏
览器 OOM。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.216.139.187 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/transgender/M.1761104381.A.545.html
※ 编辑: shusei (42.73.87.249 台湾), 10/22/2025 11:59:25
※ 编辑: shusei (42.73.87.249 台湾), 10/22/2025 11:59:42
※ 编辑: shusei (42.73.87.249 台湾), 10/22/2025 12:00:20
※ 编辑: shusei (61.216.139.187 台湾), 10/22/2025 15:38:11
※ 编辑: shusei (42.73.87.249 台湾), 10/22/2025 15:40:10
1F:推 uuuyyttu: 作为长期推广 CV 的我,表示心情复杂。竟然可以这样用XD 10/22 23:35
2F:→ shusei: 竟然引出大神:) 10/23 00:41
3F:推 winthfoxy: 好东西给推 10/23 10:00
※ 编辑: shusei (1.171.115.106 台湾), 10/23/2025 20:39:32
4F:推 donboonic: 酷耶 11/09 17:16
5F:推 uuuyyttu: 结果後来发现跟 Common Voice 只有同名关系,其他没关XD 11/11 00:59
6F:→ anemoy: 推一个 11/11 21:41
7F:推 anemoy: 补推 11/11 21:49