作者saces (saces)
看板AI_Art
标题[分享] 声音生成 ElevenLabs 和 d-id
时间Fri Mar 10 02:24:49 2023
最近稍微试了一下ElevenLabs
蛮惊艳的,就来分享一下。
它是一个文字转语音的AI服务。
还能用已有的声音去复制声线
最近很多美国总统玩游戏的影片都是用这个
有10000字的试用额度,它是连标点符号和空白都算的。
https://i.imgur.com/HVIc1Q6.jpg
上面是文字生声音
下面是生产或复制声线
https://i.imgur.com/Un5Q0B6.jpg
介面基本上长这样。
Stability 越高声音就越稳定,调低的话情绪会比较明显,我自己是觉得真实很多。调高
就比较有机械感
Clarity + Similarity Enhancement 就清晰度和原本声音的相似度。这不建议调太低,
不然效果不好。
一般说话的声音,我看Discord一些用户的建议是将 stability 25% Clarity 85%
另外是文字的部分,虽然试用可以一次生成2500字,但太长的话,有时候声音会突然变调
,建议分段都在500-600字以下。
AI本身会侦测文字的语气,但也可以用文字叙述,可以在一段话前加上,He said angril
y 或 He whisper。AI就会用相应语气。用这方法最好将Stability 降到10%左右。
另外 全大写字母,或是表情符号也有效果
声线部分,它原本就有一些预设的声线,其实效果算不错。非会员可以用随机生产声线的
功能。复制声线功能之前好像被玩坏了,现在只有会员才能用。
随机的部分,可以选性别、年纪和口音。
https://i.imgur.com/dVFORW3.jpg
Generate 就可以生成一个新的声线。
并且产生一段范例声音
但会消耗你范例里文字数的额度
喜欢的话就可以存起来
我觉得这蛮看运气的,有时候蛮机械化的,但有时候又能骰到不错的声线。
最後就是复制声音的部分,基本上一小段话丢进去就能复制到非常像,复制本身不会产生
范例,也不会消耗额度。尽量不要有噪音,他们是说五分钟以上效果最好。
这AI大概是我目前听过最真实的文字转语音,不过目前只有英文效果最好,中文可以转,
但超级烂,完全不建议。
d-id
是另一个文字转语音加影片。能让图片动起来嘴形符合语音。
https://youtu.be/eyJ5kZeSF8k
这影片有在关注AI的可能会有看过。里面有教学,它本身能文字转语音,但我觉得效果普
通。你也可以汇入其他的语音。ElevenLabs产的声音丢进d-I’d效果蛮好的。另外图片选
择的时候,尽量选择正脸的图片。侧脸会变的非常猎奇。
我觉得ElevenLabs运用应该蛮广的,例如在一些indie game 开发上会蛮有用的。d-id 就
比较像玩具一点。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.34.148.51 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1678386291.A.59B.html
1F:推 ZMTL: 还没用直接先问,目前中文可以work吗XD 03/10 04:08
2F:推 v86861062: 推推 03/10 07:05
3F:→ saces: Elevenlab中文会变成有点像外国人讲话用拼音发音的感觉, 03/10 08:00
4F:→ saces: 机械感也很明显 03/10 08:00
5F:→ strangegamma: 看起来是真的对indie很有用 03/10 08:35
7F:→ saces: 片 03/10 10:44
8F:推 Vulpix: 中文的话可以考虑微软的azure平台,不过没有太自由的mode 03/10 23:14
9F:→ Vulpix: l。我想找有没有人做类似SDwebui这种project可以训练自己 03/10 23:14
10F:→ Vulpix: model和生成语音的。 03/10 23:14