作者avans (阿纬)
看板AI_Art
标题[讨论] 本地生成音乐 ACE-Step 玩具介绍
时间Sun May 18 17:18:45 2025
ACE-Step: A Step Towards Music Generation Foundation Model
这是一个最近才刚问世的新AI生成音乐的工具
或玩具w (本地生成就是好玩
GitHub:
https://github.com/ace-step/ACE-Step
模型说明与歌曲风格范例
https://ace-step.github.io/
https://ace-step.github.io/raw/fig/ACE-Step_framework.png
huggingface:
https://huggingface.co/spaces/ACE-Step/ACE-Step
ACE-Step-v1-3.5B
https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
github 有说明本地安装方式(过程中会下载3.5B的基础模型)
而官方在huggingface有线上Demo网站
比较特别的是 ACE-Step 使用的是 Diffusion 扩散模型
因此他就好像是音乐界的 Stable Diffusion
而且除了Gradio介面外也现在ComfyUI也支援使用 ACE-Step
先说说我试玩後的缺点
可能还比不上发展已成熟的
suno 或 udio 线上闭源模型
ACE-Step 需要调整参数或多骰几次才能出现较满意的生成结果
骰失败的话歌声会有音质差的噪音(未来也许会改善)
https://github.com/ace-step/ACE-Step/issues/121
不过还好他音乐生成的速度很快
我3060环境每个it大约1秒左右
一首歌大约1~2分可生完 (看参数设定与生成Duration长度而定)
目前模型支援生成19种语言的歌(有的语言训练资料较少)
官方比较保证的是底下这10种语言:
‧ English
‧ Chinese
‧ Russian
‧ Spanish
‧ Japanese
‧ German
‧ French
‧ Portuguese
‧ Italian
‧ Korean
底下是 Gradio 版本各介面介绍
* Load
https://i.meee.com.tw/Up6giIb.png
本地安装执行後(线上环境的没有)
每次生成音乐都会产生json配置档案
此处可重新载入已生成过的纪录
* Audio Duration
https://i.meee.com.tw/LJbHxCi.png
这个预设为-1
但建议直接输入数值即可
因为-1并非自动判断而是随机乱数长度
目前 huggingface线上版本只能输出mp3格式
如果是本地安装,此处就可以选择输出无损格式
Sample按钮会随机带入范例的Tags与歌词
* Audio2Audio
https://i.meee.com.tw/C6kWnCi.png
这个类似SD图到图的功能
这里是输入音乐产出音乐
但我觉得还很难用
可能还需要多测试几次
介面中也可载入lora
不过目前仅有一个chinese-rap-LoRA
* Tags
https://i.meee.com.tw/rzTtDLJ.png
这个类似SD的prompt,可以参考上面官方网站歌曲风格范例Tags的说明
* Lyrics
https://i.meee.com.tw/xWvk0he.png
输入的歌词必须加上 [verse]、[chorus]、[bridge] 标签
底下是询问GPT後回覆的说明:
[Verse](主歌)
功能:描述故事或表达情感的主要内容,通常是歌词中最叙事性的部分。
特点:旋律相对平稳,每一段可能歌词不同,但旋律通常相似。
[Chorus](副歌)
功能:歌曲的重点或高潮,反覆出现,容易记住。
特点:旋律最吸引人,歌词通常不变,是整首歌的「hook」。
[Bridge](桥段)
功能:提供歌曲中段的变化,打破重复感,连接主歌与副歌或引导歌曲高潮。
特点:旋律、节奏或情绪明显不同於主歌和副歌,通常只出现一次。
* 基本设定
https://i.meee.com.tw/2Ow9b41.png
这里就跟SD的设定参数很相似
Infer Steps就是扩散模型的生成步数
预设用60步生出一首歌
Guidance Scale是指引尺度预设值是15
不过此值与CFG Type有关系
apg才能使用此预设值,如果改变为cfg的话
此值最好选低点
我测试cfg时此值我调整至3~4左右
Guidance Scale Text & Lyric好像是给cfg使用的
官方建议如果要玩,这两个值可以为 5.0 & 1.5
但我之前调整此值结果变差还不确定要如何调
seeds
种子值是每次生成时
重要的乱数值
要重现已生成过的结果
就必须输入seed值
进阶设定
*
https://i.meee.com.tw/uxI6vCv.png
Scheduler这个我都使用预设的euler,选择不同类型对生成结果影响非常大
CFG类型,apg是为ACE-Step开发的类型,也是官方建议使用的类型
不过ComfyUI 好像只能使用CFG? (不大确定)
ERG
我自己测试时,觉得ERG都关掉结果较好xd
底下是GPT的翻译说明:
对标签、歌词编码器、扩散模型使用熵校正引导(Entropy Rectifying Guidance)。
这会对注意力机制套用一个温度值,使标签条件变得较弱,进而提升多样性。
其他参数还未调整过
______________
另外生出音乐後还有retake、repainting、edit、extend等
四个功能可以玩玩(我还未试过)
重制(retake):
重新生成同一首歌曲的变体。
依据variance值越大产出的越不同
重绘(repaint):
重新生成歌曲中的特定部分。
与retake很像,不过他还可以设定Repaint起讫时间点
编辑(edit):
可以重新输入歌曲Tags与歌词等设定
延伸(extend):
可延伸已生成音乐的头或尾
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.68.115 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1747559935.A.CA1.html
※ 编辑: avans (114.136.68.115 台湾), 05/18/2025 17:24:05
1F:推 Vulpix: 图生图让我想起riffusion拿音频图转图…… 05/18 17:29
2F:推 error405: 中文歌也行的吗?! 05/18 17:38
3F:→ error405: 坐等酷酷的中文歌 05/18 17:39
4F:推 AoWsL: 哦?有听说过这个 谢解说 05/18 18:19
5F:→ AoWsL: 其实还蛮强的...稍微测试了一下 一般SUNO V4没办法做158BPM 05/19 11:09
6F:→ AoWsL: 以上的超快节奏... 05/19 11:09
7F:→ AoWsL: 做了几首EDM背景音乐 05/19 11:10
8F:→ avans: 一开始觉得比不上商业模型是因为我用预设启用ERG参数来执行 05/19 12:35
9F:→ avans: 我可能不会用ERG,在关闭後跑出来效果我觉得就很不错了 05/19 12:35