作者avans (阿緯)
看板AI_Art
標題[討論] 本地生成音樂 ACE-Step 玩具介紹
時間Sun May 18 17:18:45 2025
ACE-Step: A Step Towards Music Generation Foundation Model
這是一個最近才剛問世的新AI生成音樂的工具
或玩具w (本地生成就是好玩
GitHub:
https://github.com/ace-step/ACE-Step
模型說明與歌曲風格範例
https://ace-step.github.io/
https://ace-step.github.io/raw/fig/ACE-Step_framework.png
huggingface:
https://huggingface.co/spaces/ACE-Step/ACE-Step
ACE-Step-v1-3.5B
https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
github 有說明本地安裝方式(過程中會下載3.5B的基礎模型)
而官方在huggingface有線上Demo網站
比較特別的是 ACE-Step 使用的是 Diffusion 擴散模型
因此他就好像是音樂界的 Stable Diffusion
而且除了Gradio介面外也現在ComfyUI也支援使用 ACE-Step
先說說我試玩後的缺點
可能還比不上發展已成熟的
suno 或 udio 線上閉源模型
ACE-Step 需要調整參數或多骰幾次才能出現較滿意的生成結果
骰失敗的話歌聲會有音質差的噪音(未來也許會改善)
https://github.com/ace-step/ACE-Step/issues/121
不過還好他音樂生成的速度很快
我3060環境每個it大約1秒左右
一首歌大約1~2分可生完 (看參數設定與生成Duration長度而定)
目前模型支援生成19種語言的歌(有的語言訓練資料較少)
官方比較保證的是底下這10種語言:
‧ English
‧ Chinese
‧ Russian
‧ Spanish
‧ Japanese
‧ German
‧ French
‧ Portuguese
‧ Italian
‧ Korean
底下是 Gradio 版本各介面介紹
* Load
https://i.meee.com.tw/Up6giIb.png
本地安裝執行後(線上環境的沒有)
每次生成音樂都會產生json配置檔案
此處可重新載入已生成過的紀錄
* Audio Duration
https://i.meee.com.tw/LJbHxCi.png
這個預設為-1
但建議直接輸入數值即可
因為-1並非自動判斷而是隨機亂數長度
目前 huggingface線上版本只能輸出mp3格式
如果是本地安裝,此處就可以選擇輸出無損格式
Sample按鈕會隨機帶入範例的Tags與歌詞
* Audio2Audio
https://i.meee.com.tw/C6kWnCi.png
這個類似SD圖到圖的功能
這裡是輸入音樂產出音樂
但我覺得還很難用
可能還需要多測試幾次
介面中也可載入lora
不過目前僅有一個chinese-rap-LoRA
* Tags
https://i.meee.com.tw/rzTtDLJ.png
這個類似SD的prompt,可以參考上面官方網站歌曲風格範例Tags的說明
* Lyrics
https://i.meee.com.tw/xWvk0he.png
輸入的歌詞必須加上 [verse]、[chorus]、[bridge] 標籤
底下是詢問GPT後回覆的說明:
[Verse](主歌)
功能:描述故事或表達情感的主要內容,通常是歌詞中最敘事性的部分。
特點:旋律相對平穩,每一段可能歌詞不同,但旋律通常相似。
[Chorus](副歌)
功能:歌曲的重點或高潮,反覆出現,容易記住。
特點:旋律最吸引人,歌詞通常不變,是整首歌的「hook」。
[Bridge](橋段)
功能:提供歌曲中段的變化,打破重複感,連接主歌與副歌或引導歌曲高潮。
特點:旋律、節奏或情緒明顯不同於主歌和副歌,通常只出現一次。
* 基本設定
https://i.meee.com.tw/2Ow9b41.png
這裡就跟SD的設定參數很相似
Infer Steps就是擴散模型的生成步數
預設用60步生出一首歌
Guidance Scale是指引尺度預設值是15
不過此值與CFG Type有關係
apg才能使用此預設值,如果改變為cfg的話
此值最好選低點
我測試cfg時此值我調整至3~4左右
Guidance Scale Text & Lyric好像是給cfg使用的
官方建議如果要玩,這兩個值可以為 5.0 & 1.5
但我之前調整此值結果變差還不確定要如何調
seeds
種子值是每次生成時
重要的亂數值
要重現已生成過的結果
就必須輸入seed值
進階設定
*
https://i.meee.com.tw/uxI6vCv.png
Scheduler這個我都使用預設的euler,選擇不同類型對生成結果影響非常大
CFG類型,apg是為ACE-Step開發的類型,也是官方建議使用的類型
不過ComfyUI 好像只能使用CFG? (不大確定)
ERG
我自己測試時,覺得ERG都關掉結果較好xd
底下是GPT的翻譯說明:
對標籤、歌詞編碼器、擴散模型使用熵校正引導(Entropy Rectifying Guidance)。
這會對注意力機制套用一個溫度值,使標籤條件變得較弱,進而提升多樣性。
其他參數還未調整過
______________
另外生出音樂後還有retake、repainting、edit、extend等
四個功能可以玩玩(我還未試過)
重製(retake):
重新生成同一首歌曲的變體。
依據variance值越大產出的越不同
重繪(repaint):
重新生成歌曲中的特定部分。
與retake很像,不過他還可以設定Repaint起訖時間點
編輯(edit):
可以重新輸入歌曲Tags與歌詞等設定
延伸(extend):
可延伸已生成音樂的頭或尾
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.68.115 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1747559935.A.CA1.html
※ 編輯: avans (114.136.68.115 臺灣), 05/18/2025 17:24:05
1F:推 Vulpix: 圖生圖讓我想起riffusion拿音頻圖轉圖…… 05/18 17:29
2F:推 error405: 中文歌也行的嗎?! 05/18 17:38
3F:→ error405: 坐等酷酷的中文歌 05/18 17:39
4F:推 AoWsL: 哦?有聽說過這個 謝解說 05/18 18:19
5F:→ AoWsL: 其實還蠻強的...稍微測試了一下 一般SUNO V4沒辦法做158BPM 05/19 11:09
6F:→ AoWsL: 以上的超快節奏... 05/19 11:09
7F:→ AoWsL: 做了幾首EDM背景音樂 05/19 11:10
8F:→ avans: 一開始覺得比不上商業模型是因為我用預設啟用ERG參數來執行 05/19 12:35
9F:→ avans: 我可能不會用ERG,在關閉後跑出來效果我覺得就很不錯了 05/19 12:35