作者clothg34569 (提拉)
看板AI_Art
標題[StaD] Step與CFG Scale的理解與應用
時間Sun Apr 9 21:16:54 2023
先說原Paper我沒認真看完 所以以下內容有錯麻煩稍微指證一下 感謝
另外感謝琥珀青葉一些講解
Step :
在同樣Denoise的強度情況下 從起點(雜訊) 到達終點(成品)的距離是固定的
Step則是決定要走幾步到達終點 不同Sampler會讓每步計算有些差異
所以低Step代表幾步就要抵達終點 而高Step代表每步距離短很多
CFG :
Classifier-free guidance scale
假設模型分成兩種output 第一種是不看prompt的 第二種是看prompt的
CFG可以想像成結果要多接近第二種
所以CFG為0的情況等於不管你prompt
而CFG過大的情況prompt的影響會過大所以也很難成圖
簡單介紹完之後
再來直接用圖片看可能比較好
這次主題是用Locon作者琥珀青葉最愛的龍娘
https://i.imgur.com/IRvjfYU.jpg
基本關鍵字:
solo, (watercolor style:1.3),1 full body girl with dragon wings and dragon
horns and dragon tail,background, beautiufl detailed background,detailed
beautiful detailed golden eyes, detailed beautiful face, masterpiece
Sampler : DPM++ 2M Karras
低CFG時比較容易丟失關鍵字的資訊 但是受到的限制比較少也讓他品質會有所提升
高CFG時會更加符合關鍵字 但過高的CFG會過度fitting輸入反而無法得到好的結果
但由於CFG並非一個Ratio 所以也有可能是Out of bag error
因為當初訓練時不會有人用CFG100去訓練吧?
所以CFG100對他可能是個未知的Input 就單純考驗模型的generalize能力了
再來用XY Plot的結果來解釋(通靈)一下吧
可以看到圖片中 比較能成圖的是中間到下方 也就是大部分人最常用的
CFG 7~20 Step 15~30
這個範圍比較容易成圖 也能生成一個大致上符合預期的圖片
而低CFG(左邊)則可以發現自由度越來越高 其中CFG1時甚至連Girl都快沒了
高CFG(右邊)可以發現過度Fitting關鍵字 那個誇張的彩度有可能是watorcolor造成的
那為什麼高Step時可以硬吃下來呢?
一個可能性是高Step縮短了每步的距離 讓過高CFG的影響緩和了一點 所以才有辦法成圖
那麼 結論會是說 大家平常使用的CFG 7~20 Step 15~30結果很好 所以就這樣吧?
CFG 7 Step 40
https://i.imgur.com/s0a6e11.png
CFG 11 Step 40
https://i.imgur.com/ddXdgYI.png
這兩個結果都不錯 也都符合預期
但如果這樣就沒有發這篇的意義了
這組泛用CFG和STEP當然好 但我們看這組XY Plot可以發現CFG 和Step
也能組合出一些有趣的結果
首先是低CFG
CFG 3 Step 35
關鍵字改成以下 盡量減少指定的prompt
solo, 1girl, (watercolor style:1.3),1 full body dragon girl,background,
beautiufl detailed background,detailed beautiful detailed golden eyes,
detailed beautiful face, masterpiece
https://i.imgur.com/FQ2UwNo.png
https://i.imgur.com/GjwSSvX.png
https://i.imgur.com/KpLgFo3.png
https://i.imgur.com/croBMFP.png
當然這是挑過的 也有機會產生出
https://i.imgur.com/vVfJ845.png
https://i.imgur.com/mubwKiU.png
可以利用低CFG較高的自由度 簡單指定主題讓他自由發揮得到一些有趣的結果
雖然這Model還是很不會畫龍啦...
而且細節很容易崩
再來是最玄學的參數
CFG 50 STEP 100
利用高Step壓掉高CFG影響 得到一個極高彩度的龍娘
例如原圖中的
https://i.imgur.com/NbJ8U8N.png
還有額外生的一些
https://i.imgur.com/DwSABVJ.png
https://i.imgur.com/Nw4w0fC.png
https://i.imgur.com/J1tlcTq.png
這組還有一個意外的優點是細節比較不容易崩
或許是因為自由度較低的原因?
結論:
泛用的CFG 7~20 Step 15~30可以得到穩定的結果
而利用極高或極低的CFG 配合Step也能夠得到一些有變化的結果
但這組設定並不適合每種prompt 所以可能換主題後就需要重跑一次xyplot來找合理區間
如果想要一些得到一些不同的結果很推薦調整(脫離安全範圍)看看
------
https://i.imgur.com/x3ipMHU.png
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.112.210 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1681046216.A.28A.html
1F:推 reader2714: 其實就是換主題就先用xy圖試一下趨勢吧XD 04/09 21:36
2F:推 jeffguoft: 有趣 謝謝分享 04/10 07:07
3F:推 strangegamma: 實用!感謝分享。 04/10 07:55
4F:推 s9006512345: 好文給推 04/10 09:59
5F:推 draw: 謝謝分享 04/10 12:39
6F:推 wres666: 其實 a1111 webui 上不存在沒有prompt 這件事 empty prom 04/10 13:08
7F:→ wres666: pt 被替換成negative prompt 了 有機會我再開一篇來說 04/10 13:08
8F:推 se2104: 推 04/10 16:45
9F:推 sweetorz: 優文推推 04/11 17:49
11F:→ mayasoo: olding 04/12 13:30
12F:→ mayasoo: 上面這個外掛建議每個人都要去裝的 04/12 13:31
13F:推 avans: 推心得,很花時間的測試! 04/17 16:14