作者clothg34569 (提拉)
看板AI_Art
标题[StaD] Step与CFG Scale的理解与应用
时间Sun Apr 9 21:16:54 2023
先说原Paper我没认真看完 所以以下内容有错麻烦稍微指证一下 感谢
另外感谢琥珀青叶一些讲解
Step :
在同样Denoise的强度情况下 从起点(杂讯) 到达终点(成品)的距离是固定的
Step则是决定要走几步到达终点 不同Sampler会让每步计算有些差异
所以低Step代表几步就要抵达终点 而高Step代表每步距离短很多
CFG :
Classifier-free guidance scale
假设模型分成两种output 第一种是不看prompt的 第二种是看prompt的
CFG可以想像成结果要多接近第二种
所以CFG为0的情况等於不管你prompt
而CFG过大的情况prompt的影响会过大所以也很难成图
简单介绍完之後
再来直接用图片看可能比较好
这次主题是用Locon作者琥珀青叶最爱的龙娘
https://i.imgur.com/IRvjfYU.jpg
基本关键字:
solo, (watercolor style:1.3),1 full body girl with dragon wings and dragon
horns and dragon tail,background, beautiufl detailed background,detailed
beautiful detailed golden eyes, detailed beautiful face, masterpiece
Sampler : DPM++ 2M Karras
低CFG时比较容易丢失关键字的资讯 但是受到的限制比较少也让他品质会有所提升
高CFG时会更加符合关键字 但过高的CFG会过度fitting输入反而无法得到好的结果
但由於CFG并非一个Ratio 所以也有可能是Out of bag error
因为当初训练时不会有人用CFG100去训练吧?
所以CFG100对他可能是个未知的Input 就单纯考验模型的generalize能力了
再来用XY Plot的结果来解释(通灵)一下吧
可以看到图片中 比较能成图的是中间到下方 也就是大部分人最常用的
CFG 7~20 Step 15~30
这个范围比较容易成图 也能生成一个大致上符合预期的图片
而低CFG(左边)则可以发现自由度越来越高 其中CFG1时甚至连Girl都快没了
高CFG(右边)可以发现过度Fitting关键字 那个夸张的彩度有可能是watorcolor造成的
那为什麽高Step时可以硬吃下来呢?
一个可能性是高Step缩短了每步的距离 让过高CFG的影响缓和了一点 所以才有办法成图
那麽 结论会是说 大家平常使用的CFG 7~20 Step 15~30结果很好 所以就这样吧?
CFG 7 Step 40
https://i.imgur.com/s0a6e11.png
CFG 11 Step 40
https://i.imgur.com/ddXdgYI.png
这两个结果都不错 也都符合预期
但如果这样就没有发这篇的意义了
这组泛用CFG和STEP当然好 但我们看这组XY Plot可以发现CFG 和Step
也能组合出一些有趣的结果
首先是低CFG
CFG 3 Step 35
关键字改成以下 尽量减少指定的prompt
solo, 1girl, (watercolor style:1.3),1 full body dragon girl,background,
beautiufl detailed background,detailed beautiful detailed golden eyes,
detailed beautiful face, masterpiece
https://i.imgur.com/FQ2UwNo.png
https://i.imgur.com/GjwSSvX.png
https://i.imgur.com/KpLgFo3.png
https://i.imgur.com/croBMFP.png
当然这是挑过的 也有机会产生出
https://i.imgur.com/vVfJ845.png
https://i.imgur.com/mubwKiU.png
可以利用低CFG较高的自由度 简单指定主题让他自由发挥得到一些有趣的结果
虽然这Model还是很不会画龙啦...
而且细节很容易崩
再来是最玄学的参数
CFG 50 STEP 100
利用高Step压掉高CFG影响 得到一个极高彩度的龙娘
例如原图中的
https://i.imgur.com/NbJ8U8N.png
还有额外生的一些
https://i.imgur.com/DwSABVJ.png
https://i.imgur.com/Nw4w0fC.png
https://i.imgur.com/J1tlcTq.png
这组还有一个意外的优点是细节比较不容易崩
或许是因为自由度较低的原因?
结论:
泛用的CFG 7~20 Step 15~30可以得到稳定的结果
而利用极高或极低的CFG 配合Step也能够得到一些有变化的结果
但这组设定并不适合每种prompt 所以可能换主题後就需要重跑一次xyplot来找合理区间
如果想要一些得到一些不同的结果很推荐调整(脱离安全范围)看看
------
https://i.imgur.com/x3ipMHU.png
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.112.210 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1681046216.A.28A.html
1F:推 reader2714: 其实就是换主题就先用xy图试一下趋势吧XD 04/09 21:36
2F:推 jeffguoft: 有趣 谢谢分享 04/10 07:07
3F:推 strangegamma: 实用!感谢分享。 04/10 07:55
4F:推 s9006512345: 好文给推 04/10 09:59
5F:推 draw: 谢谢分享 04/10 12:39
6F:推 wres666: 其实 a1111 webui 上不存在没有prompt 这件事 empty prom 04/10 13:08
7F:→ wres666: pt 被替换成negative prompt 了 有机会我再开一篇来说 04/10 13:08
8F:推 se2104: 推 04/10 16:45
9F:推 sweetorz: 优文推推 04/11 17:49
11F:→ mayasoo: olding 04/12 13:30
12F:→ mayasoo: 上面这个外挂建议每个人都要去装的 04/12 13:31
13F:推 avans: 推心得,很花时间的测试! 04/17 16:14