Stable Diffusion文生图界面基本参数记录
提示词语法
1 | 混合语法:[A|B] # 生出A和B的混合物,如[苹果|西瓜],生成苹果西瓜的混合物 |
操作按键
依次为:生成按钮、提取提示词(把提示词里的信息自动拆解)、填入将图片信息(通过输入框填入),删除提示词,附加面板,将保存的提示词写入,保存提示词
CLIP终止层数
数据值越大和提示词偏离越大,通常2,3比较合适。
Steps迭代步数
对一张图片计算的次数,常用在20~40之间,数字越大计算时间越长,细节越多,通常超过50细节区别不会特别多。
Sampler采样方法
第一代 | 第二代 | 第三代 |
---|---|---|
LMS、LMS Karras、Heun、Euler、Euler a、DDIM、PLMS | DPM2、DPM2a、DPM++2S a、DPM++2M、DPM++SDE、DPM++2M SDE、DPM++2M SDE Heun、DPM++2M SDE Heun Karras、DPM++ 2M SDE Heun Exponential、DPM++3M SDE、DPM++ 3M SDE Karras、DPM++ 3M SDE Exponential、DPM++ 2M Karras、DPM++ SDE Karras、DPM++ 2M SDE Exponential、DPM++ 2M SDE Karras、DPM2 Karras、DPM2 a Karras、DPM++2S a Karras、DPM fast、DPM adaptive | UniPC、Restart |
A:噪点不居中,关建词识别度稍低
karras:去噪快
DDIM&PLMS:SD最早的采样器(过时)
DPM:比较建议使用DPM++ SDE karras
其中DPM均是第二代,karras效果好于非karras,SDE在迭代步数高时效果好于2M,DPM++ 2M SDE Heun Exponential适合二次元,3M效果好于2M,效果越好时间越久。
总批次数/单批次数
总批次数(一个一个生成):一次生成多少张,通常用于判断同一lora权重合理性;单批次数(同时生成):每一次生成多少轮。如总批次数:2,单批次数:3,则一轮生成3个两张图片,进行两轮,共6张。
CFG Scale提示词引导系数
引导正/反向提示词。7为恒定值,低于7则和提示词内容进行偏离/弱化,越大和提示词越相信越真实。通常为7~12。
Speed随机种子数
随机种子固定可以保证图片结果保持一致,随机种子的算法在不同设备时间等都会得到不同结果。色子图标:重置-1,循环图标:复制上一张图的种子
Hires.fix高分辨率修复
通过计算放大图片,增加图片细节,而不是直接放大。
放大算法
Latent | ESRGAN_4X | SwinlR_4x |
---|---|---|
Latent、Latent (antialiased)、Latent (bicubic)、Latent (bicubic antialiased)、Latent (nearest)、Latent (nearest-exact) | Lanczos、Nearest、BSRGAN、ESRGAN 4x、LDSR、R-ESRGAN 4x+、R-ESRGAN 4×+、Anime6B | SwinlR_4x |
Latent:
在计算机视觉和深度学习领域通常指的是“潜在的”或“隐含的“表示,在深度学习模型中尤其是自编码器和生成对抗网络(GAN)中,latent space或latent vector指的是模型内部的一个较低维度的表示表示捕获了输入数据的关键特征。有一些算法和技术,特别是在生成对抗网络(GAN)的上下文中会利用这些latent vectors来进行图像的扩大、编辑或生成,例如,StyleGAN 和 StyleGAN2就是这样的网络它们在latent space中进行操作以生成或编辑高质量的图像。
ESRGAN_4X:
ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) 是一个超分辨率技术它使用生成对抗网络(GAN) 来提高图像的分辨率,它是一个进一步改进和增强的 SRGAN,可以生成更清晰、更真实的超分辨图像 ~4X”通常表示将图像的分辨率在宽度和高度上分别增加4倍,例如,从256x256的图像,使用4X超分辨率技术可以得到1024x1024的图像.对比损失:ESRGAN修改了传统的感知损失,引入对比度损失来使重建的图像更加尖锐残差结构:ESRGAN使用了一种深度残差网络,这可以帮助模型学习更复杂的表示,同时减少了训练难度生成对抗网络:使用对抗训练的方法,ESRGAN训练了一个生成网络和一个判别网络改进的结构和训练策略:与其前身SRGAN相比,ESRGAN在网络结构和训练策略上都进行了一些调整和优化,以获得更好的性能
SwinlR_4x:
Swin/R是一个基于最新的Swin Transformer结构的图像恢复模型,Transformer结构最初是为自然语言处理任务设计的近年来被成功地应用于视觉任务,Swin Transformer是一个专为视觉任务设计的Transformer其名字来源于其使用的 “shifted windows‘策略,Swin/R被设计用来处理多种图像恢复任务,包括但不限于超分辦率、降噪和JPEG伪影去除当我们说“Swini/R_4x时,我们通常是指使用SwinlR模型进行4倍超分辨率扩大的特定任
以下是SwinlR的一些特点:
Swin Transformer:与传统的卷积神经网络(CNNs) 不同,SwiniR 使用 Swin Transformer 作为其主要结构这使得模型能够更好地捕捉长范围的依赖关系轻量化和高效:Swin Transformer 结构的一大优点是其高效性,使得SwinlR在某些图像恢复任务上具有相对较少的参数,同时仍能达到竞争性的性能。多任务学习:SwinlR 可以被训练来处理多种不同的图像恢复任务,这使得它在实际应用中具有很大的灵活性。
放大倍数
宽高放大多少倍
高分迭代步数
分辨率修复几次,数值越高,时间越久,通常不会超过5。
重绘强度
增加更多的自由度和更多细节
Refiner
切换时机,在图片生成到多少时介入。值越高细节越少,值越低细节越高。
脚本
Prompt matrix 提示词矩阵
对比元素提示词之间的区别时使用,
格式示例:西瓜|没有灯光|电影灯光|工作室灯光
Prompt from file or textbox 从文本框或文件载入提示词
在渲染多张不同关键词和参数时使用,
格式示例:
—prompt “handsome man smoking a cigar” -negative_prompt “NSFW, yellow hai, straight hair” - steps 28
—prompt “shinning lady in the hall” -width 768-height 768
—prompt “big dog in thgarden”-seed 12345678—sampler name Eular a”
XYZ Plot 图表
对比多个类型下的图片效果
汇总
- 感谢你赐予我前进的力量