Stable Diffusion Webuiのあれこれメモ
Table of Contents
画像生成時の各種パラメータについて
- Sampling Steps: 画像生成時のステップ数。多いほど画質が向上するが時間がかかる。
- Batch Count: 何回画像生成をおこなうか。一つ生成したあとに続けて生成する。
- Batch Size: 一度に生成する画像の数。多いほど時間がかかるが一度に多くの画像を生成できる。相応のマシンスペックも必要。
- Hires, fix: 低解像度画像を生成したあとに高解像度画像を生成する。基本的にクオリティが上がる。
Float 16 EMA Pruned等について
モデルを配布用に軽量化等を施したもの。
Float 16 EMA Pruned
最も軽量。画像生成のみ目的とするならばこれで良い。
Float 32 EMA Pruned
16よりも精度が良い可能性もあるがあまり変わらないかも。
Float 32 Full Weights
オリジナルの学習済みのモデル等も含まれている。
画像姿勢には必要ないが少し踏み込んだことをするときに必要になってくるかも。
Float 32 Full Weights + Optimizer Weights (For Training)
学習に必要なすべてを含む。再学習等を行う場合
モデル適用方法
.ckptか.safetensorsファイルを用意する。
models\Stable-diffusion以下にファイルを配置することでモデルを変更して画像生成できるようになる。
モデル
最近ではcivitai.comがよく利用されているようだ。
https://civitai.com/
アニメ系はAnythingが主流らしい?
https://civitai.com/models/9409
https://civitai.com/models/5414/pastel-mix-stylized-anime-model
線がはっきりしている。V1からV3まである。
https://civitai.com/models/18616?modelVersionId=28816
ちびキャラ https://civitai.com/models/50696
VAEについて
https://civitai.com/models/276082/vae-ft-mse-840000-ema-pruned-or-840000-or-840k-sd15-vae
主に生成した画像を鮮明にする効果がある。
models\VAE以下にファイルを配置したあとに上のタブのSettings→VAEから設定可能。
汎用的なものやモデルに合わせて最適化されたVAEが用意されているらしい。
プロンプト例
自前で用意するよりもChatGPT等に出力させたほうが相性がいい。 プロンプトを頑張るよりも出したい絵に合わせてモデルを用意するのが良さそう。
(anime style, masterpiece, best quality, highres:1.2), (fantasy, dramatic lighting:1.1), BREAK,
a (fantasy knight:1.3) with (blue hair:1.2) and (blue eyes:1.2), a (beautiful androgynous warrior:1.3) in (full plate armor:1.3), (slender yet strong build:1.2), (masculine and feminine features blended seamlessly:1.3), (mysterious aura:1.2), (crossdressing:1.1), (melancholic expression:1.3), (dark circles under eyes:1.2), BREAK,
a dimly lit battlefield with mist rising from the ground, (ruins of a castle:1.1) in the distance, (dark clouds looming overhead:1.2), (soft moonlight shining through gaps in the clouds:1.3), BREAK,
(metallic reflections:1.2), (worn-out armor with scratches and dents:1.2), (cold breeze rustling the cloak:1.1), (subtle rain droplets on armor:1.1), (mysterious and melancholic atmosphere:1.3), (tired yet determined gaze:1.2), (sharp jawline, defined cheekbones, delicate yet chiseled face:1.3), (low ponytail or short tousled hair:1.1), BREAK,
<lora:more_details:1.0>,
上記のようなプロンプトが見られる。
ざっくり以下のようなニュアンス。
(スタイル関連タグ1, スタイル関連タグ2:重み, ...), (品質関連タグ1:重み), BREAK,
[被写体の説明(メイン)],
[被写体の追加要素(髪型, 服装など)],
BREAK,
[背景・環境の説明],
BREAK,
[エフェクト・ディテール(光やアイテムなど)],
BREAK,
<lora:追加モデル1:強度>,
<lora:追加モデル2:強度>,
要素を括弧で括って重み付けを行っている。
BREAKは区切りとして用いられる。
最後のloraは追加学習分を呼び出す目的で使用される。
生成用のGPTsを以下に用意している。
https://chatgpt.com/g/g-67bc23a1381481918cf9c50bd82e8c7f-imesihuronhutosienereta
ネガティブプロンプト
EasyNegative, bad-hands-5, low quality
Loraの適用
既存モデルに対して線画スタイルを取り入れてみる。
以下をmodels\Loraへ配置する。
https://civitai.com/models/16014?modelVersionId=28907
プロンプトへ以下を追加。
<lora:animeoutlineV4_16:1>
以上。