エッジでのAI芸術：Txt2Img開発進捗報告

Midjourneyは広く一般に試されてきましたが、AI生成画像にはいくつかの問題が指摘されています。驚きの感覚から、Midjourneyが生成する画像は通常「クリーミー」と呼ばれるような同じスタイルに偏りがちで均質すぎること、また無料ユーザーの場合は画像がコミュニティに公開され、有料ユーザーでも画像が他の目的で「盗用」される可能性を排除できないことなどです。

Stable Diffusionはオープンソースの仕組みから生まれ、プラグイン機能とユーザーの創意工夫の組み合わせにより、より多くの応用場面を探求できます。Midjourneyのように単に説明文から画像を生成するだけでは満足せず、スタイルの設計者として扱うことができ、ここから楽しさと価値あることが始まります。

コミュニティでは、日本の漫画風のChilloutMixや中国の水墨画風のMoXin、さらには映画スターの顔を模したモデルなど、多くの高度に様式化されたモデルを探求できます。これらの学習モデルを読み込んで、より高いカスタマイズ度の画像を生成できます。商用利用の段階に本当に進むと、市場の焦点はMidjourneyからStable Diffusionへと移ると考えています。

Stable Diffusion環境を自分で運用したい場合に必要なものは？

ハードウェアの準備

1. WindowsパソコンできればWindowsパソコンが望ましく、Macパソコンはグラフィックカードのドライバーでより多くの困難に直面する可能性があります。2. 6GB以上のNV製GPU学習を行う場合は少なくとも12GBのビデオメモリが必要です。

3. メモリは16GB以上8GBでも動作はしますが、コミュニティの優れたモデルを読み込むのは難しいです。構築過程と注意点。

1. Python環境をインストールインストール時に「PythonをPATHに追加」にチェックが入っていることを確認してください。

2. git環境をインストール

3. CMDで以下のコマンドを実行しstable-diffusionをダウンロードgit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git。

4. stable-diffusionのweb-uiを起動ファイルマネージャーでダウンロードしたwebui-user.batファイルを探し、管理者権限なしで実行します。

5. 前の手順の指示に従いIPアドレスを開くとユーザーインターフェースが表示されます– 上記の手順でエラーがあれば、GPTに助けを求めて問題を解決できます。

小さな目標を設計する – 少数の画像で小さなモデルを学習する

理解すべきいくつかの重要な概念

メインモデル

– 出力スタイルに影響するメインモデルで、イラストの元のv1.5モデルを使えます。

– civitaiで満足のいくダウンロードを選び、指定の場所…/stable-diffusion-webui/models/Stable-diffusionに置きます。

プロンプトワード – 生成したい画像のテキスト説明を入力します。例：「風化した中国の父親が飯碗を持っている」、特別な特徴など。

サンプリングステップ数 – 一般的にステップ数が多いほど精緻になりますが、待ち時間も長くなります。通常は20～40の間に設定します。

縦横サイズ – 512×512が妥当なサイズで、画像比率に特別な要望があれば変更も可能です。

生成 – 生成ボタンを押して実行します。満足できなければ何度か試します。

シード値 – 現在生成された構図が良いと思えば、下の画像保存で次回も同じシードを使えます。

詳細オプション

追加設定 – このチェックボックスをクリックして拡張オプションを開きます。差分強度は画像の細部を増やせます。画像が単調すぎると感じたらこの値を上げてください。

モデルにスタイルを付加 – 生成ボタン下の赤い「show extra Networks」ボタンを押して追加パネルを展開します。ミニモデルはcivitaiからダウンロード可能、または自分で学習もできます。

– ハイパーネットワークは汎用的で、LoRAは人物生成に適しています。

– ミニモデルはmodelsフォルダ内の対応する場所に置き、選択可能です。

– 「スタイル」を選択すると、そのパラメーターがプロンプトに追加され、後の数値は濃度を表します。

小さな目標を達成するための手順（学習）

1. 学習用データセットの準備

– 約20枚の画像で良い小さなスタイルモデルが学習可能です。– 最初は特定のスタイルの5枚でも構いません。– 学習用画像のサイズはすべて同じである必要があります。2. ハイパーネットワークの作成 – 学習時に名前を入力してハイパーネットワークを作成します。

3. 画像の前処理 – この段階でAIは学習画像に基づきテキスト説明を生成します。– 前処理画像欄に学習画像のフォルダと出力先フォルダを入力します。– 学習画像の縦横比を調整します。– サイズが異なる場合はBirmeで一括変更可能です。– BLIPオプションにチェックを入れ、前処理ボタンを押して処理を行います。

–各学習画像の隣にtxtファイルができ、対応画像の説明が記録されます。–説明に誤りがある場合は手動で修正可能です。– 説明の正確さが学習効果に一定の影響を与えます。

4. 学習 – 学習時に先ほど作成したハイパーネットワークを選択します。2. –学習率は0.00005を入力します。– 初期学習では4つのゼロが適切で、後半は徐々に減らします。– テキスト説明と画像のあるディレクトリを入力します。–画像サイズを調整します。–2000回の反復ステップを選びます。–一般的に2000ステップの学習は10シリーズのグラフィックカードで1時間、30シリーズで30分程度かかります。–「Training Hypernetwork」ボタンを押して学習を開始します。

5. 効果の確認 –学習開始後、プレビュー画面で学習の進行状況が見られます。

–学習後、…/stable-diffusion-webui/textual_inversion/date/…に学習結果が保存されます。ハイパーネットワークフォルダに結果があり、画像フォルダには学習過程の成果が入っています。–画像を見てどの学習結果が適切か判断できます。

–ハイパーネットワークフォルダ内の.pt拡張子のファイルが学習スタイルモデルです。– 例えばステップ1400の結果が良ければ、そのptファイルをmodels/hyper networksに移動してスタイルとして使います。

–学習結果を使って画像を生成します。–「txt to img」や「img to img」で先ほど学習したスタイルを選択して生成します。–スタイルが弱い場合は係数を上げてください。

–楽しんでください！

最近の最新動向と私の理解

最近、Stable DiffusionはDeepFloyd IFという新しいモデルを導入し、批判されていたAI絵画の一連の問題を大きく改善しました。例えば、AI生成画像の空間関係の問題、手足に指が多すぎるキャラクター、複雑な論理関係を表現できない点などです。率直に言って、画像AIの未来はオープンソースと個人運用の側にあると信じています。

人間社会は視覚的に多様であり、特定の様式や傾向を持つ道具だけでは広範囲をカバーできません。人間同士の美的感覚の違いは学習セットの違いに起因し、人間とAIの間に差はありません。美的感覚の独立性を保つための個人運用の学習は、「独立性」によりより大きな「多様性」を回復できます。