Midjourneyは多くの人に試されてきたため、AI生成画像にいくつかの問題が指摘されています。例えば、驚きの感覚から、Midjourneyが生成する画像は通常「クリーミー」と呼ばれる同じようなスタイルで均質すぎる傾向があり、またMidjourneyには無料ユーザーの場合、生成した画像がコミュニティ全体に公開されること、有料ユーザーでも画像が他の目的で「盗用」される可能性を排除できないという点です。
Stable Diffusionはオープンソースのエコシステムから生まれ、プラグイン機能とユーザーの創造力の組み合わせにより、より多くの応用シナリオが探求できます。Midjourneyのように単に説明文から画像を生成するだけでは満足せず、スタイルデザイナーとして扱うことができ、ここから楽しさと価値あることが始まります。
コミュニティでは、日本の漫画スタイル向けのChilloutMix、中国の水墨画スタイル向けのMoXin、さらには映画スターの顔を模倣したモデルなど、多くの高度にスタイライズされたモデルを探求できます。これらのトレーニングモデルを読み込んで、よりカスタマイズ度の高い画像を生成できます。商用利用の段階に本格的に進むと、市場の焦点はMidjourneyからStable Diffusionへと移ると考えています。
Stable Diffusion環境をセルフホストしたい場合に必要なものは?
ハードウェアの準備
1. WindowsパソコンできればWindowsパソコンが望ましく、Macはグラフィックカードドライバーでより多くの困難に直面する可能性があります。2. 6GB以上のNV GPUトレーニングを行う場合は少なくとも12GBのビデオメモリが必要です。
3. メモリは16GB以上8GBでも動作しますが、コミュニティの優れたモデルを読み込むのは難しいです。構築プロセスと注意点。
1. Python環境をインストール インストール時に「Add Python to PATH」にチェックを入れてください。
2. git環境をインストール
3. CMDで以下のコマンドを実行してstable-diffusionをダウンロードgit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git。
4. stable-diffusion web-uiを起動ファイルマネージャーでダウンロードしたwebui-user.batファイルを探し、管理者権限なしで実行します。
5. 前のステップの指示に従いIPアドレスを開くとユーザーインターフェースが表示されます– 上記の手順でエラーがあれば、GPTに問題解決を依頼できます。
小さな目標を設定 – 少数の画像で小さなモデルをトレーニング
理解すべき重要な概念

メインモデル
– 出力スタイルに影響するメインモデル。イラストでは元のv1.5モデルを使用できます。
– civitaiで満足のいくダウンロードを選び、指定の場所…/stable-diffusion-webui/models/Stable-diffusionに配置します。
プロンプトワード – 生成したい画像のテキスト説明を入力します。例:「風化した中国の父親がご飯茶碗を持っている」など。
サンプリングステップ – 一般的にステップ数が多いほど精緻になりますが、待ち時間も長くなります。通常は20~40に設定します。
縦横サイズ – 512×512が妥当なサイズです。画像比率に特別な要望があれば変更可能です。
生成 – 生成ボタンをクリックして実行します。満足できなければ何度か試してください。
シード – 現在生成された構図が良いと思ったら、次回の生成で同じシードを使うために画像を保存します。

高度なオプション
Extra – このチェックボックスをクリックして拡張オプションを開きます。差分強度は画像のディテールを増やせます。画像が単調すぎると感じたらこの値を上げてください。

モデルにスタイルを付加 – 生成ボタン下の赤い「show extra Networks」ボタンをクリックして追加パネルを展開します。ミニモデルはcivitaiからダウンロード可能、または自分でトレーニングできます。

– ハイパーネットワークは汎用的で、LoRAはポートレート生成に適しています。

– ミニモデルはmodelsフォルダ内の対応フォルダに配置され、選択可能です。

– 「style」を選択すると、スタイルのパラメータがプロンプトに追加され、その後の数値は濃度を表します。

ミニ目標達成のための操作(トレーニング)
1. トレーニングセットの準備

– 約20枚の画像で良い小さなスタイルモデルをトレーニング可能 – 最初は特定のスタイルの5枚でも十分 – トレーニングセットの画像サイズはすべて同じである必要があります。2. ハイパーネットワークの作成 – トレーニングで名前を入力してハイパーネットワークを作成します。

3. 画像の前処理 – このステップでAIはまずトレーニング画像に基づくテキスト説明を生成します。 – 前処理画像でトレーニング画像のフォルダアドレスと出力前処理画像のフォルダアドレスを入力します。 – トレーニング画像のアスペクト比を修正します。 – サイズが異なる場合はBirmeで一括修正可能です。 – BLIPオプションにチェックを入れ、前処理ボタンをクリックして前処理を実行します。

–各トレーニング画像の隣にtxtファイルが完成するまで待ちます。テキストは対応画像の説明です。–説明に誤りがある場合は手動で修正可能です。 – 説明の正確さはトレーニングの効果にある程度影響します。


4. トレーニング –トレーニングで先ほど作成したハイパーネットワークを選択。 2. –学習率0.00005を入力 – 初期トレーニングでは4つのゼロが適切で、後のトレーニングで徐々に減らします。 – テキスト説明と画像のディレクトリを入力 –画像サイズを修正 –2000回の反復ステップを選択 –一般的に2000ステップのトレーニングは10シリーズのグラフィックカードで1時間、30シリーズで30分かかります。 –「Training Hypernetwork」ボタンをクリックしてトレーニングを開始します。

5. 効果の表示 –トレーニング開始後、プレビューウィンドウでトレーニング過程を確認できます。

–トレーニング後、…/stable-diffusion-webui/textual_inversion/date/にトレーニング過程が保存されます。ハイパーネットワークフォルダにトレーニング結果があります。 –imagesフォルダにはトレーニング過程の画像が保存されています。 –画像を見てどのトレーニング結果が適切か判断できます。

–ハイパーネットワークフォルダ内の.pt拡張子のファイルがトレーニングスタイルモデルです。 – 例えば、1400ステップの結果が良ければ、そのptファイルをmodels/hyper networksに移動してスタイルとして使います。

–トレーニング結果を使って画像を生成 –「txt to img」や「img to img」で先ほどトレーニングしたスタイルを選択して生成します。 –スタイルが弱い場合はファクターを上げてください。

–楽しんでください!
最近の最新動向と私の理解
最近、Stable DiffusionはDeepFloyd IFという新しいモデルを導入し、批判されていたAI描画の一連の問題を大幅に改善しました。例えば、AI生成画像の空間関係の問題、手足に複数の指があるキャラクター、複雑な論理関係を扱えない点などです。率直に言って、画像AIの未来はオープンソースとプライベート展開の側にあると信じています。
人間社会は視覚レベルで多様であり、特定のスタイルや傾向を持つツールだけでは広範囲をカバーできません。人間同士の美的感覚の違いは異なるトレーニングセットによるものであり、人間とAIの間に違いはありません。プライベート展開でトレーニングを行い美的独立性を確保することで、「独立性」がより大きな「多様性」を回復できます。
Zima キャンペーンハブ
もっと読む

ZimaCube ハードウェア仕様の解説:6つのドライブベイ、4つのNVMeスロット、そしてデュアルThunderbolt 4
このZimaCubeのハードウェア分析では、i3 CPU、DDR5メモリ、三層ストレージ、デュアル2.5GbE、Thunderbolt 4、PCIeスロット、NASの柔軟性がクリエイターの実際の使用にどのように役立つかを説明します。

ZimaCubeの7つの巧妙なデザインの工夫
ZimaCubeは仕様書以上の巧妙な工夫が隠されています:銅製のネジ、磁気パネル、交換可能な側面、Thunderbolt 4、PCIeの柔軟性、そして探求する価値のある謎めいたUSB-Cポート。

ZimaCubeの内部:開封から分解まで
完全なZimaCubeの分解により、工具不要のアクセス、6ベイドライブケージ、NVMeおよびDDR5のアップグレードパス、PCIe拡張、ファン設計、そしてNAS愛好家やホームラボユーザー向けの隠れた改造可能性が明らかになりました。
