KI-Kunst am Rand: Fortschrittsbericht zur Entwicklung von Txt2Img

Da Midjourney von der Öffentlichkeit vielfach erprobt wurde, sind einige Probleme mit den KI-generierten Bildern festgestellt worden, von einem Gefühl des Staunens bis hin zu der Tatsache, dass die von Midjourney erzeugten Bilder meist im gleichen Stil gehalten sind, den man als „cremig“ und zu einheitlich bezeichnen könnte. Außerdem hat Midjourney nicht die Möglichkeit, als kostenloser Nutzer bleiben Ihre Bilder der gesamten Gemeinschaft sichtbar, und als zahlender Nutzer können Sie nicht ausschließen, dass Ihre Bilder für andere Zwecke „gestohlen“ werden.

Stable Diffusion stammt aus einem quelloffenen Ökosystem, und durch die Kombination von Zusatzfunktionen und der Kreativität der Nutzer können mehr Anwendungsmöglichkeiten erschlossen werden. Sie werden sich nicht damit zufriedengeben, einfach nur ein Bild anhand einer Beschreibung wie bei Midjourney zu erzeugen, sondern es als Stilgestalter betrachten, und genau dann beginnt der Spaß und der Wertvolle.

In der Gemeinschaft werden Sie viele stark stilisierte Modelle entdecken, wie zum Beispiel ChilloutMix für den japanischen Manga-Stil, MoXin für den chinesischen Tusche-Stil und sogar Modelle, die das Gesicht eines Filmstars nachahmen. Sie können diese Trainingsmodelle laden, um Bilder mit einem höheren Grad an Anpassung zu erzeugen. Wenn es wirklich in die Phase der kommerziellen Verfügbarkeit gelangt, denke ich, dass sich der Marktfokus von Midjourney zu Stable Diffusion verlagern wird.

Was benötigen Sie, wenn Sie eine Stable Diffusion-Umgebung selbst betreiben wollen?

Vorbereitung der Hardware

1. Ein Windows-RechnerAm besten ein Windows-Rechner, Mac-Computer können mehr Schwierigkeiten mit Grafikkartentreibern haben. 2. Eine NV-Grafikkarte mit mehr als 6 GBWenn Sie trainieren möchten, mindestens 12 GB Videospeicher.

3. Der Arbeitsspeicher sollte über 16 GB liegen8 GB Arbeitsspeicher sind in Ordnung, aber es ist schwierig, die hervorragenden Modelle aus der Gemeinschaft zu laden. Aufbauprozess und Vorsichtsmaßnahmen.

1. Installieren Sie die Python-Umgebung. Achten Sie während der Installation darauf, dass Python zum PATH hinzufügen aktiviert ist.

2. Installieren Sie die git-Umgebung

3. Führen Sie im CMD den folgenden Befehl aus, um stable-diffusion herunterzuladen: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Starten Sie die stable-diffusion Web-OberflächeBenutzen Sie den Dateimanager, um die heruntergeladene Datei webui-user.bat zu finden und führen Sie sie ohne Administratorrechte aus.

5. Öffnen Sie gemäß der Aufforderung im vorherigen Schritt die IP-Adresse, und die Benutzeroberfläche wird angezeigt – Wenn es bei den obigen Schritten Fehler gibt, können Sie GPT um Hilfe bitten.

Setzen Sie sich ein kleines Ziel – einige Bilder, um ein kleines Modell zu trainieren

Einige wichtige Begriffe, die Sie verstehen müssen

Hauptmodell

– Das Hauptmodell, das den Ausgabestil beeinflusst, Sie können das originale v1.5 Modell aus der Abbildung verwenden

– Sie können ein Modell, mit dem Sie auf civitai zufrieden sind, herunterladen und an den angegebenen Ort legen …/stable-diffusion-webui/models/Stable-diffusion

Stichwort – Geben Sie die Textbeschreibung des Bildes ein, das Sie erzeugen möchten, zum Beispiel: Ein wettergegerbter chinesischer Vater, der eine Reisschale hält, besondere Merkmale

Abtastschritte – Allgemein gilt: Je höher die Anzahl der Schritte, desto feiner das Ergebnis, aber desto länger die Wartezeit. Ich stelle es meist zwischen 20 und 40 ein.

Länge und Breite – 512×512 ist eine vernünftige Größe, wenn Sie besondere Anforderungen an das Bildformat haben, können Sie es auch ändern

Generieren – Klicken Sie auf die Schaltfläche „Generieren“, um die Erzeugung auszuführen. Wenn Sie nicht zufrieden sind, versuchen Sie es mehrmals

Samen – Wenn Ihnen die aktuell erzeugte Komposition gefällt, können Sie diesen Samen für die nächste Erzeugung verwenden, indem Sie das Bild unten speichern.

Erweiterte Optionen

Extra – Aktivieren Sie dieses Kontrollkästchen, um die erweiterten Optionen zu öffnen – Die Differenzintensität kann die Details des Bildes erhöhen. Wenn Sie das Bild zu eintönig finden, können Sie diesen Wert erhöhen.

Stil an das Modell anhängen – Klicken Sie auf die rote Schaltfläche „zusätzliche Netzwerke anzeigen“ unter der Schaltfläche „Generieren“, um das zusätzliche Bedienfeld zu erweitern – Die Miniaturmodelle können von civitai heruntergeladen werden, oder Sie können sie selbst trainieren.

– Hypernetzwerke sind universeller, und LoRA eignet sich besser für Porträt-Erzeugung

– Die Mini-Modelle werden im entsprechenden Ordner unter models abgelegt und können dort eingesehen und ausgewählt werden

– Nach Auswahl des „Stils“ werden die Parameter des Stils zum Stichwort hinzugefügt, und die folgenden Parameter geben die Konzentration an

Vorgehen zur Erreichung des kleinen Ziels (Training)

1. Vorbereitung des Trainingssatzes

– Etwa 20 Bilder reichen aus, um ein schönes kleines Stilmodell zu trainieren – als Anfang sind 5 Bilder mit einem bestimmten Stil ausreichend – Die Größe der Bilder im Trainingssatz muss einheitlich sein 2. Erstellen eines Hypernetzwerks – Geben Sie beim Training einen Namen ein, um ein Hypernetzwerk zu erstellen

3. Vorverarbeitung der Bilder – In diesem Schritt erzeugt die KI zunächst eine Textbeschreibung basierend auf dem Trainingsbild. – Geben Sie im vorverarbeiteten Bild den Ordnerpfad des Trainingsbildes und den Ordnerpfad des Ausgabeordners für die vorverarbeiteten Bilder an. – Ändern Sie das Seitenverhältnis der Trainingsbilder – Wenn die Größe nicht einheitlich ist, können Sie mit Birme die Bildgröße zuerst im Stapel ändern. – Aktivieren Sie die BLIP-Option und klicken Sie auf die Schaltfläche „Vorverarbeiten“, um die Vorverarbeitung durchzuführen

–Warten Sie, bis neben jedem Trainingsbild eine txt-Datei fertiggestellt ist, der Text ist die Beschreibung des jeweiligen Bildes –Es wird Ungenauigkeiten in den Beschreibungen geben, die Sie manuell korrigieren können – Die Genauigkeit der Beschreibungen bestimmt bis zu einem gewissen Grad die Wirksamkeit des Trainings

4. Training –Wählen Sie beim Training das gerade erstellte Hypernetzwerk aus. 2. –Geben Sie eine Lernrate von 0,00005 ein – Beim ersten Training sind 4 Nullen angemessen, bei späterem Training reduzieren Sie die Anzahl der Nullen allmählich – Geben Sie das Verzeichnis mit Textbeschreibungen und Bildern ein –Ändern Sie die Bildgröße –Wählen Sie 2000 Wiederholungsschritte –Im Allgemeinen dauert ein Training mit 2000 Schritten etwa 1 Stunde bei einer Grafikkarte der 10er-Serie und eine halbe Stunde bei einer Grafikkarte der 30er-Serie –Klicken Sie auf die Schaltfläche „Hypernetzwerk trainieren“, um das Training zu starten

5. Darstellung der Ergebnisse –Nach Beginn des Trainings können Sie den Trainingsverlauf im Vorschaufenster sehen

–Nach dem Training finden Sie den Trainingsverlauf in … /stable-diffusion-webui/textual_inversion/date/… Sie können die Trainingsergebnisse im Ordner hyper networks finden –Im Bilderordner sind die Ergebnisse des Trainingsprozesses –Sie können die Bilder ansehen und entscheiden, welches Trainingsergebnis passend ist

–Im Ordner hyper networks sind die Dateien mit der Endung .pt die trainierten Stilmodelle – Wenn Sie zum Beispiel das Ergebnis bei Schritt 1400 passend finden, können Sie die pt-Datei von Schritt 1400 in models/hyper networks als Stil verschieben

–Verwenden Sie die Trainingsergebnisse zur Bilderzeugung –Wählen Sie in „txt zu Bild“ und „Bild zu Bild“ den gerade trainierten Stil aus und erzeugen Sie das Bild. –Wenn der Stil nicht stark genug ist, können Sie den Faktor erhöhen

–Viel Vergnügen!

Kürzlich erschienene Neuigkeiten und meine Einschätzung

Kürzlich hat Stable Diffusion ein neues Modell namens DeepFloyd IF vorgestellt, das eine Reihe von Problemen bei der kritisierten KI-Bildzeichnung stark verbessert. Zum Beispiel haben KI-generierte Bilder oft problematische räumliche Beziehungen, Figuren mit mehreren Fingern an Gliedmaßen und die Unfähigkeit, komplexe logische Zusammenhänge darzustellen. Ehrlich gesagt glaube ich, dass für Bild-KI die Zukunft auf der Seite von quelloffener Software und privater Bereitstellung liegt.

Die menschliche Gesellschaft ist vielfältig und unterschiedlich auf visueller Ebene, und Werkzeuge mit bestimmten Stilen und Neigungen können nicht großflächig abdecken. Der Unterschied zwischen Menschen und Menschen in ästhetischer Hinsicht liegt in den unterschiedlichen Trainingssätzen, es gibt keinen Unterschied zwischen Menschen und KI, und die private Bereitstellung von Training zur Sicherung der Unabhängigkeit der Ästhetik kann ein größeres Maß an „Vielfalt“ wiederherstellen.