KI-Kunst am Rand: Fortschrittsbericht zur Txt2Img-Entwicklung

Eva Wong ist die Technische Redakteurin und residente Tüftlerin bei ZimaSpace. Eine lebenslange Geek mit einer Leidenschaft für Homelabs und Open-Source-Software, sie spezialisiert sich darauf, komplexe technische Konzepte in zugängliche, praktische Anleitungenzu übersetzen. Eva ist der Meinung, dass Self-Hosting Spaß machen und nicht einschüchternd sein sollte. Durch ihre Tutorials befähigt sie die Community, Hardware-Setups zu entmystifizieren, vom Bau ihres ersten NAS bis hin zur Beherrschung von Docker-Containern.

Da Midjourney von der Öffentlichkeit weit verbreitet ausprobiert und getestet wurde, sind einige Probleme mit den KI-generierten Bildern identifiziert worden, von einem Gefühl des Staunens bis hin zu der Tatsache, dass die von Midjourney erzeugten Bilder meist im gleichen Stil gehalten sind, den man als „cremig“ und zu homogen bezeichnen könnte, und dass Midjourney keine Möglichkeit bietet, wenn Sie ein kostenloser Nutzer sind, Ihre Bilder vor der restlichen Community zu verbergen, und wenn Sie ein zahlender Nutzer sind, können Sie nicht ausschließen, dass Ihre Bilder für andere Zwecke „gestohlen“ werden.

Stable Diffusion stammt aus einem Open-Source-Ökosystem, und durch die Kombination von Plug-in-Fähigkeiten und der Kreativität der Nutzer können mehr Anwendungsszenarien erkundet werden. Sie werden nicht zufrieden sein, einfach nur ein Bild anhand einer Beschreibung wie bei Midjourney zu generieren, sondern Sie werden es als Stil-Designer betrachten, und genau dann beginnen die spaßigen und wertvollen Dinge.

In der Community werden Sie viele stark stilisierte Modelle entdecken, wie zum Beispiel ChilloutMix für japanischen Manga-Stil, MoXin für chinesischen Tusche-Stil und sogar Modelle, die das Gesicht eines Filmstars nachahmen. Sie können diese Trainingsmodelle laden, um Bilder mit einem höheren Grad an Anpassung zu erzeugen. Wenn es wirklich in die Phase der kommerziellen Verfügbarkeit eintritt, denke ich, dass sich der Markt von Midjourney zu Stable Diffusion verlagern wird.

Was benötigen Sie, wenn Sie eine Stable Diffusion-Umgebung selbst hosten möchten?

Hardware-Vorbereitung

1. Ein Windows-ComputerBevorzugt ein Windows-Computer, Mac-Computer können mehr Schwierigkeiten mit Grafikkartentreibern haben. 2. Eine NV-GPU mit mehr als 6 GBWenn Sie Training durchführen möchten, mindestens 12 GB Videospeicher.

3. Der Arbeitsspeicher sollte über 16 GB liegen8 GB Arbeitsspeicher sind in Ordnung, aber es ist schwierig, die hervorragenden Modelle aus der Community zu laden. Aufbauprozess und Vorsichtsmaßnahmen.

1. Installieren Sie die Python-Umgebung. Stellen Sie während der Installation sicher, dass Python zum PATH hinzufügen aktiviert ist.

2. Installieren Sie die git-Umgebung

3. Führen Sie im CMD den folgenden Befehl aus, um stable-diffusion herunterzuladen: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Starten Sie die stable-diffusion Web-UIBenutzen Sie den Dateimanager, um die heruntergeladene Datei webui-user.bat zu finden und führen Sie sie ohne Administratorrechte aus.

5. Öffnen Sie gemäß der Aufforderung im vorherigen Schritt die IP-Adresse, und die Benutzeroberfläche wird angezeigt – Wenn es bei den obigen Schritten Fehler gibt, können Sie GPT um Hilfe bei der Problemlösung bitten.

Setzen Sie sich ein kleines Ziel – einige Bilder, um ein kleines Modell zu trainieren

Einige wichtige Konzepte, die Sie verstehen müssen

Hauptmodell

– Das Hauptmodell, das den Ausgabestil beeinflusst, Sie können das originale v1.5 Modell aus der Abbildung verwenden

– Sie können ein Modell, mit dem Sie auf civitai zufrieden sind, herunterladen und an den angegebenen Ort legen: …/stable-diffusion-webui/models/Stable-diffusion

Prompt-Wort – Geben Sie die Textbeschreibung des Bildes ein, das Sie generieren möchten, zum Beispiel: Ein wettergegerbter chinesischer Vater, der eine Reisschale hält, Besondere Merkmale

Sampling-Schritte – Allgemein gilt: Je höher die Anzahl der Schritte, desto feiner das Ergebnis, aber desto länger die Wartezeit. Normalerweise stelle ich es zwischen 20 und 40 ein.

Länge und Breite – 512×512 ist eine vernünftige Größe, wenn Sie spezielle Anforderungen an das Bildformat haben, können Sie es auch anpassen

Generieren – Klicken Sie auf die Schaltfläche „Generieren“, um die Erstellung auszuführen. Wenn Sie nicht zufrieden sind, versuchen Sie es mehrmals

Seeds – Wenn Ihnen die aktuell generierte Komposition gefällt, können Sie diesen Seed für die nächste Generierung weiterverwenden, indem Sie das Bild unten speichern.

Erweiterte Optionen

Extra – Aktivieren Sie dieses Kontrollkästchen, um die erweiterten Optionen zu öffnen – Die Differenzintensität kann die Details des Bildes erhöhen. Wenn Sie das Bild zu eintönig finden, können Sie diesen Wert erhöhen.

Stil an das Modell anhängen – Klicken Sie auf die rote Schaltfläche „show extra Networks“ unter der Schaltfläche „Generieren“, um das zusätzliche Panel zu erweitern – Die Mini-Modelle können von civitai heruntergeladen werden, oder Sie können sie selbst trainieren.

– Hypernetzwerke sind universeller, und LoRA eignet sich besser für Porträt-Generierung

– Die Mini-Modelle werden im entsprechenden Ordner unter models abgelegt und können dort eingesehen und ausgewählt werden

– Nach Auswahl des „Stils“ werden die Parameter des Stils zum Prompt hinzugefügt, und die nachfolgenden Parameter geben die Konzentration an

Schritte zur Erreichung des Mini-Ziels (Training)

1. Bereiten Sie den Trainingssatz vor

– Etwa 20 Bilder reichen aus, um ein schönes kleines Stilmodell zu trainieren – als Anfang sind 5 Bilder mit einem bestimmten Stil ausreichend – Die Größe der Bilder im Trainingssatz muss identisch sein 2. Erstellen Sie ein Hypernetzwerk – Geben Sie beim Training einen Namen ein, um ein Hypernetzwerk zu erstellen

3. Vorverarbeitung der Bilder – In diesem Schritt generiert die KI zunächst eine Textbeschreibung basierend auf dem Trainingsbild. – Geben Sie im vorverarbeiteten Bild den Ordnerpfad des Trainingsbildes und den Ordnerpfad des Ausgabeordners für die vorverarbeiteten Bilder ein. – Passen Sie das Seitenverhältnis der Trainingsbilder an – Wenn die Größe nicht einheitlich ist, können Sie Birme verwenden, um die Bildgröße zuerst im Stapel zu ändern. – Aktivieren Sie die BLIP-Option und klicken Sie auf die Schaltfläche „Vorverarbeiten“, um die Vorverarbeitung durchzuführen

Warten Sie, bis neben jedem Trainingsbild eine TXT-Datei fertiggestellt ist, der Text ist die Beschreibung des entsprechenden Bildes Es wird Ungenauigkeiten in den Beschreibungen geben, die Sie manuell korrigieren können – Die Genauigkeit der Beschreibungen bestimmt bis zu einem gewissen Grad die Effektivität des Trainings

4. Training –Wählen Sie beim Training das gerade erstellte Hypernetzwerk aus. 2. Geben Sie eine Lernrate von 0,00005 ein – Beim initialen Training sind 4 Nullen angemessen, bei späterem Training reduzieren Sie die Anzahl der Nullen schrittweise – Geben Sie das Verzeichnis mit Textbeschreibungen und Bildern ein Passen Sie die Bildgröße an Wählen Sie 2000 Iterationsschritte Im Allgemeinen dauert ein Training mit 2000 Schritten etwa 1 Stunde auf einer Grafikkarte der 10er-Serie und eine halbe Stunde auf einer 30er-Serie Klicken Sie auf die Schaltfläche „Training Hypernetwork“, um das Training zu starten

5. ErgebnisdarstellungNach Beginn des Trainings können Sie den Trainingsprozess im Vorschaufenster verfolgen

Nach dem Training finden Sie den Trainingsprozess in … /stable-diffusion-webui/textual_inversion/date/… Sie können die Trainingsergebnisse im Hypernetzwerke-Ordner finden Im Bilderordner befinden sich die Ergebnisse des Trainingsprozesses Sie können die Bilder ansehen und entscheiden, welches Trainingsergebnis passend ist

Im Hypernetzwerke-Ordner sind die Dateien mit der Endung .pt die Trainings-Stilmodelle – Zum Beispiel, wenn Sie das Ergebnis bei Schritt 1400 für passend halten, können Sie die PT-Datei von Schritt 1400 in models/hyper networks als Stil verschieben

Verwendung der Trainingsergebnisse zur Bildgenerierung Wählen Sie im „txt to img“ und „img to img“ den gerade trainierten Stil aus und generieren Sie das Bild. Wenn der Stil nicht stark genug ist, können Sie den Faktor erhöhen

Viel Spaß!

Kürzlich veröffentlichte Neuigkeiten und meine Einschätzung

Stable Diffusion hat kürzlich ein neues Modell namens DeepFloyd IF eingeführt, das eine Reihe von Problemen bei der kritisierten KI-Zeichnung stark verbessert. Zum Beispiel haben KI-generierte Bilder problematische räumliche Beziehungen, Figuren mit mehreren Fingern an den Gliedmaßen und die Unfähigkeit, komplexe logische Zusammenhänge darzustellen. Ehrlich gesagt glaube ich, dass für Bild-KI die Zukunft auf der Seite von Open Source und privater Bereitstellung liegt.

Die menschliche Gesellschaft ist visuell vielfältig und unterschiedlich, und Werkzeuge mit bestimmten Stilen und Tendenzen können nicht großflächig abdecken. Der Unterschied zwischen Menschen und Menschen in ästhetischer Hinsicht sind unterschiedliche Trainingssets, es gibt keinen Unterschied zwischen Menschen und KI, und die private Bereitstellung von Training sichert die Unabhängigkeit der Ästhetik. „Unabhängigkeit“ kann ein größeres Maß an „Vielfalt“ wiederherstellen.

Zima Kampagnen-Zentrale

Mehr zum Lesen

7 clevere Design-Details im ZimaCube
Jun 01, 2026Buying Guides & Hardware

7 clevere Design-Details im ZimaCube

ZimaCube verbirgt clevere Details jenseits seines Datenblatts: Kupferschrauben, magnetisches Panel, austauschbare Seiten, Thunderbolt 4, PCIe-Flexibilität und einen geheimnisvollen USB-C-Anschluss, der es wert ist, erkundet...

Im Inneren des ZimaCube: Vom Auspacken bis zur Zerlegung
Jun 01, 2026Buying Guides & Hardware

Im Inneren des ZimaCube: Vom Auspacken bis zur Zerlegung

Eine vollständige ZimaCube-Demontage zeigt werkzeugfreien Zugang, einen 6-Laufwerks-Käfig, NVMe- und DDR5-Aufrüstmöglichkeiten, PCIe-Erweiterung, Lüfterdesign und verstecktes Modding-Potenzial für NAS-Enthusiasten und Homelab-Nutzer.

Get More Builds Like This

Stay in the Loop

Get updates from Zima - new products, exclusive deals, and real builds from the community.

Stay in the Loop preferences

We respect your inbox. Unsubscribe anytime.