Sztuczna inteligencja w sztuce na krawędzi: Raport z postępów w rozwoju Txt2Img

Eva Wong jest Technicznym Redaktorem oraz stałym majsterkowiczem w ZimaSpace. Życiowa geek z pasją do homelabów i oprogramowania open-source, specjalizuje się w tłumaczeniu złożonych koncepcji technicznych na przystępne, praktyczne przewodniki. Eva wierzy, że self-hosting powinien być zabawą, a nie czymś onieśmielającym. Poprzez swoje tutoriale umożliwia społeczności rozwikłanie konfiguracji sprzętowych, od budowy pierwszego NAS po opanowanie kontenerów Docker.

Ponieważ Midjourney był szeroko testowany przez użytkowników, zidentyfikowano pewne problemy z obrazami generowanymi przez AI, od poczucia zachwytu po fakt, że obrazy generowane przez Midjourney zwykle mają podobny styl, który można nazwać „kremowym” i zbyt jednorodnym, a Midjourney nie oferuje, jeśli jesteś darmowym użytkownikiem, twoje obrazy będą widoczne dla całej społeczności, a jeśli jesteś płatnym użytkownikiem, nie można wykluczyć możliwości, że twoje obrazy zostaną „ukradzione” do innych celów.

Stable Diffusion pochodzi z ekosystemu open-source i dzięki połączeniu możliwości wtyczek oraz kreatywności użytkowników można eksplorować więcej scenariuszy zastosowań. Nie zadowolisz się jedynie generowaniem obrazu na podstawie opisu jak w Midjourney, potraktujesz to jako projektanta stylu, i wtedy zaczynają się zabawne i wartościowe rzeczy.

W społeczności odkryjesz wiele wysoce stylizowanych modeli, takich jak ChilloutMix w stylu japońskiego mangi, MoXin w stylu chińskiego tuszu, a nawet modele imitujące twarz gwiazdy filmowej. Możesz załadować te modele treningowe, aby generować obrazy o wyższym stopniu personalizacji. Gdy technologia naprawdę osiągnie etap dostępności komercyjnej, uważam, że rynek przesunie się z Midjourney na Stable Diffusion.

Czego potrzebujesz, jeśli chcesz samodzielnie uruchomić środowisko Stable Diffusion?

Przygotowanie sprzętu

1. Komputer z WindowsNajlepiej komputer z Windows, komputery Mac mogą napotkać więcej problemów ze sterownikami karty graficznej. 2. Karta graficzna NV z co najmniej 6GB pamięciJeśli chcesz trenować modele, co najmniej 12GB pamięci wideo.

3. Pamięć RAM powyżej 16GB8GB RAM jest możliwe, ale trudno załadować doskonałe modele ze społeczności.

Proces instalacji i środki ostrożności.

1. Zainstaluj środowisko Python. Podczas instalacji upewnij się, że zaznaczona jest opcja Dodaj Python do PATH.

2. Zainstaluj środowisko git.

3. W CMD uruchom następujące polecenie, aby pobrać stable-diffusion:git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Uruchom stable-diffusion web-uiUżyj menedżera plików, aby znaleźć pobrany plik webui-user.bat i uruchom go bez uprawnień administratora.

5. Zgodnie z instrukcjami z poprzedniego kroku, otwórz adres IP, a interfejs użytkownika się wyświetli – jeśli pojawi się błąd w powyższych krokach, możesz poprosić GPT o pomoc w rozwiązaniu problemu.

Wyznacz mały cel – kilka obrazów do wytrenowania małego modelu

Kilka ważnych pojęć, które musisz zrozumieć

model główny

– Główny model wpływający na styl wyjściowy, możesz użyć oryginalnego modelu v1.5 z ilustracji

– Możesz wybrać model do pobrania, który ci odpowiada na civitai i umieścić go w określonym miejscu…/stable-diffusion-webui/models/Stable-diffusion

prompt (słowo kluczowe) – Wprowadź tekstowy opis obrazu, który chcesz wygenerować, na przykład: Zniszczony chiński ojciec trzymający miskę ryżu, cechy szczególne

liczba kroków próbkowania – Ogólnie im więcej kroków, tym bardziej dopracowany obraz, ale dłuższy czas oczekiwania. Zazwyczaj ustawiam to między 20 a 40.

długość i szerokość – 512×512 to rozsądny rozmiar, jeśli masz specjalne wymagania co do proporcji obrazu, możesz je zmodyfikować

generuj – Kliknij przycisk generuj, aby rozpocząć tworzenie, jeśli nie jesteś zadowolony za pierwszym razem, spróbuj kilka razy

seeds (ziarna) – Jeśli uważasz, że aktualnie wygenerowana kompozycja jest dobra, możesz kontynuować używanie tego ziarna przy kolejnych generacjach, zapisując obraz poniżej.

opcje zaawansowane

Extra – Zaznacz to pole, aby otworzyć rozszerzone opcje – Intensywność różnicy może zwiększyć szczegółowość obrazu, jeśli uważasz, że obraz jest zbyt jednolity, możesz zwiększyć tę wartość

Dołącz styl do modelu – Kliknij czerwony przycisk „pokaż dodatkowe sieci” pod przyciskiem Generuj, aby rozwinąć dodatkowy panel – Miniaturki można pobrać z civitai lub wytrenować samodzielnie.

– hyper network jest bardziej uniwersalny, a LoRA bardziej odpowiednia do generowania portretów

– mini modele umieszcza się w odpowiednim folderze w models i można je zobaczyć oraz wybrać

– po wybraniu „stylu” parametry stylu zostaną dodane do promptu, a parametry po nim oznaczają koncentrację

Akcje do osiągnięcia mini-celu (trening)

1. Przygotuj zestaw treningowy

– około 20 obrazów wystarczy, aby wytrenować ładny mały model stylu – na początek 5 obrazów o określonym stylu jest wystarczające – rozmiar obrazów w zestawie treningowym musi być identyczny 2. Utwórz Hypernetwork – Podczas treningu wpisz nazwę, aby utworzyć hyper sieć

3. Wstępne przetwarzanie obrazów – Na tym etapie AI najpierw wygeneruje opis tekstowy na podstawie obrazu treningowego. – W polu przetworzonych obrazów wpisz ścieżkę do folderu z obrazami treningowymi oraz folderu na wyjściowe obrazy przetworzone. – Zmień proporcje obrazów treningowych – jeśli rozmiary się różnią, możesz użyć Birme do masowej zmiany rozmiaru obrazów. – Zaznacz opcję BLIP i kliknij przycisk Przetwórz, aby wykonać wstępne przetwarzanie

czekaj na zakończenie przetwarzania każdego obrazu treningowego, obok pojawi się plik txt z opisem odpowiadającego obrazu opisy mogą zawierać niedokładności, możesz je poprawić ręcznie – dokładność opisów w pewnym stopniu decyduje o skuteczności treningu

4. Trening –Podczas treningu wybierz Hypernetwork, który właśnie utworzyłeś. 2. wprowadź współczynnik uczenia 0.00005 – na początkowym etapie treningu 4 zera są odpowiednie, w późniejszym treningu stopniowo zmniejszaj ich liczbę – wprowadź katalog z opisami tekstowymi i obrazami zmodyfikuj rozmiar obrazów wybierz 2000 kroków iteracji Ogólnie rzecz biorąc, 2000 kroków treningu zajmuje około 1 godziny na karcie graficznej serii 10 i pół godziny na karcie serii 30 Kliknij przycisk Trenuj Hypernetwork, aby rozpocząć trening

5. Prezentacja efektówPo rozpoczęciu treningu możesz obserwować proces w oknie podglądu

Po treningu możesz znaleźć proces treningowy w … /stable-diffusion-webui/textual_inversion/date/… Możesz znaleźć wyniki treningu w folderze hyper networks w folderze images znajdują się wyniki procesu treningowego Możesz przeglądać obrazy i zdecydować, który wynik treningu jest odpowiedni

w folderze hyper networks pliki z rozszerzeniem .pt to modele stylu treningowego – Na przykład, jeśli uważasz, że wynik z kroku 1400 jest odpowiedni, możesz przenieść plik pt z kroku 1400 do models/hyper networks jako styl

Używanie wyników treningu do generowania obrazów W zakładkach „txt to img” i „img to img” wybierz styl, który właśnie wytrenowałeś i generuj. Jeśli styl nie jest wystarczająco wyraźny, możesz zwiększyć współczynnik

Baw się dobrze!

Niedawno wydane najnowsze osiągnięcia i moje przemyślenia

Niedawno Stable Diffusion wprowadziło nowy model o nazwie DeepFloyd IF, który znacznie poprawia szereg problemów krytykowanych w rysowaniu AI. Na przykład obrazy generowane przez AI miały problematyczne relacje przestrzenne, postacie z wieloma palcami na kończynach oraz brak możliwości przenoszenia złożonych relacji logicznych. Szczerze mówiąc, uważam, że przyszłość AI obrazów leży po stronie open source i prywatnego wdrożenia.

Społeczeństwo ludzkie jest różnorodne i odmienne na poziomie wizualnym, a narzędzia o określonych stylach i tendencjach nie mogą objąć szerokiego zakresu. Różnice estetyczne między ludźmi wynikają z różnych zestawów treningowych, nie ma różnicy między ludźmi a AI, a prywatne wdrożenie treningu zapewnia niezależność estetyki, „niezależność” może przywrócić większy stopień „różnorodności”.

Centrum Kampanii Zima

Więcej do przeczytania

7 sprytnych detali konstrukcyjnych w ZimaCube
Jun 01, 2026Buying Guides & Hardware

7 sprytnych detali konstrukcyjnych w ZimaCube

ZimaCube skrywa sprytne detale poza swoją specyfikacją: miedziane śruby, magnetyczny panel, wymienne boki, Thunderbolt 4, elastyczność PCIe oraz tajemniczy port USB-C, który warto zbadać.

Wewnątrz ZimaCube: od rozpakowania do rozbiórki
Jun 01, 2026Buying Guides & Hardware

Wewnątrz ZimaCube: od rozpakowania do rozbiórki

Pełna rozbiórka ZimaCube ujawnia dostęp bez użycia narzędzi, klatkę na 6 dysków, możliwości rozbudowy NVMe i DDR5, rozszerzenia PCIe, konstrukcję wentylatora oraz ukryty potencjał...

Get More Builds Like This

Stay in the Loop

Get updates from Zima - new products, exclusive deals, and real builds from the community.

Stay in the Loop preferences

We respect your inbox. Unsubscribe anytime.