Sztuka AI na krawędzi: Raport z postępów w rozwoju Txt2Img

Eva Wong

IceWhale author

Eva Wong jest Technicznym pisarzem i stałym majsterkowiczem w ZimaSpace. Całe życie geek z pasją do homelabów i oprogramowania open-source, specjalizuje się w tłumaczeniu skomplikowanych koncepcji technicznych na przystępne, praktyczne przewodniki. Eva wierzy, że samodzielne hostowanie powinno być zabawą, a nie czymś onieśmielającym. Poprzez swoje samouczki umożliwia społeczności rozwiewanie tajemnic konfiguracji sprzętu, od budowy pierwszego NAS po opanowanie kontenerów Docker.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Midjourney, będąc szeroko testowanym przez użytkowników, ujawnił pewne problemy z generowanymi przez AI obrazami – od poczucia zachwytu po fakt, że obrazy zwykle mają podobny, można by powiedzieć „kremowy” i zbyt jednorodny styl. Ponadto, jeśli jesteś darmowym użytkownikiem Midjourney, twoje obrazy są dostępne dla całej społeczności, a jeśli jesteś płatnym użytkownikiem, nie możesz wykluczyć, że twoje obrazy zostaną „ukradzione” do innych celów.

Stable Diffusion pochodzi z ekosystemu open-source i dzięki możliwościom wtyczek oraz kreatywności użytkowników można eksplorować więcej scenariuszy zastosowań. Nie zadowolisz się jedynie generowaniem obrazu na podstawie opisu jak w Midjourney, potraktujesz to jako projektanta stylu, a wtedy zaczyna się prawdziwa zabawa i wartość.

W społeczności znajdziesz wiele wysoce stylizowanych modeli, takich jak ChilloutMix w stylu japońskich mang, MoXin w stylu chińskiego tuszu, a nawet modele imitujące twarze gwiazd filmowych. Możesz załadować te modele treningowe, aby generować obrazy z większym stopniem personalizacji. Gdy technologia naprawdę osiągnie etap dostępności komercyjnej, uważam, że rynek przesunie się z Midjourney na Stable Diffusion.

Co potrzebujesz, aby samodzielnie uruchomić środowisko Stable Diffusion?

Przygotowanie sprzętu

1. Komputer z systemem Windows Najlepiej komputer z Windows, komputery Mac mogą mieć więcej problemów ze sterownikami karty graficznej. 2. Karta graficzna NV z co najmniej 6GB pamięci Jeśli chcesz trenować modele, potrzebujesz co najmniej 12GB pamięci wideo.

3. Pamięć RAM powyżej 16GB 8GB RAM jest możliwe, ale trudno będzie załadować najlepsze modele ze społeczności.

1. Zainstaluj środowisko Python. Podczas instalacji upewnij się, że zaznaczona jest opcja Add Python to PATH.

2. Zainstaluj środowisko git.

3. W CMD uruchom polecenie, aby pobrać stable-diffusion: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Uruchom stable-diffusion web-ui Znajdź w menedżerze plików pobrany plik webui-user.bat i uruchom go bez uprawnień administratora.

5. Postępuj zgodnie z instrukcjami wyświetlanymi w poprzednim kroku, otwórz podany adres IP, a pojawi się interfejs użytkownika. – Jeśli pojawią się błędy, możesz poprosić GPT o pomoc w ich rozwiązaniu.

Wyznacz mały cel – kilka obrazów do wytrenowania małego modelu

Kilka ważnych pojęć, które musisz zrozumieć

model główny

– Główny model wpływający na styl wyjściowy, możesz użyć oryginalnego modelu v1.5 z ilustracji

– Możesz pobrać model, który ci odpowiada, z civitai i umieścić go w określonym folderze …/stable-diffusion-webui/models/Stable-diffusion

prompt (słowo kluczowe) – Wprowadź tekstowy opis obrazu, który chcesz wygenerować, np. „Zniszczony chiński ojciec trzymający miskę ryżu”, cechy szczególne

liczba kroków próbkowania – Zazwyczaj im więcej kroków, tym bardziej dopracowany obraz, ale dłuższy czas oczekiwania. Zwykle ustawiam od 20 do 40.

rozmiar (długość i szerokość) – 512×512 to rozsądny rozmiar, jeśli masz specjalne wymagania co do proporcji, możesz je zmodyfikować

generuj – Kliknij przycisk generuj, aby rozpocząć tworzenie, jeśli nie jesteś zadowolony za pierwszym razem, spróbuj kilka razy

seeds (ziarna) – Jeśli uważasz, że aktualna kompozycja jest dobra, możesz zapisać obraz i użyć tego samego ziarna przy kolejnej generacji.

opcje zaawansowane

Extra – Zaznacz to pole, aby otworzyć rozszerzone opcje – Intensywność różnicy może zwiększyć szczegółowość obrazu, jeśli uważasz, że obraz jest zbyt jednolity, możesz zwiększyć tę wartość

Dołącz styl do modelu – Kliknij czerwony przycisk „show extra Networks” pod przyciskiem Generuj, aby rozwinąć dodatkowy panel – Miniaturki można pobrać z civitai lub wytrenować samodzielnie.

– Hypernetwork jest bardziej uniwersalny, a LoRA lepiej nadaje się do generowania portretów

– Mini-modele umieszcza się w odpowiednim folderze w models i można je wybrać

– Po wybraniu „stylu” parametry stylu zostaną dodane do promptu, a liczba po nim oznacza jego intensywność

Kroki do osiągnięcia małego celu (trening)

1. Przygotuj zestaw treningowy

– około 20 obrazów wystarczy, aby wytrenować ładny mały model stylu – na początek 5 obrazów o konkretnym stylu jest wystarczające – rozmiar obrazów w zestawie treningowym musi być identyczny 2. Utwórz Hypernetwork – Podczas treningu wpisz nazwę, aby utworzyć hypernetwork

3. Wstępne przetwarzanie obrazów – Na tym etapie AI najpierw wygeneruje opis tekstowy na podstawie obrazu treningowego. – W polach wstępnego przetwarzania wpisz ścieżkę do folderu z obrazami treningowymi oraz folderu na wyjściowe obrazy przetworzone. – Zmień proporcje obrazów treningowych – Jeśli rozmiary się różnią, możesz użyć Birme do masowej zmiany rozmiaru obrazów. – Zaznacz opcję BLIP i kliknij przycisk Preprocess, aby rozpocząć przetwarzanie

–czekaj na zakończenie przetwarzania każdego obrazu, obok pojawi się plik txt z opisem odpowiadającego mu obrazu –opisy mogą zawierać błędy, możesz je poprawić ręcznie – dokładność opisów w pewnym stopniu wpływa na skuteczność treningu

4. Trening – W trakcie treningu wybierz utworzony wcześniej Hypernetwork. 2. – ustaw współczynnik uczenia na 0.00005 – na początkowym etapie treningu 4 zera są odpowiednie, w późniejszym etapie stopniowo zmniejszaj ich liczbę – podaj katalog z opisami tekstowymi i obrazami – zmodyfikuj rozmiar obrazów – wybierz 2000 kroków iteracji – Zazwyczaj 2000 kroków treningu zajmuje około 1 godziny na karcie graficznej serii 10 i pół godziny na serii 30 – Kliknij przycisk Training Hypernetwork, aby rozpocząć trening

5. Prezentacja efektów – Po rozpoczęciu treningu możesz obserwować proces w oknie podglądu

– Po treningu znajdziesz wyniki w … /stable-diffusion-webui/textual_inversion/date/… oraz w folderze hyper networks – w folderze images są obrazy z procesu treningowego – Możesz je przeglądać i wybrać odpowiedni wynik treningu

– W folderze hyper networks pliki z rozszerzeniem .pt to wytrenowane modele stylu – Na przykład, jeśli uważasz, że wynik z kroku 1400 jest odpowiedni, możesz przenieść plik pt z kroku 1400 do models/hyper networks jako styl

– Używanie wyników treningu do generowania obrazów – W zakładkach „txt to img” i „img to img” wybierz właśnie wytrenowany styl i generuj. – Jeśli styl jest zbyt słaby, możesz zwiększyć jego siłę

– Baw się dobrze!

Ostatnie nowości i moje przemyślenia

Ostatnio Stable Diffusion wprowadziło nowy model o nazwie DeepFloyd IF, który znacznie poprawia szereg problemów krytykowanych w AI do rysowania. Na przykład problemy z przestrzennymi relacjami na obrazach, postaci z wieloma palcami na kończynach czy niemożność odwzorowania złożonych relacji logicznych. Szczerze mówiąc, uważam, że przyszłość AI do obrazów leży po stronie open source i prywatnego wdrażania.

Społeczeństwo ludzkie jest różnorodne i zróżnicowane na poziomie wizualnym, a narzędzia o określonych stylach i tendencjach nie mogą objąć szerokiego spektrum. Różnice estetyczne między ludźmi wynikają z różnych zestawów treningowych, nie różnią się od różnic między ludźmi a AI, a prywatne wdrożenie treningu zapewnia niezależność estetyki, a „niezależność” może przywrócić większy stopień „różnorodności”.