Ponieważ Midjourney był szeroko testowany przez użytkowników, zidentyfikowano pewne problemy z obrazami generowanymi przez AI, od poczucia zachwytu po fakt, że obrazy generowane przez Midjourney zwykle mają podobny styl, który można nazwać „kremowym” i zbyt jednorodnym, a Midjourney nie oferuje, jeśli jesteś darmowym użytkownikiem, twoje obrazy będą widoczne dla całej społeczności, a jeśli jesteś płatnym użytkownikiem, nie można wykluczyć możliwości, że twoje obrazy zostaną „ukradzione” do innych celów.
Stable Diffusion pochodzi z ekosystemu open-source i dzięki połączeniu możliwości wtyczek oraz kreatywności użytkowników można eksplorować więcej scenariuszy zastosowań. Nie zadowolisz się jedynie generowaniem obrazu na podstawie opisu jak w Midjourney, potraktujesz to jako projektanta stylu, i wtedy zaczynają się zabawne i wartościowe rzeczy.
W społeczności odkryjesz wiele wysoce stylizowanych modeli, takich jak ChilloutMix w stylu japońskiego mangi, MoXin w stylu chińskiego tuszu, a nawet modele imitujące twarz gwiazdy filmowej. Możesz załadować te modele treningowe, aby generować obrazy o wyższym stopniu personalizacji. Gdy technologia naprawdę osiągnie etap dostępności komercyjnej, uważam, że rynek przesunie się z Midjourney na Stable Diffusion.
Czego potrzebujesz, jeśli chcesz samodzielnie uruchomić środowisko Stable Diffusion?
Przygotowanie sprzętu
1. Komputer z WindowsNajlepiej komputer z Windows, komputery Mac mogą napotkać więcej problemów ze sterownikami karty graficznej. 2. Karta graficzna NV z co najmniej 6GB pamięciJeśli chcesz trenować modele, co najmniej 12GB pamięci wideo.
3. Pamięć RAM powyżej 16GB8GB RAM jest możliwe, ale trudno załadować doskonałe modele ze społeczności.
Proces instalacji i środki ostrożności.
1. Zainstaluj środowisko Python. Podczas instalacji upewnij się, że zaznaczona jest opcja Dodaj Python do PATH.
2. Zainstaluj środowisko git.
3. W CMD uruchom następujące polecenie, aby pobrać stable-diffusion:git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.
4. Uruchom stable-diffusion web-uiUżyj menedżera plików, aby znaleźć pobrany plik webui-user.bat i uruchom go bez uprawnień administratora.
5. Zgodnie z instrukcjami z poprzedniego kroku, otwórz adres IP, a interfejs użytkownika się wyświetli – jeśli pojawi się błąd w powyższych krokach, możesz poprosić GPT o pomoc w rozwiązaniu problemu.
Wyznacz mały cel – kilka obrazów do wytrenowania małego modelu
Kilka ważnych pojęć, które musisz zrozumieć

model główny
– Główny model wpływający na styl wyjściowy, możesz użyć oryginalnego modelu v1.5 z ilustracji
– Możesz wybrać model do pobrania, który ci odpowiada na civitai i umieścić go w określonym miejscu…/stable-diffusion-webui/models/Stable-diffusion
prompt (słowo kluczowe) – Wprowadź tekstowy opis obrazu, który chcesz wygenerować, na przykład: Zniszczony chiński ojciec trzymający miskę ryżu, cechy szczególne
liczba kroków próbkowania – Ogólnie im więcej kroków, tym bardziej dopracowany obraz, ale dłuższy czas oczekiwania. Zazwyczaj ustawiam to między 20 a 40.
długość i szerokość – 512×512 to rozsądny rozmiar, jeśli masz specjalne wymagania co do proporcji obrazu, możesz je zmodyfikować
generuj – Kliknij przycisk generuj, aby rozpocząć tworzenie, jeśli nie jesteś zadowolony za pierwszym razem, spróbuj kilka razy
seeds (ziarna) – Jeśli uważasz, że aktualnie wygenerowana kompozycja jest dobra, możesz kontynuować używanie tego ziarna przy kolejnych generacjach, zapisując obraz poniżej.

opcje zaawansowane
Extra – Zaznacz to pole, aby otworzyć rozszerzone opcje – Intensywność różnicy może zwiększyć szczegółowość obrazu, jeśli uważasz, że obraz jest zbyt jednolity, możesz zwiększyć tę wartość

Dołącz styl do modelu – Kliknij czerwony przycisk „pokaż dodatkowe sieci” pod przyciskiem Generuj, aby rozwinąć dodatkowy panel – Miniaturki można pobrać z civitai lub wytrenować samodzielnie.

– hyper network jest bardziej uniwersalny, a LoRA bardziej odpowiednia do generowania portretów

– mini modele umieszcza się w odpowiednim folderze w models i można je zobaczyć oraz wybrać

– po wybraniu „stylu” parametry stylu zostaną dodane do promptu, a parametry po nim oznaczają koncentrację

Akcje do osiągnięcia mini-celu (trening)
1. Przygotuj zestaw treningowy

– około 20 obrazów wystarczy, aby wytrenować ładny mały model stylu – na początek 5 obrazów o określonym stylu jest wystarczające – rozmiar obrazów w zestawie treningowym musi być identyczny 2. Utwórz Hypernetwork – Podczas treningu wpisz nazwę, aby utworzyć hyper sieć

3. Wstępne przetwarzanie obrazów – Na tym etapie AI najpierw wygeneruje opis tekstowy na podstawie obrazu treningowego. – W polu przetworzonych obrazów wpisz ścieżkę do folderu z obrazami treningowymi oraz folderu na wyjściowe obrazy przetworzone. – Zmień proporcje obrazów treningowych – jeśli rozmiary się różnią, możesz użyć Birme do masowej zmiany rozmiaru obrazów. – Zaznacz opcję BLIP i kliknij przycisk Przetwórz, aby wykonać wstępne przetwarzanie

–czekaj na zakończenie przetwarzania każdego obrazu treningowego, obok pojawi się plik txt z opisem odpowiadającego obrazu –opisy mogą zawierać niedokładności, możesz je poprawić ręcznie – dokładność opisów w pewnym stopniu decyduje o skuteczności treningu


4. Trening –Podczas treningu wybierz Hypernetwork, który właśnie utworzyłeś. 2. –wprowadź współczynnik uczenia 0.00005 – na początkowym etapie treningu 4 zera są odpowiednie, w późniejszym treningu stopniowo zmniejszaj ich liczbę – wprowadź katalog z opisami tekstowymi i obrazami –zmodyfikuj rozmiar obrazów –wybierz 2000 kroków iteracji –Ogólnie rzecz biorąc, 2000 kroków treningu zajmuje około 1 godziny na karcie graficznej serii 10 i pół godziny na karcie serii 30 –Kliknij przycisk Trenuj Hypernetwork, aby rozpocząć trening

5. Prezentacja efektów –Po rozpoczęciu treningu możesz obserwować proces w oknie podglądu

–Po treningu możesz znaleźć proces treningowy w … /stable-diffusion-webui/textual_inversion/date/… Możesz znaleźć wyniki treningu w folderze hyper networks –w folderze images znajdują się wyniki procesu treningowego –Możesz przeglądać obrazy i zdecydować, który wynik treningu jest odpowiedni

–w folderze hyper networks pliki z rozszerzeniem .pt to modele stylu treningowego – Na przykład, jeśli uważasz, że wynik z kroku 1400 jest odpowiedni, możesz przenieść plik pt z kroku 1400 do models/hyper networks jako styl

–Używanie wyników treningu do generowania obrazów –W zakładkach „txt to img” i „img to img” wybierz styl, który właśnie wytrenowałeś i generuj. –Jeśli styl nie jest wystarczająco wyraźny, możesz zwiększyć współczynnik

–Baw się dobrze!
Niedawno wydane najnowsze osiągnięcia i moje przemyślenia
Niedawno Stable Diffusion wprowadziło nowy model o nazwie DeepFloyd IF, który znacznie poprawia szereg problemów krytykowanych w rysowaniu AI. Na przykład obrazy generowane przez AI miały problematyczne relacje przestrzenne, postacie z wieloma palcami na kończynach oraz brak możliwości przenoszenia złożonych relacji logicznych. Szczerze mówiąc, uważam, że przyszłość AI obrazów leży po stronie open source i prywatnego wdrożenia.
Społeczeństwo ludzkie jest różnorodne i odmienne na poziomie wizualnym, a narzędzia o określonych stylach i tendencjach nie mogą objąć szerokiego zakresu. Różnice estetyczne między ludźmi wynikają z różnych zestawów treningowych, nie ma różnicy między ludźmi a AI, a prywatne wdrożenie treningu zapewnia niezależność estetyki, „niezależność” może przywrócić większy stopień „różnorodności”.
Centrum Kampanii Zima
Więcej do przeczytania

Specyfikacja sprzętu ZimaCube wyjaśniona: 6 zatok na dyski, 4 sloty NVMe i podwójny Thunderbolt 4
Ta analiza sprzętu ZimaCube wyjaśnia, jak jego procesor i3, pamięć DDR5, trójwarstwowa pamięć masowa, podwójne 2,5GbE, Thunderbolt 4, sloty PCIe oraz elastyczność NAS przekładają...

7 sprytnych detali konstrukcyjnych w ZimaCube
ZimaCube skrywa sprytne detale poza swoją specyfikacją: miedziane śruby, magnetyczny panel, wymienne boki, Thunderbolt 4, elastyczność PCIe oraz tajemniczy port USB-C, który warto zbadać.

Wewnątrz ZimaCube: od rozpakowania do rozbiórki
Pełna rozbiórka ZimaCube ujawnia dostęp bez użycia narzędzi, klatkę na 6 dysków, możliwości rozbudowy NVMe i DDR5, rozszerzenia PCIe, konstrukcję wentylatora oraz ukryty potencjał...
