AI-kunst aan de rand: voortgangsrapport ontwikkeling Txt2Img

Eva Wong is de Technisch Schrijver en vaste knutselaar bij ZimaSpace. Een levenslange geek met een passie voor homelabs en open-source software, ze is gespecialiseerd in het vertalen van complexe technische concepten naar toegankelijke, praktische handleidingen. Eva gelooft dat zelf-hosting leuk moet zijn, niet intimiderend. Met haar tutorials geeft ze de community de kracht om hardware-setup te ontrafelen, van het bouwen van hun eerste NAS tot het beheersen van Docker-containers.

Aangezien Midjourney door het grote publiek uitgebreid is getest, zijn er enkele problemen met de door AI gegenereerde afbeeldingen vastgesteld, variërend van een gevoel van ontzag tot het feit dat de afbeeldingen die door Midjourney worden gegenereerd meestal in dezelfde stijl zijn, die je “romig” en te homogeen zou kunnen noemen, en dat Midjourney niet beschikt over Als je een gratis gebruiker bent, worden je afbeeldingen blootgesteld aan de rest van de community, en als je een betalende gebruiker bent, kun je niet uitsluiten dat je afbeeldingen worden “gestolen” voor andere doeleinden.

Stable Diffusion komt uit een open-source ecosysteem, en met de combinatie van plug-in mogelijkheden en de creativiteit van gebruikers kunnen er meer toepassingsscenario’s worden verkend. Je zult niet tevreden zijn met alleen het genereren van een afbeelding op basis van een beschrijving zoals bij Midjourney, je zult het behandelen als een stijldesigner, en dan begint het leuke en waardevolle werk.

In de community zul je veel sterk gestileerde modellen ontdekken, zoals ChilloutMix voor Japanse manga-stijl, MoXin voor Chinese inktstijl, en zelfs modellen die het gezicht van een filmster imiteren. Je kunt deze trainingsmodellen laden om afbeeldingen te genereren met een hoger aanpassingsniveau. Wanneer het echt commercieel beschikbaar wordt, denk ik dat de focus van de markt zal verschuiven van Midjourney naar Stable Diffusion.

Wat heb je nodig als je een Stable Diffusion-omgeving zelf wilt hosten?

Hardwarevoorbereiding

1. Een Windows-computerBij voorkeur een Windows-computer, Mac-computers kunnen meer problemen ondervinden met grafische kaartdrivers. 2. Een NV GPU van meer dan 6GBAls je training wilt doen, minimaal 12GB videogeheugen.

3. Het geheugen is meer dan 16GB8GB geheugen is oké, maar het is moeilijk om de uitstekende modellen uit de community te laden Bouwproces en voorzorgsmaatregelen.

1. Installeer de Python-omgeving Tijdens de installatie, zorg ervoor dat Python aan PATH toevoegen is aangevinkt.

2. Installeer de git-omgeving

3. Voer in CMD de volgende opdracht uit om stable-diffusion te downloadengit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Start de stable-diffusion web-uiGebruik de bestandsbeheerder om het gedownloade webui-user.bat-bestand te vinden en voer het uit zonder administratorrechten.

5. Open volgens de aanwijzing in de vorige stap het IP-adres, en de gebruikersinterface wordt weergegeven– Als er fouten zijn in bovenstaande stappen, kun je GPT vragen om je te helpen het probleem op te lossen.

Ontwerp een klein doel – een paar afbeeldingen om een klein model te trainen

Een paar belangrijke concepten die je moet begrijpen

hoofdmodel

– Het hoofdmodel dat de outputstijl beïnvloedt, je kunt het originele v1.5-model uit de illustratie gebruiken

– Je kunt een download kiezen waar je tevreden mee bent op civitai en deze op de opgegeven locatie plaatsen…/stable-diffusion-webui/models/Stable-diffusion

promptwoord – Voer de tekstbeschrijving in van de afbeelding die je wilt genereren, bijvoorbeeld Een verweerde Chinese vader die een rijstkom vasthoudt, Speciale kenmerken

Sampling-stappen – Over het algemeen geldt: hoe hoger het aantal stappen, hoe verfijnder, maar hoe langer de wachttijd. Meestal stel ik het in tussen 20-40.

Lengte en breedte – 512×512 is een redelijke grootte, als je speciale eisen hebt voor de beeldverhouding, kun je die ook aanpassen

genereren – Klik op de knop genereren om de generatie uit te voeren, als je niet tevreden bent, probeer het dan een paar keer

zaden – Als je vindt dat de huidige compositie goed is, kun je deze zaadwaarde blijven gebruiken bij de volgende generatie door de afbeelding hieronder op te slaan.

geavanceerde opties

Extra – Vink dit selectievakje aan om de uitgebreide opties te openen – Verschilintensiteit kan de details van de afbeelding vergroten, als je vindt dat de afbeelding te eentonig is, kun je deze waarde verhogen

Stijl aan het model koppelen – Klik op de rode knop “show extra Networks” onder de knop Genereren om het extra paneel uit te klappen – De miniaturen kunnen worden gedownload van civitai, of je kunt ze zelf trainen.

– hypernetwerk is algemener, en LoRA is geschikter voor portretgeneratie

– de mini-modellen worden in de bijbehorende map onder models geplaatst en kunnen worden bekeken en geselecteerd

– na het selecteren van “stijl” worden de parameters van de stijl aan de prompt toegevoegd, en de parameters erna geven de concentratie aan

Acties om het mini-doel te bereiken (training)

1. Bereid de trainingsset voor

– ongeveer 20 afbeeldingen zijn genoeg om een mooi klein stijltje te trainen – als begin is 5 afbeeldingen met een specifieke stijl ook prima – de grootte van de afbeeldingen in de trainingsset moet identiek zijn 2. Maak een Hypernetwork aan – Voer tijdens de training een naam in om een hypernetwerk te creëren

3. Verwerk de afbeeldingen voor – In deze stap genereert de AI eerst een tekstbeschrijving op basis van de trainingsafbeelding. – Vul bij de voorbewerkte afbeelding het mapadres in van de trainingsafbeelding en het mapadres van de output van de voorbewerkte afbeelding. – Pas de beeldverhouding van de trainingsafbeelding aan – Als de grootte niet hetzelfde is, kun je Birme gebruiken om de afbeeldingsgrootte in batch te wijzigen. – Vink de BLIP-optie aan en klik op de knop Voorbewerken om de voorbewerking uit te voeren

wacht tot er naast elke trainingsafbeelding een txt-bestand is voltooid, de tekst is de beschrijving van de bijbehorende afbeelding er zullen onnauwkeurigheden in de beschrijvingen zijn, je kunt ze handmatig aanpassen – De nauwkeurigheid van de beschrijvingen bepaalt tot op zekere hoogte de effectiviteit van de training

4. Training – Selecteer tijdens de training het hypernetwerk dat je zojuist hebt gemaakt. 2. voer een leersnelheid van 0,00005 in – In de beginfase van de training zijn 4 nullen geschikt, in latere training verminder je geleidelijk het aantal nullen – voer de map in met tekstbeschrijvingen en afbeeldingen pas de afbeeldingsgrootte aan kies 2000 iteratiestappen Over het algemeen duurt 2000 stappen training 1 uur voor een grafische kaart uit de 10-serie en een half uur voor een grafische kaart uit de 30-serie Klik op de knop Training Hypernetwork om de training te starten

5. Effectweergave Na het starten van de training kun je het trainingsproces zien in het preview-venster

Na de training kun je het trainingsproces zien in … /stable-diffusion-webui/textual_inversion/date/… Je kunt de trainingsresultaten vinden in de hypernetworks-map in de afbeeldingenmap staan de resultaten van het trainingsproces Je kunt de afbeeldingen bekijken en beslissen welk trainingsresultaat geschikt is

In de hypernetworks-map zijn de bestanden met de .pt-extensie de trainingsstijlmodellen – Bijvoorbeeld, als je vindt dat het resultaat van stap 1400 geschikt is, kun je het pt-bestand van stap 1400 verplaatsen naar models/hypernetworks als stijl

Gebruik de trainingsresultaten om afbeeldingen te genereren Selecteer in “txt naar img” en “img naar img” de stijl die je zojuist hebt getraind en genereer. Als de stijl niet sterk genoeg is, kun je de factor verhogen

Veel plezier!

Recentelijk net de nieuwste ontwikkelingen uitgebracht en mijn begrip

Onlangs heeft Stable Diffusion een nieuw model geïntroduceerd genaamd DeepFloyd IF, dat een reeks problemen met de bekritiseerde AI-tekeningen sterk verbetert. Bijvoorbeeld, AI-gegenereerde afbeeldingen hebben problematische ruimtelijke relaties, personages met meerdere vingers aan hun ledematen, en het onvermogen om complexe logische relaties te dragen. Eerlijk gezegd geloof ik dat voor beeld-AI de toekomst ligt aan de kant van open source en private implementatie.

De menselijke samenleving is divers en verschillend op visueel niveau, en tools met bepaalde stijlen en neigingen kunnen geen groot gebied bestrijken. Het verschil tussen mens en mens in esthetiek is de verschillende trainingssets, er is geen verschil tussen mens en AI, en private implementatie van training om de onafhankelijkheid van esthetiek te waarborgen, “onafhankelijkheid” kan een grotere mate van “diversiteit” herstellen.

Zima Campagne Hub

Meer om te lezen

Get More Builds Like This

Stay in the Loop

Get updates from Zima - new products, exclusive deals, and real builds from the community.

Stay in the Loop preferences

We respect your inbox. Unsubscribe anytime.