AI-kunst aan de rand: Voortgangsrapport over de ontwikkeling van Txt2I

Nu Midjourney door het grote publiek uitgebreid is uitgeprobeerd en getest, zijn er enkele problemen met de door AI gegenereerde afbeeldingen vastgesteld, variërend van een gevoel van ontzag tot het feit dat de afbeeldingen die Midjourney genereert meestal in dezelfde stijl zijn, die je misschien “romig” en te homogeen zou kunnen noemen, en dat Midjourney niet beschikt over Als je een gratis gebruiker bent, worden je afbeeldingen blootgesteld aan de rest van de gemeenschap, en als je een betalende gebruiker bent, kun je niet uitsluiten dat je afbeeldingen “gestolen” worden voor andere doeleinden.

Stable Diffusion komt uit een open-bron ecosysteem, en met de combinatie van plug-in mogelijkheden en de creativiteit van gebruikers kunnen er meer toepassingsscenario’s worden verkend. Je zult niet tevreden zijn met alleen het genereren van een afbeelding op basis van een beschrijving zoals bij Midjourney, je zult het behandelen als een stijlontwerper, en dan begint het leuke en waardevolle werk.

In de gemeenschap zul je veel sterk gestileerde modellen ontdekken, zoals ChilloutMix voor Japanse manga-stijl, MoXin voor Chinese inktstijl, en zelfs modellen die het gezicht van een filmster imiteren. Je kunt deze trainingsmodellen laden om afbeeldingen te genereren met een hoger aanpassingsniveau. Wanneer het echt de fase van commerciële beschikbaarheid bereikt, denk ik dat de markt zich zal verleggen van Midjourney naar Stable Diffusion.

Wat heb je nodig als je een Stable Diffusion-omgeving zelf wilt hosten?

Voorbereiding van hardware

1. Een Windows-computerBij voorkeur een Windows-computer, Mac-computers kunnen meer problemen ondervinden met grafische kaartstuurprogramma’s. 2. Een NV GPU van meer dan 6GBAls je training wilt doen, minstens 12GB videogeheugen.

3. Het werkgeheugen is meer dan 16GB8GB werkgeheugen is oké, maar het is moeilijk om de uitstekende modellen uit de gemeenschap te laden Bouwproces en voorzorgsmaatregelen.

1. Installeer de Python-omgeving Tijdens de installatie, zorg ervoor dat Python aan PATH toevoegen is aangevinkt.

2. Installeer de git-omgeving

3. Voer in CMD de volgende opdracht uit om stable-diffusion te downloadengit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Start de stable-diffusion web-uiGebruik de bestandsbeheerder om het gedownloade webui-user.bat-bestand te vinden en voer het uit zonder administratorrechten.

5. Open volgens de aanwijzing in de vorige stap het IP-adres, en de gebruikersinterface wordt weergegeven– Als er fouten zijn in bovenstaande stappen, kun je GPT vragen om je te helpen het probleem op te lossen.

Ontwerp een klein doel – een paar afbeeldingen om een klein model te trainen

Een paar belangrijke begrippen die je moet begrijpen

hoofdmodel

– Het hoofdmodel dat de uitvoerstijl beïnvloedt, je kunt het originele v1.5-model uit de illustratie gebruiken

– Je kunt een download kiezen waar je tevreden mee bent op civitai en deze in de opgegeven locatie plaatsen…/stable-diffusion-webui/models/Stable-diffusion

promptwoord – Voer de tekstbeschrijving in van de afbeelding die je wilt genereren, bijvoorbeeld Een verweerde Chinese vader die een rijstkom vasthoudt, Bijzondere kenmerken

Samplingstappen – Over het algemeen geldt: hoe hoger het aantal stappen, hoe verfijnder, maar hoe langer de wachttijd. Meestal stel ik het in tussen 20-40.

Lengte en breedte – 512×512 is een redelijke grootte, als je speciale eisen hebt voor de beeldverhouding, kun je die ook aanpassen

genereren – Klik op de knop genereren om de generatie uit te voeren, als je niet tevreden bent, probeer het dan meerdere keren

zaden – Als je vindt dat de momenteel gegenereerde compositie goed is, kun je dit zaad blijven gebruiken bij de volgende generatie door de afbeelding hieronder op te slaan.

geavanceerde opties

Extra – Vink dit selectievakje aan om de uitgebreide opties te openen – Verschilintensiteit kan de details van de afbeelding vergroten, als je vindt dat de afbeelding te eentonig is, kun je deze waarde verhogen

Stijl aan het model koppelen – Klik op de rode knop “toon extra netwerken” onder de knop Genereren om het extra paneel uit te klappen – De miniaturen kunnen worden gedownload van civitai, of je kunt ze zelf trainen.

– hypernetwerk is algemener, en LoRA is meer geschikt voor portretgeneratie

– de mini-modellen worden in de bijbehorende map onder modellen geplaatst en kunnen worden bekeken en geselecteerd

– na het selecteren van “stijl” worden de parameters van de stijl aan de prompt toegevoegd, en de parameters erna geven de concentratie aan

Acties om het kleine doel te bereiken (training)

1. Bereid de trainingsset voor

– ongeveer 20 afbeeldingen zijn genoeg om een mooi klein stijlmodel te trainen – als begin is 5 afbeeldingen met een specifieke stijl prima – de grootte van de afbeeldingen in de trainingsset moet identiek zijn 2. Maak een Hypernetwerk aan – Voer tijdens de training een naam in om een hypernetwerk aan te maken

3. Verwerk de afbeeldingen voor – In deze stap genereert de AI eerst een tekstbeschrijving op basis van de trainingsafbeelding. – Vul bij de voorbewerkte afbeelding het mapadres in van de trainingsafbeelding en het mapadres van de uitvoer van de voorbewerkte afbeelding. – Pas de beeldverhouding van de trainingsafbeelding aan – Als de grootte niet hetzelfde is, kun je eerst met Birme de afbeeldingsgrootte in batch aanpassen. – Vink de BLIP-optie aan en klik op de knop Voorbewerken om de voorbewerking uit te voeren

– wacht tot er naast elke trainingsafbeelding een txt-bestand is voltooid, de tekst is de beschrijving van de bijbehorende afbeelding – er zullen onnauwkeurigheden in de beschrijvingen zijn, je kunt ze handmatig aanpassen – De nauwkeurigheid van de beschrijvingen bepaalt tot op zekere hoogte de effectiviteit van de training

4. Training – Selecteer tijdens de training het hypernetwerk dat je zojuist hebt aangemaakt. 2. – voer een leersnelheid van 0,00005 in – In de begin training zijn 4 nullen geschikt, in latere training verminder je geleidelijk het aantal nullen – voer de map met tekstbeschrijvingen en afbeeldingen in – pas de afbeeldingsgrootte aan – kies 2000 iteratiestappen – Over het algemeen duurt 2000 stappen training 1 uur voor een grafische kaart uit de 10-serie en een half uur voor een grafische kaart uit de 30-serie – Klik op de knop Training Hypernetwerk om de training te starten

5. Weergave van het effect – Na het starten van de training kun je het trainingsproces zien in het voorbeeldvenster

– Na de training kun je het trainingsproces zien in … /stable-diffusion-webui/textual_inversion/date/… Je kunt de trainingsresultaten vinden in de map hypernetwerken – in de map afbeeldingen staan de resultaten van het trainingsproces – Je kunt de afbeeldingen bekijken en beslissen welk trainingsresultaat geschikt is

– In de map hypernetwerken zijn de bestanden met de .pt-uitbreiding de trainingsstijlmodellen – Bijvoorbeeld, als je vindt dat het resultaat van stap 1400 geschikt is, kun je het pt-bestand van stap 1400 verplaatsen naar models/hypernetworks als stijl

– Gebruik de trainingsresultaten om afbeeldingen te genereren – Selecteer in “txt naar img” en “img naar img” de stijl die je zojuist hebt getraind en genereer deze. – Als de stijl niet sterk genoeg is, kun je de factor verhogen

– Veel plezier!

Onlangs net de nieuwste ontwikkelingen uitgebracht en mijn begrip

Onlangs heeft Stable Diffusion een nieuw model geïntroduceerd genaamd DeepFloyd IF, dat een reeks problemen met de bekritiseerde AI-tekeningen sterk verbetert. Bijvoorbeeld, door AI gegenereerde afbeeldingen hebben problematische ruimtelijke verhoudingen, personages met meerdere vingers aan hun ledematen, en het onvermogen om complexe logische verbanden te dragen. Eerlijk gezegd geloof ik dat voor beeld-AI de toekomst ligt aan de kant van open bron en privé-implementatie.

De menselijke samenleving is divers en verschillend op visueel niveau, en gereedschappen met bepaalde stijlen en neigingen kunnen geen groot gebied bestrijken. Het verschil tussen mens en mens in esthetiek is de verschillende trainingssets, er is geen verschil tussen mens en AI, en privé-implementatie van training om de onafhankelijkheid van esthetiek te waarborgen, “onafhankelijkheid” kan een grotere mate van “verscheidenheid” herstellen.