AI-konst på kanten: Txt2Img utvecklingsrapport

Eva Wong

IceWhale author

Eva Wong är teknisk skribent och fast boende fixare på ZimaSpace. En livslång nörd med en passion för hemma-labb och öppen källkod, hon specialiserar sig på att översätta komplexa tekniska koncept till tillgängliga, praktiska guider. Eva anser att självhosting ska vara roligt, inte skrämmande. Genom sina handledningar ger hon gemenskapen verktygen att avmystifiera hårdvaruinstallationer, från att bygga sin första NAS till att bemästra Docker-containrar.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Eftersom Midjourney har testats och använts brett av allmänheten har vissa problem med AI-genererade bilder identifierats, från en känsla av förundran till det faktum att bilderna som genereras av Midjourney oftast tenderar att ha samma stil, som man kan kalla ”krämig” och för homogen, och att Midjourney inte har någon sekretess. Om du är en gratisanvändare kommer dina bilder att exponeras för resten av communityn, och om du är betalande användare kan du inte utesluta möjligheten att dina bilder blir ”stulna” för andra ändamål.

Stable Diffusion kommer från ett open source-ekosystem, och med kombinationen av plug-in-funktioner och användarnas kreativitet kan fler användningsscenarier utforskas. Du kommer inte att nöja dig med att bara generera en bild utifrån en beskrivning som Midjourney, du kommer att behandla det som en stildesigner, och det är då det roliga och värdefulla börjar.

I communityn kommer du att utforska många högst stiliserade modeller, såsom ChilloutMix för japansk manga-stil, MoXin för kinesisk bläckstil, och till och med modeller som imiterar ansiktet på en filmstjärna. Du kan ladda dessa träningsmodeller för att generera bilder med högre grad av anpassning. När det verkligen når kommersiell tillgänglighet tror jag att marknadens fokus kommer att skifta från Midjourney till Stable Diffusion.

Vad behöver du om du vill självhosta en Stable Diffusion-miljö?

Förberedelser av hårdvara

1. En Windows-dator Helst en Windows-dator, Mac-datorer kan stöta på fler svårigheter med grafikkortsdrivrutiner. 2. Ett NV-grafikkort med mer än 6GB Om du vill träna behöver du minst 12GB videominne.

3. Minne över 16GB 8GB minne fungerar, men det är svårt att ladda de utmärkta modellerna i communityn. Byggprocess och försiktighetsåtgärder.

1. Installera Python-miljön. Under installationen, se till att Lägg till Python i PATH är markerat.

2. Installera git-miljön

3. I CMD, kör följande kommando för att ladda ner stable-diffusion git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Starta stable-diffusion web-ui Använd filhanteraren för att hitta den nedladdade filen webui-user.bat och kör den utan administratörsrättigheter.

5. Följ instruktionen i föregående steg, öppna IP-adressen och användargränssnittet visas – Om det uppstår fel i ovanstående steg kan du be GPT om hjälp att lösa problemet.

Designa ett litet mål – några bilder för att träna en liten modell

Få viktiga begrepp du behöver förstå

huvudmodell

– Huvudmodellen som påverkar utdata-stilen, du kan använda originalmodellen v1.5 i illustrationen

– Du kan välja en nedladdning du är nöjd med på civitai och placera den på den angivna platsen …/stable-diffusion-webui/models/Stable-diffusion

promptord – Ange textbeskrivningen av bilden du vill generera, till exempel En väderbiten kinesisk far som håller en ris-skål, Särskilda egenskaper

Samplingsteg – Generellt gäller att ju fler steg, desto mer detaljerad, men väntetiden blir längre. Vanligtvis sätter jag det mellan 20-40.

Längd och bredd – 512×512 är en rimlig storlek, om du har särskilda krav på bildförhållandet kan du också ändra det

generera – Klicka på generera-knappen för att utföra genereringen, om du inte är nöjd första gången, försök flera gånger

frön – Om du tycker att den nu genererade kompositionen är bra kan du fortsätta använda detta frö i nästa generering genom att spara bilden nedan.

avancerade alternativ

Extra – Klicka i denna kryssruta för att öppna utökade alternativ – Skillnadsintensitet kan öka bildens detaljrikedom, om du tycker att bilden är för enformig kan du öka detta värde

Bifoga stil till modellen – Klicka på den röda knappen ”show extra Networks” under Generera-knappen för att expandera den extra panelen – Miniatyrerna kan laddas ner från civitai, eller så kan du träna dem själv.

– hypernätverk är mer universellt, och LoRA passar bättre för porträttgenerering

– mini-modellerna placeras i motsvarande mapp under models och kan ses och väljas

– efter att ha valt ”stil” läggs stilens parametrar till i prompten, och parametern efter representerar koncentrationen

Åtgärder för att uppnå det lilla målet (träning)

1. Förbered träningssetet

– cirka 20 bilder räcker för att träna en fin liten stilmodell – som start räcker 5 bilder med en specifik stil – storleken på bilderna i träningssetet måste vara identisk 2. Skapa Hypernetwork – Under träningen, ange ett namn för att skapa ett hypernätverk

3. Förbehandla bilderna – I detta steg kommer AI först att generera en textbeskrivning baserat på träningsbilden. – I det förbehandlade fältet fyller du i mappadressen för träningsbilderna och mappadressen för de förbehandlade bilderna. – Ändra bildens storleksförhållande – Om storleken inte är densamma kan du använda Birme för att batch-ändra bildstorleken först. – Markera BLIP-alternativet och klicka på Förbehandla-knappen för att utföra förbehandlingen

–vänta tills varje träningsbild har en tillhörande txt-fil, texten är beskrivningen av motsvarande bild –det kan finnas felaktigheter i beskrivningarna, du kan ändra dem manuellt – Beskrivningarnas noggrannhet avgör till viss del träningsresultatets effektivitet

4. Träning – Under träningen, välj det Hypernetwork du just skapade. 2. –ange inlärningshastighet 0.00005 – Vid initial träning är 4 nollor lämpligt, vid senare träning minskar du gradvis antalet nollor – ange katalogen med textbeskrivningar och bilder –ändra bildstorleken –välj 2000 iterativa steg –Generellt tar 2000 steg träning cirka 1 timme med ett grafikkort i 10-serien och en halvtimme med ett grafikkort i 30-serien –Klicka på knappen Training Hypernetwork för att starta träningen

5. Resultatpresentation –Efter att träningen startat kan du se träningsprocessen i förhandsgranskningsfönstret

–Efter träningen kan du se träningsprocessen i … /stable-diffusion-webui/textual_inversion/date/… Du kan hitta träningsresultaten i hyper networks-mappen –i images-mappen finns resultaten från träningsprocessen –Du kan titta på bilderna och avgöra vilket träningsresultat som är lämpligt

–i hyper networks-mappen är filerna med .pt-suffix träningsstilmodellerna – Om du till exempel tycker att resultatet vid steg 1400 är lämpligt kan du flytta pt-filen från steg 1400 till models/hyper networks som stilen

–Använd träningsresultaten för att generera bilder –I ”txt to img” och ”img to img”, välj den stil du just tränat och generera. –Om stilen inte är tillräckligt stark kan du öka faktorn

–Ha kul!

Senaste nyheter och min förståelse

Stable Diffusion har nyligen introducerat en ny modell kallad DeepFloyd IF, som kraftigt förbättrar en rad problem med den kritiserade AI-ritningen. Till exempel har AI-genererade bilder problem med rumsliga relationer, karaktärer med flera fingrar på sina lemmar och oförmåga att hantera komplexa logiska samband. Ärligt talat tror jag att för bild-AI ligger framtiden på öppen källkod och privat drift.

Människosamhället är mångfacetterat och varierande på visuell nivå, och verktyg med vissa stilar och tendenser kan inte täcka ett stort område. Skillnaden mellan människors estetiska preferenser beror på olika träningsset, det finns ingen skillnad mellan människor och AI, och privat träning för att säkerställa estetisk självständighet kan återställa en större grad av ”mångfald”.