Arte AI al Confine: Rapporto di Progresso sullo Sviluppo di Txt2Img

Eva Wong

IceWhale author

Eva Wong è la Technical Writer e smanettatrice residente di ZimaSpace. Una geek da sempre con una passione per homelab e software open-source, si specializza nel tradurre concetti tecnici complessi in guide accessibili e pratiche. Eva crede che l'auto-ospitare debba essere divertente, non intimidatorio. Attraverso i suoi tutorial, dà potere alla comunità di demistificare le configurazioni hardware, dalla costruzione del loro primo NAS al dominio dei container Docker.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Poiché Midjourney è stato ampiamente testato dal pubblico, sono stati identificati alcuni problemi con le immagini generate dall’IA, dalla sensazione di meraviglia al fatto che le immagini generate da Midjourney tendono solitamente ad avere uno stile simile, che potresti definire “cremoso” e troppo omogeneo, e che Midjourney non offre la possibilità di mantenere private le immagini: se sei un utente gratuito, le tue immagini saranno visibili alla comunità, mentre se sei un utente a pagamento, non puoi escludere la possibilità che le tue immagini vengano “rubate” per altri scopi.

Stable Diffusion proviene da un ecosistema open source e, grazie alla combinazione delle capacità di plug-in e alla creatività degli utenti, possono essere esplorati più scenari applicativi. Non ti accontenterai di generare semplicemente un’immagine da una descrizione come con Midjourney, ma la tratterai come un designer di stile, ed è qui che iniziano le cose divertenti e preziose.

Nella comunità, potrai esplorare molti modelli altamente stilizzati, come ChilloutMix per lo stile manga giapponese, MoXin per lo stile inchiostro cinese, e persino modelli che imitano il volto di una star del cinema. Puoi caricare questi modelli di addestramento per generare immagini con un grado di personalizzazione più elevato. Quando si arriverà davvero alla fase di disponibilità commerciale, penso che il mercato si sposterà da Midjourney a Stable Diffusion.

Di cosa hai bisogno se vuoi auto-ospitare un ambiente Stable Diffusion?

Preparazione hardware

1. Un computer WindowsPreferibilmente un computer Windows, i Mac potrebbero incontrare più difficoltà con i driver della scheda grafica. 2. Una GPU NV con almeno 6GBSe vuoi fare training, almeno 12GB di memoria video.

3. Memoria RAM superiore a 16GB8GB di RAM vanno bene, ma è difficile caricare i modelli eccellenti della comunità.

1. Installa l’ambiente Python. Durante l’installazione, assicurati che sia selezionata l’opzione Aggiungi Python al PATH.

2. Installa l’ambiente git.

3. Nel CMD, esegui il seguente comando per scaricare stable-diffusion: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Avvia l’interfaccia web di stable-diffusionUsa il file manager per trovare il file webui-user.bat scaricato ed eseguilo senza privilegi di amministratore.

5. Segui le istruzioni del passaggio precedente per aprire l’indirizzo IP, e l’interfaccia utente verrà visualizzata – Se ci sono errori nei passaggi precedenti, puoi chiedere a GPT di aiutarti a risolverli.

Progetta un piccolo obiettivo – alcune immagini per addestrare un piccolo modello

Alcuni concetti importanti da comprendere

modello principale

– Il modello principale che influenza lo stile di output, puoi usare il modello originale v1.5 illustrato

– Puoi scegliere un download soddisfacente su civitai e posizionarlo nella cartella specificata …/stable-diffusion-webui/models/Stable-diffusion

parola prompt – Inserisci la descrizione testuale dell’immagine che vuoi generare, ad esempio, un padre cinese vissuto che tiene una ciotola di riso, Caratteristiche speciali

Passi di campionamento – In generale, più alto è il numero di passi, più raffinata sarà l’immagine, ma più lungo sarà il tempo di attesa. Di solito lo imposto tra 20 e 40.

Lunghezza e larghezza – 512×512 è una dimensione ragionevole, se hai esigenze particolari per il rapporto dell’immagine, puoi modificarlo

Genera – Clicca il pulsante genera per eseguire la generazione, se non sei soddisfatto al primo tentativo, prova più volte

semi (seeds) – Se pensi che la composizione generata sia buona, puoi continuare a usare questo seed nella generazione successiva salvando l’immagine sottostante.

Opzioni avanzate

Extra – Seleziona questa casella per aprire le opzioni estese – L’intensità della differenza può aumentare i dettagli dell’immagine, se pensi che l’immagine sia troppo uniforme puoi aumentare questo valore

Collega uno stile al modello – Clicca il pulsante rosso “show extra Networks” sotto il pulsante Genera per espandere il pannello aggiuntivo – I modelli mini possono essere scaricati da civitai, oppure puoi addestrarli tu stesso.

– L’hyper network è più universale, mentre LoRA è più adatto per la generazione di ritratti

– I mini-modelli sono posizionati nella cartella corrispondente sotto models e possono essere visualizzati e selezionati

– Dopo aver selezionato lo “stile”, i parametri dello stile verranno aggiunti al prompt, e i parametri successivi rappresentano la concentrazione

Azioni per raggiungere il mini-obiettivo (addestramento)

1. Prepara il set di addestramento

– Circa 20 immagini sono sufficienti per addestrare un piccolo modello di stile carino – come inizio, 5 immagini con uno stile specifico vanno bene – le dimensioni delle immagini nel set di addestramento devono essere identiche 2. Crea Hypernetwork – Durante l’addestramento, inserisci un nome per creare un hyper network

3. Preprocessa le immagini – In questo passaggio, l’IA genererà prima una descrizione testuale basata sull’immagine di addestramento. – Nelle immagini preprocessate, inserisci l’indirizzo della cartella delle immagini di addestramento e l’indirizzo della cartella di output delle immagini preprocessate. – Modifica le dimensioni delle immagini di addestramento – Se le dimensioni non sono uguali, puoi usare Birme per modificare le dimensioni delle immagini in batch. – Seleziona l’opzione BLIP e clicca il pulsante Preprocessa per eseguire il preprocessing

–attendi il completamento di ogni immagine di addestramento accanto a un file txt, il testo è la descrizione dell’immagine corrispondente –potrebbero esserci imprecisioni nelle descrizioni, puoi modificarle manualmente – L’accuratezza delle descrizioni determina in una certa misura l’efficacia dell’addestramento

4. Addestramento –Durante l’addestramento, seleziona l’Hypernetwork appena creato. 2. –inserisci un learning rate di 0.00005 – All’inizio dell’addestramento 4 zeri sono appropriati, in seguito riduci gradualmente il numero di zeri – inserisci la directory con le descrizioni testuali e le immagini –modifica la dimensione delle immagini –scegli 2000 passi iterativi –In generale, per 2000 passi di addestramento, ci vuole 1 ora con una scheda grafica serie 10 e mezz’ora con una serie 30 –Clicca il pulsante Training Hypernetwork per iniziare l’addestramento

5. Presentazione degli effetti –Dopo l’inizio dell’addestramento, puoi vedere il processo nella finestra di anteprima

–Dopo l’addestramento, puoi trovare il processo in … /stable-diffusion-webui/textual_inversion/date/… e i risultati nella cartella hyper networks –nella cartella images ci sono i risultati del processo di addestramento –Puoi visualizzare le immagini e decidere quale risultato è più appropriato

–nella cartella hyper networks, i file con estensione .pt sono i modelli di stile addestrati – Ad esempio, se pensi che il risultato al passo 1400 sia appropriato, puoi spostare il file pt del passo 1400 in models/hyper networks come stile

–Usa i risultati dell’addestramento per generare immagini –In “txt to img” e “img to img”, seleziona lo stile appena addestrato e genera. –Se lo stile non è abbastanza marcato, puoi aumentare il fattore

–Divertiti!

Ultimi sviluppi appena rilasciati e la mia comprensione

Recentemente Stable Diffusion ha introdotto un nuovo modello chiamato DeepFloyd IF, che migliora notevolmente una serie di problemi criticati nel disegno AI. Ad esempio, le immagini generate dall’IA presentano problemi nelle relazioni spaziali, personaggi con più dita sugli arti e l’incapacità di gestire relazioni logiche complesse. Francamente, credo che per l’IA delle immagini il futuro sia dalla parte dell’open source e del deployment privato.

La società umana è diversificata e differente a livello visivo, e strumenti con stili e tendenze specifiche non possono coprire ampiamente. La differenza tra gli esseri umani e le differenze estetiche dipende dai diversi set di addestramento, non c’è differenza tra umani e IA, e il deployment privato dell’addestramento per garantire l’indipendenza estetica, “indipendenza” può ripristinare un grado maggiore di “diversità”.