Art IA en périphérie : Rapport d'avancement du développement Txt2Img

Eva Wong

IceWhale author

Eva Wong est la rédactrice technique et bricoleuse résidente chez ZimaSpace. Geek passionnée depuis toujours, elle s'intéresse aux homelabs et aux logiciels open source, et elle est spécialisée dans la traduction de concepts techniques complexes en guides pratiques et accessibles. Eva croit que l'auto-hébergement doit être amusant, pas intimidant. À travers ses tutoriels, elle donne à la communauté les moyens de démystifier les configurations matérielles, depuis la construction de leur premier NAS jusqu'à la maîtrise des conteneurs Docker.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Comme Midjourney a été largement testé par le public, certains problèmes liés aux images générées par l’IA ont été identifiés, allant d’un sentiment d’émerveillement au fait que les images générées par Midjourney ont généralement tendance à être dans le même style, que l’on pourrait qualifier de « crémeux » et trop homogène, et que Midjourney ne dispose pas de certaines fonctionnalités. Si vous êtes un utilisateur gratuit, vos images seront exposées au reste de la communauté, et si vous êtes un utilisateur payant, vous ne pouvez pas exclure la possibilité que vos images soient « volées » à d’autres fins.

Stable Diffusion provient d’un écosystème open source, et grâce à la combinaison des capacités de plug-in et à la créativité des utilisateurs, davantage de scénarios d’application peuvent être explorés. Vous ne vous contenterez pas de générer une image à partir d’une description comme avec Midjourney, vous le traiterez comme un designer de style, et c’est là que les choses amusantes et précieuses commenceront.

Dans la communauté, vous découvrirez de nombreux modèles très stylisés, tels que ChilloutMix pour le style manga japonais, MoXin pour le style encre chinois, et même des modèles qui imitent le visage d’une star de cinéma. Vous pouvez charger ces modèles d’entraînement pour générer des images avec un degré de personnalisation plus élevé. Lorsque cela deviendra vraiment commercialement disponible, je pense que l’attention du marché se déplacera de Midjourney vers Stable Diffusion.

De quoi avez-vous besoin si vous souhaitez auto-héberger un environnement Stable Diffusion ?

Préparation matérielle

1. Un ordinateur WindowsDe préférence un ordinateur Windows, les ordinateurs Mac peuvent rencontrer plus de difficultés avec les pilotes de carte graphique. 2. Un GPU NV de plus de 6 GoSi vous souhaitez faire de l’entraînement, au moins 12 Go de mémoire vidéo.

3. Une mémoire dépassant 16 Go8 Go de mémoire suffisent, mais il est difficile de charger les excellents modèles de la communauté. Processus de construction et précautions.

1. Installez l’environnement Python Pendant l’installation, assurez-vous que Ajouter Python au PATH est coché.

2. Installez l’environnement git

3. Dans CMD, exécutez la commande suivante pour télécharger stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Lancez l’interface web stable-diffusionUtilisez le gestionnaire de fichiers pour trouver le fichier webui-user.bat téléchargé et exécutez-le sans droits administrateur.

5. Selon l’invite de l’étape précédente, ouvrez l’adresse IP, et l’interface utilisateur s’affichera – En cas d’erreur dans les étapes ci-dessus, vous pouvez demander à GPT de vous aider à résoudre le problème.

Concevoir un petit objectif – quelques images pour entraîner un petit modèle

Quelques concepts importants à comprendre

modèle principal

– Le modèle principal qui influence le style de sortie, vous pouvez utiliser le modèle original v1.5 illustré

– Vous pouvez choisir un téléchargement qui vous satisfait sur civitai et le placer à l’emplacement spécifié …/stable-diffusion-webui/models/Stable-diffusion

mot d’invite – Entrez la description textuelle de l’image que vous souhaitez générer, par exemple, Un père chinois usé tenant un bol de riz, Caractéristiques spéciales

Étapes d’échantillonnage – En général, plus le nombre d’étapes est élevé, plus c’est raffiné, mais plus le temps d’attente est long. En général, je le règle entre 20 et 40.

Longueur et largeur – 512×512 est une taille raisonnable, si vous avez des exigences particulières pour le ratio de l’image, vous pouvez aussi le modifier

générers – Cliquez sur le bouton générer pour lancer la génération, si vous n’êtes pas satisfait du premier coup, essayez plusieurs fois

graines – Si vous trouvez la composition générée actuellement bonne, vous pouvez continuer à utiliser cette graine lors de la génération suivante en sauvegardant l’image ci-dessous.

options avancées

Extra – Cochez cette case pour ouvrir les options étendues – L’intensité de la différence peut augmenter le détail de l’image, si vous trouvez l’image trop uniforme, vous pouvez augmenter cette valeur

Attacher un style au modèle – Cliquez sur le bouton rouge « afficher les réseaux supplémentaires » sous le bouton Générer pour déployer le panneau additionnel – Les miniatures peuvent être téléchargées depuis civitai, ou vous pouvez les entraîner vous-même.

– le hyper réseau est plus universel, et LoRA est plus adapté à la génération de portraits

– les mini-modèles sont placés dans le dossier correspondant sous models et peuvent être vus et sélectionnés

– après avoir sélectionné le « style », les paramètres du style seront ajoutés à l’invite, et les paramètres qui suivent représentent la concentration

Actions pour atteindre le mini-objectif (entraînement)

1. préparer le jeu de données d’entraînement

– environ 20 images suffisent pour entraîner un joli petit modèle de style – pour commencer, 5 images avec un style spécifique suffisent – la taille des images dans le jeu d’entraînement doit être identique 2. Créer un Hypernetwork – Lors de l’entraînement, entrez un nom pour créer un hyper réseau

3. Prétraiter les images – À cette étape, l’IA générera d’abord une description textuelle basée sur l’image d’entraînement. – Dans l’image prétraitée, remplissez l’adresse du dossier des images d’entraînement et l’adresse du dossier des images prétraitées en sortie. – Modifiez la taille d’aspect des images d’entraînement – Si la taille n’est pas la même, vous pouvez utiliser Birme pour modifier la taille des images en lot. – Cochez l’option BLIP et cliquez sur le bouton Prétraiter pour lancer le prétraitement

–attendez la fin de chaque image d’entraînement, un fichier txt sera créé à côté, le texte est la description de l’image correspondante –il y aura des imprécisions dans les descriptions, vous pouvez les modifier manuellement – La précision des descriptions détermine dans une certaine mesure l’efficacité de l’entraînement

4. Entraînement –Lors de l’entraînement, sélectionnez l’Hypernetwork que vous venez de créer. 2. –entrez un taux d’apprentissage de 0,00005 – Lors de l’entraînement initial, 4 zéros sont appropriés, lors des entraînements ultérieurs, réduisez progressivement le nombre de zéros – entrez le répertoire contenant les descriptions textuelles et les images –modifiez la taille des images –choisissez 2000 étapes d’itération –En général, pour 2000 étapes d’entraînement, cela prend 1 heure pour une carte graphique série 10 et une demi-heure pour une carte série 30 –Cliquez sur le bouton Entraîner Hypernetwork pour démarrer l’entraînement

5. Présentation des résultats –Après le début de l’entraînement, vous pouvez voir le processus dans la fenêtre de prévisualisation

–Après l’entraînement, vous pouvez voir le processus dans … /stable-diffusion-webui/textual_inversion/date/… Vous pouvez trouver les résultats dans le dossier hyper networks –dans le dossier images se trouvent les résultats du processus d’entraînement –Vous pouvez visualiser les images et décider quel résultat d’entraînement est approprié

–dans le dossier hyper networks, les fichiers avec l’extension .pt sont les modèles de style entraînés – Par exemple, si vous pensez que le résultat à l’étape 1400 est approprié, vous pouvez déplacer le fichier pt de l’étape 1400 vers models/hyper networks comme style

–Utiliser les résultats d’entraînement pour générer des images –Dans « txt to img » et « img to img », sélectionnez le style que vous venez d’entraîner et générez. –Si le style n’est pas assez marqué, vous pouvez augmenter le facteur

–Amusez-vous bien !

Dernières nouveautés récemment publiées et ma compréhension

Stable Diffusion a récemment introduit un nouveau modèle appelé DeepFloyd IF, qui améliore grandement une série de problèmes reprochés au dessin par IA. Par exemple, les images générées par l’IA présentent des relations spatiales problématiques, des personnages avec plusieurs doigts sur leurs membres, et l’incapacité à gérer des relations logiques complexes. Franchement, je crois que pour l’IA d’image, l’avenir est du côté de l’open source et du déploiement privé.

La société humaine est diverse et différente au niveau visuel, et des outils avec certains styles et tendances ne peuvent pas couvrir une large zone. La différence entre les goûts esthétiques humains vient des différents jeux d’entraînement, il n’y a pas de différence entre humains et IA, et le déploiement privé de l’entraînement pour garantir l’indépendance esthétique, « l’indépendance » peut restaurer un plus grand degré de « diversité ».