Comme Midjourney a été largement testé par le public, certains problèmes liés aux images générées par l’IA ont été identifiés, allant d’un sentiment d’émerveillement au fait que les images générées par Midjourney ont généralement tendance à être dans le même style, que l’on pourrait qualifier de « crémeux » et trop homogène, et que Midjourney ne dispose pas de certaines fonctionnalités. Si vous êtes un utilisateur gratuit, vos images seront exposées au reste de la communauté, et si vous êtes un utilisateur payant, vous ne pouvez pas exclure la possibilité que vos images soient « volées » à d’autres fins.
Stable Diffusion provient d’un écosystème open source, et grâce à la combinaison des capacités de plug-in et à la créativité des utilisateurs, davantage de scénarios d’application peuvent être explorés. Vous ne vous contenterez pas de générer une image à partir d’une description comme avec Midjourney, vous le traiterez comme un designer de style, et c’est là que les choses amusantes et précieuses commenceront.
Dans la communauté, vous découvrirez de nombreux modèles très stylisés, tels que ChilloutMix pour le style manga japonais, MoXin pour le style encre chinois, et même des modèles qui imitent le visage d’une star de cinéma. Vous pouvez charger ces modèles d’entraînement pour générer des images avec un degré de personnalisation plus élevé. Lorsque cela deviendra vraiment commercialement disponible, je pense que l’attention du marché se déplacera de Midjourney vers Stable Diffusion.
De quoi avez-vous besoin si vous souhaitez auto-héberger un environnement Stable Diffusion ?
Préparation matérielle
1. Un ordinateur WindowsDe préférence un ordinateur Windows, les ordinateurs Mac peuvent rencontrer plus de difficultés avec les pilotes de carte graphique. 2. Un GPU NV de plus de 6 GoSi vous souhaitez faire de l’entraînement, au moins 12 Go de mémoire vidéo.
3. Une mémoire dépassant 16 Go8 Go de mémoire suffisent, mais il est difficile de charger les excellents modèles de la communauté. Processus de construction et précautions.
1. Installez l’environnement Python Pendant l’installation, assurez-vous que Ajouter Python au PATH est coché.
2. Installez l’environnement git
3. Dans CMD, exécutez la commande suivante pour télécharger stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.
4. Lancez l’interface web stable-diffusionUtilisez le gestionnaire de fichiers pour trouver le fichier webui-user.bat téléchargé et exécutez-le sans droits administrateur.
5. Selon l’invite de l’étape précédente, ouvrez l’adresse IP, et l’interface utilisateur s’affichera – En cas d’erreur dans les étapes ci-dessus, vous pouvez demander à GPT de vous aider à résoudre le problème.
Concevoir un petit objectif – quelques images pour entraîner un petit modèle
Quelques concepts importants à comprendre

modèle principal
– Le modèle principal qui influence le style de sortie, vous pouvez utiliser le modèle original v1.5 illustré
– Vous pouvez choisir un téléchargement qui vous satisfait sur civitai et le placer à l’emplacement spécifié …/stable-diffusion-webui/models/Stable-diffusion
mot d’invite – Entrez la description textuelle de l’image que vous souhaitez générer, par exemple, Un père chinois usé tenant un bol de riz, Caractéristiques spéciales
Étapes d’échantillonnage – En général, plus le nombre d’étapes est élevé, plus c’est raffiné, mais plus le temps d’attente est long. En général, je le règle entre 20 et 40.
Longueur et largeur – 512×512 est une taille raisonnable, si vous avez des exigences particulières pour le ratio de l’image, vous pouvez aussi le modifier
générers – Cliquez sur le bouton générer pour lancer la génération, si vous n’êtes pas satisfait du premier coup, essayez plusieurs fois
graines – Si vous trouvez la composition générée actuellement bonne, vous pouvez continuer à utiliser cette graine lors de la génération suivante en sauvegardant l’image ci-dessous.

options avancées
Extra – Cochez cette case pour ouvrir les options étendues – L’intensité de la différence peut augmenter le détail de l’image, si vous trouvez l’image trop uniforme, vous pouvez augmenter cette valeur

Attacher un style au modèle – Cliquez sur le bouton rouge « afficher les réseaux supplémentaires » sous le bouton Générer pour déployer le panneau additionnel – Les miniatures peuvent être téléchargées depuis civitai, ou vous pouvez les entraîner vous-même.

– le hyper réseau est plus universel, et LoRA est plus adapté à la génération de portraits

– les mini-modèles sont placés dans le dossier correspondant sous models et peuvent être vus et sélectionnés

– après avoir sélectionné le « style », les paramètres du style seront ajoutés à l’invite, et les paramètres qui suivent représentent la concentration

Actions pour atteindre le mini-objectif (entraînement)
1. préparer le jeu de données d’entraînement

– environ 20 images suffisent pour entraîner un joli petit modèle de style – pour commencer, 5 images avec un style spécifique suffisent – la taille des images dans le jeu d’entraînement doit être identique 2. Créer un Hypernetwork – Lors de l’entraînement, entrez un nom pour créer un hyper réseau

3. Prétraiter les images – À cette étape, l’IA générera d’abord une description textuelle basée sur l’image d’entraînement. – Dans l’image prétraitée, remplissez l’adresse du dossier des images d’entraînement et l’adresse du dossier des images prétraitées en sortie. – Modifiez la taille d’aspect des images d’entraînement – Si la taille n’est pas la même, vous pouvez utiliser Birme pour modifier la taille des images en lot. – Cochez l’option BLIP et cliquez sur le bouton Prétraiter pour lancer le prétraitement

–attendez la fin de chaque image d’entraînement, un fichier txt sera créé à côté, le texte est la description de l’image correspondante –il y aura des imprécisions dans les descriptions, vous pouvez les modifier manuellement – La précision des descriptions détermine dans une certaine mesure l’efficacité de l’entraînement


4. Entraînement –Lors de l’entraînement, sélectionnez l’Hypernetwork que vous venez de créer. 2. –entrez un taux d’apprentissage de 0,00005 – Lors de l’entraînement initial, 4 zéros sont appropriés, lors des entraînements ultérieurs, réduisez progressivement le nombre de zéros – entrez le répertoire contenant les descriptions textuelles et les images –modifiez la taille des images –choisissez 2000 étapes d’itération –En général, pour 2000 étapes d’entraînement, cela prend 1 heure pour une carte graphique série 10 et une demi-heure pour une carte série 30 –Cliquez sur le bouton Entraîner Hypernetwork pour démarrer l’entraînement

5. Présentation des résultats –Après le début de l’entraînement, vous pouvez voir le processus dans la fenêtre de prévisualisation

–Après l’entraînement, vous pouvez voir le processus dans … /stable-diffusion-webui/textual_inversion/date/… Vous pouvez trouver les résultats dans le dossier hyper networks –dans le dossier images se trouvent les résultats du processus d’entraînement –Vous pouvez visualiser les images et décider quel résultat d’entraînement est approprié

–dans le dossier hyper networks, les fichiers avec l’extension .pt sont les modèles de style entraînés – Par exemple, si vous pensez que le résultat à l’étape 1400 est approprié, vous pouvez déplacer le fichier pt de l’étape 1400 vers models/hyper networks comme style

–Utiliser les résultats d’entraînement pour générer des images –Dans « txt to img » et « img to img », sélectionnez le style que vous venez d’entraîner et générez. –Si le style n’est pas assez marqué, vous pouvez augmenter le facteur

–Amusez-vous bien !
Dernières nouveautés récemment publiées et ma compréhension
Stable Diffusion a récemment introduit un nouveau modèle appelé DeepFloyd IF, qui améliore grandement une série de problèmes reprochés au dessin par IA. Par exemple, les images générées par l’IA présentent des relations spatiales problématiques, des personnages avec plusieurs doigts sur leurs membres, et l’incapacité à gérer des relations logiques complexes. Franchement, je crois que pour l’IA d’image, l’avenir est du côté de l’open source et du déploiement privé.
La société humaine est diverse et différente au niveau visuel, et des outils avec certains styles et tendances ne peuvent pas couvrir une large zone. La différence entre les goûts esthétiques humains vient des différents jeux d’entraînement, il n’y a pas de différence entre humains et IA, et le déploiement privé de l’entraînement pour garantir l’indépendance esthétique, « l’indépendance » peut restaurer un plus grand degré de « diversité ».
Centre de campagne Zima
À lire aussi

Pourquoi les ordinateurs monocartes offrent plus de liberté pour les projets de dispositifs NAS DIY
Marre de manquer d’espace ? Un ordinateur monocarte transforme votre laboratoire à domicile en un NAS DIY flexible. Améliorez votre réseau et protégez facilement...

Je ne suis pas ingénieur : pourquoi je suis passé à ZimaOS après un an de frustration avec un NAS DIY
Arrêtez de lutter contre les partages défaillants et les commandes complexes du terminal. Découvrez comment un entrepreneur a abandonné TrueNAS pour une solution NAS...

Comment déployer OpenClaw sur votre serveur domestique : le guide complet 2026
Votre agent IA est-il sans domicile ? Découvrez pourquoi le matériel x86 surpasse le Raspberry Pi pour héberger OpenClaw. Profitez d'une mémoire persistante, d'un...
