Arte de IA en el Borde: Informe de Progreso del Desarrollo Txt2Img

Como Midjourney ha sido ampliamente probado por el público, se han identificado algunos problemas con las imágenes generadas por la inteligencia artificial, desde una sensación de asombro hasta el hecho de que las imágenes generadas por Midjourney suelen tender a tener el mismo estilo, que podrías llamar “cremoso” y demasiado homogéneo, y que Midjourney no tiene. Si eres un usuario gratuito, tus imágenes estarán expuestas al resto de la comunidad, y si eres un usuario de pago, no puedes descartar la posibilidad de que tus imágenes sean “robadas” para otros fines.

Stable Diffusion proviene de un ecosistema de código abierto, y con la combinación de capacidades de complementos y la creatividad de los usuarios, se pueden explorar más escenarios de aplicación. No te conformarás con simplemente generar una imagen a partir de una descripción como Midjourney, lo tratarás como un diseñador de estilos, y es entonces cuando comienzan las cosas divertidas y valiosas.

En la comunidad, explorarás muchos modelos altamente estilizados, como ChilloutMix para el estilo de manga japonés, MoXin para el estilo de tinta china, e incluso modelos que imitan el rostro de una estrella de cine. Puedes cargar estos modelos de entrenamiento para generar imágenes con un mayor grado de personalización. Cuando realmente avance a la etapa de disponibilidad comercial, creo que el enfoque del mercado se desplazará de Midjourney a Stable Diffusion.

¿Qué necesitas si quieres alojar por ti mismo un entorno de Stable Diffusion?

Preparación del hardware

1. Una computadora con WindowsPreferiblemente una computadora con Windows, las computadoras Mac pueden encontrar más dificultades con los controladores de la tarjeta gráfica. 2. Una GPU NV superior a 6GBSi quieres hacer entrenamiento, al menos 12GB de memoria de video.

3. La memoria supera los 16GB8GB de memoria está bien, pero es difícil cargar los excelentes modelos en la comunidad Proceso de construcción y precauciones.

1. Instala el entorno de Python Durante la instalación, asegúrate de que Añadir Python al PATH esté marcado.

2. Instala el entorno de git

3. En CMD, ejecuta el siguiente comando para descargar stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Inicia la interfaz web de stable-diffusionUsa el explorador de archivos para encontrar el archivo webui-user.bat descargado y ejecútalo sin privilegios de administrador.

5. Según la indicación del paso anterior, abre la dirección IP, y se mostrará la interfaz de usuario– Si hay algún error en los pasos anteriores, puedes pedir ayuda a GPT para resolver el problema.

Diseña un pequeño objetivo – unas pocas imágenes para entrenar un pequeño modelo

Algunos conceptos importantes que necesitas entender

modelo principal

– El modelo principal que afecta el estilo de salida, puedes usar el modelo original v1.5 en la ilustración

– Puedes elegir una descarga que te satisfaga en civitai y colocarla en la ubicación especificada…/stable-diffusion-webui/models/Stable-diffusion

palabra clave – Ingresa la descripción en texto de la imagen que deseas generar, por ejemplo, Un padre chino envejecido sosteniendo un cuenco de arroz, Características especiales

Pasos de muestreo – En general, mientras mayor sea el número de pasos, más refinada será la imagen, pero mayor será el tiempo de espera. Generalmente, lo configuro entre 20-40.

Longitud y ancho – 512×512 es un tamaño razonable, si tienes requisitos especiales para la proporción de la imagen, también puedes modificarlo

Generars – Haz clic en el botón generar para ejecutar la generación, si no estás satisfecho con el resultado, intenta varias veces

Semillas – Si consideras que la composición generada actualmente es buena, puedes continuar usando esta semilla en la siguiente generación guardando la imagen abajo.

Opciones avanzadas

Extra – Marca esta casilla para abrir las opciones extendidas – La intensidad de diferencia puede aumentar el detalle de la imagen, si consideras que la imagen es demasiado simple puedes aumentar este valor

Adjuntar estilo al modelo – Haz clic en el botón rojo “mostrar redes extra” debajo del botón Generar para expandir el panel adicional – Las miniaturas pueden descargarse de civitai, o puedes entrenarlas tú mismo.

– la red hiper es más universal, y LoRA es más adecuada para la generación de retratos

– los mini-modelos se colocan en la carpeta correspondiente bajo modelos y pueden verse y seleccionarse

– después de seleccionar “estilo”, los parámetros del estilo se añadirán a la palabra clave, y los parámetros posteriores representan la concentración

Acciones para lograr el mini-objetivo (entrenamiento)

1. preparar el conjunto de entrenamiento

– unas 20 imágenes son suficientes para entrenar un pequeño modelo de estilo agradable – como inicio, 5 imágenes con un estilo específico están bien – el tamaño de las imágenes en el conjunto de entrenamiento debe ser idéntico 2. Crear red hiper – En el entrenamiento, ingresa un nombre para crear una red hiper

3. Preprocesar las imágenes – En este paso, la IA primero generará una descripción en texto basada en la imagen de entrenamiento. – En la imagen preprocesada, llena la dirección de la carpeta de la imagen de entrenamiento y la dirección de la carpeta de la imagen preprocesada de salida. – Modifica el tamaño de aspecto de la imagen de entrenamiento – Si el tamaño no es el mismo, puedes usar Birme para modificar el tamaño de las imágenes en lote primero. – Marca la opción BLIP y haz clic en el botón Preprocesar para realizar el preprocesamiento

–espera a que se complete cada imagen de entrenamiento junto a un archivo txt, el texto es la descripción de la imagen correspondiente –habrá inexactitudes en las descripciones, puedes modificarlas manualmente – La precisión de las descripciones determina en cierta medida la efectividad del entrenamiento

4. Entrenamiento –En el entrenamiento, selecciona la red hiper que acabas de crear. 2. –ingresa una tasa de aprendizaje de 0.00005 – En el entrenamiento inicial 4 ceros son apropiados, en el entrenamiento posterior reduce gradualmente el número de ceros – ingresa el directorio con la descripción en texto y las imágenes –modifica el tamaño de la imagen –elige 2000 pasos iterativos –En general, para 2000 pasos de entrenamiento, toma 1 hora para una tarjeta gráfica serie 10 y media hora para una tarjeta gráfica serie 30 –Haz clic en el botón Entrenar red hiper para comenzar el entrenamiento

5. Presentación del efecto –Después de que comience el entrenamiento, puedes ver el proceso de entrenamiento en la ventana de vista previa

–Después del entrenamiento, puedes ver el proceso de entrenamiento en … /stable-diffusion-webui/textual_inversion/date/… Puedes encontrar los resultados del entrenamiento en la carpeta de redes hiper –en la carpeta de imágenes están los resultados del proceso de entrenamiento –Puedes ver las imágenes y decidir qué resultado de entrenamiento es apropiado

–en la carpeta de redes hiper, los archivos con la extensión .pt son los modelos de estilo entrenados – Por ejemplo, si consideras que el resultado del paso 1400 es apropiado, puedes mover el archivo pt del paso 1400 a models/hyper networks como el estilo

–Usar los resultados del entrenamiento para generar imágenes –En “txt a img” y “img a img”, selecciona el estilo que acabas de entrenar y genera la imagen. –Si el estilo no es lo suficientemente fuerte, puedes aumentar el factor

–¡Diviértete!

Recientemente se lanzaron los últimos avances y mi comprensión

Recientemente Stable Diffusion ha introducido un nuevo modelo llamado DeepFloyd IF, que mejora enormemente una serie de problemas criticados en el dibujo con IA. Por ejemplo, las imágenes generadas por IA tienen relaciones espaciales problemáticas, personajes con múltiples dedos en sus extremidades y la incapacidad de manejar relaciones lógicas complejas. Francamente, creo que para la IA de imágenes, el futuro está del lado del código abierto y el despliegue privado.

La sociedad humana es diversa y diferente a nivel visual, y las herramientas con ciertos estilos y tendencias no pueden cubrir un área amplia. La diferencia entre humanos y humanos en cuanto a diferencias estéticas son los diferentes conjuntos de entrenamiento, no hay diferencia entre humanos y IA, y el despliegue privado del entrenamiento para asegurar la independencia estética, la “independencia” puede restaurar un mayor grado de “diversidad”.