Arte AI en el Borde: Informe de Progreso del Desarrollo Txt2Img

Eva Wong es la Redactora Técnica y aficionada residente en ZimaSpace. Una geek de toda la vida con pasión por laboratorios caseros y software de código abierto, se especializa en traducir conceptos técnicos complejos en guías accesibles y prácticas. Eva cree que el autoalojamiento debe ser divertido, no intimidante. A través de sus tutoriales, empodera a la comunidad para desmitificar configuraciones de hardware, desde construir su primer NAS hasta dominar contenedores Docker.

Como Midjourney ha sido ampliamente probado y utilizado por el público, se han identificado algunos problemas con las imágenes generadas por la IA, desde una sensación de asombro hasta el hecho de que las imágenes generadas por Midjourney suelen tender a tener el mismo estilo, que podrías llamar “cremoso” y demasiado homogéneo, y que Midjourney no tiene. Si eres un usuario gratuito, tus imágenes estarán expuestas al resto de la comunidad, y si eres un usuario de pago, no puedes descartar la posibilidad de que tus imágenes sean “robadas” para otros fines.

Stable Diffusion proviene de un ecosistema de código abierto, y con la combinación de capacidades de complementos y la creatividad de los usuarios, se pueden explorar más escenarios de aplicación. No te conformarás con simplemente generar una imagen a partir de una descripción como Midjourney, lo tratarás como un diseñador de estilos, y es entonces cuando comienzan las cosas divertidas y valiosas.

En la comunidad, explorarás muchos modelos altamente estilizados, como ChilloutMix para estilo manga japonés, MoXin para estilo tinta china, e incluso modelos que imitan el rostro de una estrella de cine. Puedes cargar estos modelos de entrenamiento para generar imágenes con un mayor grado de personalización. Cuando realmente avance a la etapa de disponibilidad comercial, creo que el enfoque del mercado se desplazará de Midjourney a Stable Diffusion.

¿Qué necesitas si quieres alojar un entorno de Stable Diffusion por ti mismo?

Preparación de hardware

1. Una computadora con WindowsPreferiblemente una computadora con Windows, las computadoras Mac pueden encontrar más dificultades con los controladores de la tarjeta gráfica. 2. Una GPU NV superior a 6GBSi quieres hacer entrenamiento, al menos 12GB de memoria de video.

3. La memoria supera los 16GB8GB de memoria está bien, pero es difícil cargar los excelentes modelos en la comunidad Proceso de construcción y precauciones.

1. Instala el entorno de Python Durante la instalación, asegúrate de que Añadir Python al PATH esté marcado.

2. Instala el entorno de git

3. En CMD, ejecuta el siguiente comando para descargar stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Inicia la interfaz web de stable-diffusionUsa el explorador de archivos para encontrar el archivo webui-user.bat descargado y ejecútalo sin privilegios de administrador.

5. Según el mensaje en el paso anterior, abre la dirección IP, y se mostrará la interfaz de usuario– Si hay algún error en los pasos anteriores, puedes pedir ayuda a GPT para resolver el problema.

Diseña un pequeño objetivo – unas pocas imágenes para entrenar un pequeño modelo

Algunos conceptos importantes que necesitas entender

modelo principal

– El modelo principal que afecta el estilo de salida, puedes usar el modelo original v1.5 en la ilustración

– Puedes elegir una descarga que te satisfaga en civitai y colocarla en la ubicación especificada…/stable-diffusion-webui/models/Stable-diffusion

palabra clave (prompt) – Ingresa la descripción de texto de la imagen que deseas generar, por ejemplo, Un padre chino envejecido sosteniendo un cuenco de arroz, Características especiales

Pasos de muestreo – En general, a mayor número de pasos, más refinada, pero mayor tiempo de espera. Generalmente, lo configuro entre 20-40.

Longitud y ancho – 512×512 es un tamaño razonable, si tienes requisitos especiales para la proporción de la imagen, también puedes modificarlo

Generars – Haz clic en el botón generar para ejecutar la generación, si no estás satisfecho una vez, intenta varias veces

Semillas (seeds) – Si crees que la composición generada actualmente es buena, puedes continuar usando esta semilla en la siguiente generación guardando la imagen abajo.

Opciones avanzadas

Extra – Marca esta casilla para abrir las opciones extendidas – La intensidad de diferencia puede aumentar el detalle de la imagen, si crees que la imagen es demasiado simple puedes aumentar este valor

Adjuntar estilo al modelo – Haz clic en el botón rojo “mostrar redes extra” debajo del botón Generar para expandir el panel adicional – Las miniaturas pueden descargarse de civitai, o puedes entrenarlas tú mismo.

– La red hiper es más universal, y LoRA es más adecuada para generación de retratos

– Los mini-modelos se colocan en la carpeta correspondiente bajo models y pueden verse y seleccionarse

– Después de seleccionar “estilo”, los parámetros del estilo se añadirán al prompt, y los parámetros posteriores representan la concentración

Acciones para lograr el mini-objetivo (entrenamiento)

1. Prepara el conjunto de entrenamiento

– Unas 20 imágenes son suficientes para entrenar un buen modelo de estilo pequeño – como inicio, 5 imágenes con un estilo específico están bien – el tamaño de las imágenes en el conjunto de entrenamiento debe ser idéntico 2. Crea la red hiper – En el entrenamiento, ingresa un nombre para crear una red hiper

3. Preprocesa las imágenes – En este paso, la IA primero generará una descripción de texto basada en la imagen de entrenamiento. – En la imagen preprocesada, llena la dirección de la carpeta de la imagen de entrenamiento y la dirección de la carpeta de la imagen preprocesada de salida. – Modifica el tamaño de aspecto de la imagen de entrenamiento – Si el tamaño no es el mismo, puedes usar Birme para modificar el tamaño de las imágenes en lote primero. – Marca la opción BLIP y haz clic en el botón Preprocesar para realizar el preprocesamiento

espera a que se complete cada imagen de entrenamiento junto a un archivo txt, el texto es la descripción de la imagen correspondiente habrá inexactitudes en las descripciones, puedes modificarlas manualmente – La precisión de las descripciones determina la efectividad del entrenamiento hasta cierto punto

4. Entrenamiento –En el entrenamiento, selecciona la red hiper que acabas de crear. 2. ingresa una tasa de aprendizaje de 0.00005 – En el entrenamiento inicial 4 ceros son apropiados, en entrenamientos posteriores reduce gradualmente el número de ceros – ingresa el directorio con la descripción de texto e imágenes modifica el tamaño de la imagen elige 2000 pasos iterativos En general, para 2000 pasos de entrenamiento, toma 1 hora para una tarjeta gráfica serie 10 y media hora para una serie 30 Haz clic en el botón Entrenar red hiper para comenzar el entrenamiento

5. Presentación del efectoDespués de que comience el entrenamiento, puedes ver el proceso en la ventana de vista previa

Después del entrenamiento, puedes ver el proceso en … /stable-diffusion-webui/textual_inversion/date/… Puedes encontrar los resultados del entrenamiento en la carpeta hyper networks en la carpeta images están los resultados del proceso de entrenamiento Puedes ver las imágenes y decidir qué resultado de entrenamiento es apropiado

en la carpeta hyper networks, los archivos con la extensión .pt son los modelos de estilo entrenados – Por ejemplo, si crees que el resultado del paso 1400 es apropiado, puedes mover el archivo pt del paso 1400 a models/hyper networks como el estilo

Usando los resultados del entrenamiento para generar imágenes En “txt a img” y “img a img”, selecciona el estilo que acabas de entrenar y genera. Si el estilo no es lo suficientemente fuerte, puedes aumentar el factor

¡Diviértete!

Recientemente se lanzaron los últimos desarrollos y mi comprensión

Recientemente Stable Diffusion ha introducido un nuevo modelo llamado DeepFloyd IF, que mejora enormemente una serie de problemas criticados en el dibujo con IA. Por ejemplo, las imágenes generadas por IA tienen relaciones espaciales problemáticas, personajes con múltiples dedos en sus extremidades y la incapacidad de manejar relaciones lógicas complejas. Francamente, creo que para la IA de imágenes, el futuro está del lado del código abierto y el despliegue privado.

La sociedad humana es diversa y diferente a nivel visual, y las herramientas con ciertos estilos y tendencias no pueden cubrir un área amplia. La diferencia entre humanos y humanos en cuanto a diferencias estéticas son los diferentes conjuntos de entrenamiento, no hay diferencia entre humanos y IA, y el despliegue privado del entrenamiento para asegurar la independencia estética, la “independencia” puede restaurar un mayor grado de “diversidad”.

Centro de Campañas Zima

Más para leer

7 Detalles de diseño ingeniosos en el ZimaCube
Jun 01, 2026Buying Guides & Hardware

7 Detalles de diseño ingeniosos en el ZimaCube

ZimaCube oculta detalles ingeniosos más allá de su hoja de especificaciones: tornillos de cobre, panel magnético, lados intercambiables, Thunderbolt 4, flexibilidad PCIe y un...

Get More Builds Like This

Stay in the Loop

Get updates from Zima - new products, exclusive deals, and real builds from the community.

Stay in the Loop preferences

We respect your inbox. Unsubscribe anytime.