Arte de IA na Borda: Relatório de Progresso do Desenvolvimento Txt2Img

Eva Wong é a Redatora Técnica e entusiasta residente na ZimaSpace. Uma geek de longa data com paixão por homelabs e software de código aberto, ela é especialista em traduzir conceitos técnicos complexos em guias acessíveis e práticos. Eva acredita que a auto-hospedagem deve ser divertida, não intimidante. Através dos seus tutoriais, ela capacita a comunidade a desmistificar configurações de hardware, desde construir o seu primeiro NAS até dominar os contentores Docker.

Como o Midjourney tem sido amplamente testado pelo público, foram identificados alguns problemas com as imagens geradas pela IA, desde uma sensação de admiração até ao facto de que as imagens geradas pelo Midjourney tendem a ter o mesmo estilo, que se pode chamar “cremoso” e demasiado homogéneo, e que o Midjourney não possui. Se for um utilizador gratuito, as suas imagens estarão expostas ao resto da comunidade, e se for um utilizador pago, não pode excluir a possibilidade de que as suas imagens sejam “roubadas” para outros fins.

O Stable Diffusion provém de um ecossistema open-source e, com a combinação das capacidades de plug-in e a criatividade dos utilizadores, podem ser explorados mais cenários de aplicação. Não ficará satisfeito apenas por gerar uma imagem a partir de uma descrição como o Midjourney; irá tratá-lo como um designer de estilos, e é aí que começam as coisas divertidas e valiosas.

Na comunidade, irá explorar muitos modelos altamente estilizados, como ChilloutMix para estilo manga japonês, MoXin para estilo tinta chinesa, e até modelos que imitam o rosto de uma estrela de cinema. Pode carregar estes modelos de treino para gerar imagens com um grau mais elevado de personalização. Quando realmente avançar para a fase de disponibilidade comercial, penso que o foco do mercado mudará do Midjourney para o Stable Diffusion.

O que precisa se quiser alojar localmente um ambiente Stable Diffusion?

Preparação de Hardware

1. Um computador WindowsPreferencialmente um computador Windows, computadores Mac podem encontrar mais dificuldades com os drivers da placa gráfica. 2. Uma GPU NV acima de 6GBSe quiser fazer treino, pelo menos 12GB de memória de vídeo.

3. Memória superior a 16GB8GB de memória é aceitável, mas é difícil carregar os excelentes modelos da comunidade durante o processo de construção, e precauções.

1. Instale o ambiente Python Durante a instalação, certifique-se de que a opção Adicionar Python ao PATH está selecionada.

2. Instale o ambiente git

3. No CMD, execute o seguinte comando para descarregar o stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Inicie a interface web do stable-diffusionUse o gestor de ficheiros para encontrar o ficheiro webui-user.bat descarregado e execute-o sem privilégios de administrador.

5. De acordo com a indicação no passo anterior, abra o endereço IP, e a interface de utilizador será exibida– Se houver algum erro nos passos acima, pode pedir ajuda ao GPT para resolver o problema.

Defina um pequeno objetivo – algumas imagens para treinar um pequeno modelo

Alguns conceitos importantes que precisa de entender

modelo principal

– O modelo principal que afeta o estilo de saída, pode usar o modelo original v1.5 na ilustração

– Pode escolher um download que o satisfaça no civitai e colocá-lo na localização especificada…/stable-diffusion-webui/models/Stable-diffusion

palavra prompt – Insira a descrição em texto da imagem que deseja gerar, por exemplo, Um pai chinês envelhecido segurando uma tigela de arroz, Características Especiais

Passos de amostragem – De modo geral, quanto maior o número de passos, mais refinada a imagem, mas maior o tempo de espera. Normalmente, defino entre 20-40.

Altura e largura – 512×512 é um tamanho razoável, se tiver requisitos especiais para a proporção da imagem, também pode modificá-la

gerars – Clique no botão gerar para executar a geração, se não ficar satisfeito à primeira, tente várias vezes

seeds – Se achar que a composição gerada atualmente está boa, pode continuar a usar esta seed na próxima geração guardando a imagem abaixo.

opções avançadas

Extra – Marque esta caixa para abrir as opções estendidas – A intensidade da diferença pode aumentar o detalhe da imagem, se achar que a imagem está demasiado simples pode aumentar este valor

Anexar estilo ao modelo – Clique no botão vermelho “mostrar redes extra” sob o botão Gerar para expandir o painel adicional – As miniaturas podem ser descarregadas do civitai, ou pode treiná-las você mesmo.

– hyper network é mais universal, e LoRA é mais adequado para geração de retratos

– os mini-modelos são colocados na pasta correspondente dentro de models e podem ser vistos e selecionados

– após selecionar o “estilo”, os parâmetros do estilo serão adicionados ao prompt, e os parâmetros seguintes representam a concentração

Ações para alcançar o mini-objetivo (treino)

1. preparar o conjunto de treino

– cerca de 20 imagens são suficientes para treinar um pequeno modelo de estilo agradável – como início, 5 imagens com um estilo específico são suficientes – o tamanho das imagens no conjunto de treino precisa ser idêntico 2. Criar Hypernetwork – No treino, insira um nome para criar uma hyper network

3. Pré-processar as imagens – Nesta etapa, a IA irá primeiro gerar uma descrição em texto com base na imagem de treino. – Na imagem pré-processada, preencha o endereço da pasta da imagem de treino e o endereço da pasta da imagem pré-processada de saída. – Modifique o tamanho da imagem de treino – Se o tamanho não for igual, pode usar Birme para modificar o tamanho das imagens em lote primeiro. – Marque a opção BLIP e clique no botão Pré-processar para executar o pré-processamento

espere pela conclusão de cada imagem de treino junto a um ficheiro txt, o texto é a descrição da imagem correspondente haverá imprecisões nas descrições, pode modificá-las manualmente – A precisão das descrições determina a eficácia do treino até certo ponto

4. Treino –No treino, selecione a Hypernetwork que acabou de criar. 2. insira a taxa de aprendizagem 0.00005 – No treino inicial 4 zeros são apropriados, no treino posterior reduza gradualmente o número de zeros – insira o diretório com a descrição em texto e imagens modifique o tamanho da imagem escolha 2000 passos iterativos De modo geral, para 2000 passos de treino, demora 1 hora numa placa gráfica série 10 e meia hora numa placa série 30 Clique no botão Treinar Hypernetwork para iniciar o treino

5. Apresentação do efeitoApós o início do treino, pode ver o processo de treino na janela de pré-visualização

Após o treino, pode ver o processo de treino em … /stable-diffusion-webui/textual_inversion/date/… Pode encontrar os resultados do treino na pasta hyper networks na pasta images estão os resultados do processo de treino Pode visualizar as imagens e decidir qual resultado de treino é apropriado

na pasta hyper networks, os ficheiros com a extensão .pt são os modelos de estilo treinados – Por exemplo, se achar que o resultado do passo 1400 é apropriado, pode mover o ficheiro pt do passo 1400 para models/hyper networks como o estilo

Usar os resultados do treino para gerar imagens Em “txt to img” e “img to img”, selecione o estilo que acabou de treinar e gere. Se o estilo não for forte o suficiente, pode aumentar o fator

divirta-se!

Recentemente foram lançados os últimos desenvolvimentos e a minha compreensão

Recentemente, o Stable Diffusion introduziu um novo modelo chamado DeepFloyd IF, que melhora significativamente uma série de problemas criticados no desenho por IA. Por exemplo, imagens geradas por IA têm relações espaciais problemáticas, personagens com múltiplos dedos nos membros e a incapacidade de suportar relações lógicas complexas. Francamente, acredito que para a IA de imagem, o futuro está do lado do open source e do alojamento privado.

A sociedade humana é diversa e diferente ao nível visual, e ferramentas com certos estilos e tendências não conseguem cobrir uma grande área. A diferença entre as diferenças estéticas humanas é o conjunto de treino diferente, não há diferença entre humanos e IA, e o alojamento privado do treino para garantir a independência estética, a “independência” pode restaurar um grau maior de “diversidade”.

Centro de Campanha Zima

Mais para Ler

7 Detalhes de Design Inteligentes no ZimaCube
Jun 01, 2026Buying Guides & Hardware

7 Detalhes de Design Inteligentes no ZimaCube

O ZimaCube esconde detalhes inteligentes para lá da sua ficha técnica: parafusos de cobre, painel magnético, laterais intercambiáveis, Thunderbolt 4, flexibilidade PCIe e uma...

Get More Builds Like This

Stay in the Loop

Get updates from Zima - new products, exclusive deals, and real builds from the community.

Stay in the Loop preferences

We respect your inbox. Unsubscribe anytime.