Arte de IA na Borda: Relatório de Progresso do Desenvolvimento Txt2Img

Eva Wong

IceWhale author

Eva Wong é a Redatora Técnica e e entusiasta residente na ZimaSpace. Uma geek de longa data com paixão por homelabs e software de código aberto, ela é especialista em traduzir conceitos técnicos complexos em guias acessíveis e práticos . Eva acredita que o auto-hospedagem deve ser divertida, não intimidante. Através dos seus tutoriais, ela capacita a comunidade adesmistificar configurações de hardware , desde a construção do seu primeiro NAS até dominar os contêineres Docker., from building their first NAS to mastering Docker containers.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Como o Midjourney tem sido amplamente testado pelo público, foram identificados alguns problemas nas imagens geradas pela IA, desde um sentimento de admiração até o facto de as imagens geradas pelo Midjourney tenderem a ter o mesmo estilo, que se pode chamar de “cremoso” e demasiado homogéneo, e que o Midjourney não oferece privacidade: se for utilizador gratuito, as suas imagens ficam expostas à comunidade, e se for utilizador pago, não pode excluir a possibilidade de as suas imagens serem “roubadas” para outros fins.

O Stable Diffusion provém de um ecossistema open-source e, com a combinação das capacidades de plug-in e a criatividade dos utilizadores, podem ser explorados mais cenários de aplicação. Não ficará satisfeito apenas por gerar uma imagem a partir de uma descrição como no Midjourney; irá tratá-lo como um designer de estilos, e é aí que começam as coisas divertidas e valiosas.

Na comunidade, pode explorar muitos modelos altamente estilizados, como ChilloutMix para estilo manga japonês, MoXin para estilo tinta chinesa, e até modelos que imitam o rosto de uma estrela de cinema. Pode carregar estes modelos de treino para gerar imagens com um grau mais elevado de personalização. Quando realmente avançar para a fase de disponibilidade comercial, penso que o foco do mercado se deslocará do Midjourney para o Stable Diffusion.

O que precisa se quiser hospedar um ambiente Stable Diffusion por conta própria?

Preparação de hardware

1. Um computador WindowsDe preferência um computador Windows, pois computadores Mac podem ter mais dificuldades com os drivers da placa gráfica. 2. Uma GPU NV com mais de 6GBSe quiser fazer treino, pelo menos 12GB de memória de vídeo.

3. Memória superior a 16GB8GB de memória é aceitável, mas é difícil carregar os excelentes modelos da comunidade.

Processo de instalação e precauções

1. Instale o ambiente Python. Durante a instalação, certifique-se de que a opção Adicionar Python ao PATH está selecionada.

2. Instale o ambiente git.

3. No CMD, execute o seguinte comando para descarregar o stable-diffusion: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. Inicie a interface web do stable-diffusionUse o gestor de ficheiros para encontrar o ficheiro webui-user.bat descarregado e execute-o sem privilégios de administrador.

5. De acordo com a indicação no passo anterior, abra o endereço IP e a interface de utilizador será exibida – Se houver algum erro nos passos acima, pode pedir ajuda ao GPT para resolver o problema.

Defina um pequeno objetivo – algumas imagens para treinar um pequeno modelo

Alguns conceitos importantes que precisa de entender

modelo principal

– O modelo principal que afeta o estilo de saída, pode usar o modelo original v1.5 na ilustração

– Pode escolher um download que lhe agrade no civitai e colocá-lo na localização especificada …/stable-diffusion-webui/models/Stable-diffusion

palavra de prompt – Insira a descrição textual da imagem que deseja gerar, por exemplo, Um pai chinês envelhecido segurando uma tigela de arroz, Características especiais

Passos de amostragem – Geralmente, quanto maior o número de passos, mais refinada a imagem, mas maior o tempo de espera. Normalmente, defino entre 20-40.

Comprimento e largura – 512×512 é um tamanho razoável; se tiver requisitos especiais para a proporção da imagem, também pode modificá-la

Gerar – Clique no botão gerar para executar a geração; se não ficar satisfeito à primeira, tente várias vezes

Sementes – Se achar que a composição gerada está boa, pode continuar a usar esta semente na próxima geração guardando a imagem abaixo.

Opções avançadas

Extra – Clique nesta caixa para abrir as opções estendidas – A intensidade da diferença pode aumentar o detalhe da imagem; se achar a imagem demasiado simples, pode aumentar este valor

Anexar estilo ao modelo – Clique no botão vermelho “mostrar redes extra” sob o botão Gerar para expandir o painel adicional – As miniaturas podem ser descarregadas do civitai, ou pode treiná-las você mesmo.

– A hyper network é mais universal, e o LoRA é mais adequado para geração de retratos

– Os mini-modelos são colocados na pasta correspondente em models e podem ser vistos e selecionados

– Após selecionar o “estilo”, os parâmetros do estilo serão adicionados ao prompt, e o parâmetro seguinte representa a concentração

Ações para alcançar o mini-objetivo (treino)

1. Prepare o conjunto de treino

– Cerca de 20 imagens são suficientes para treinar um pequeno modelo de estilo agradável – como início, 5 imagens com um estilo específico são suficientes – o tamanho das imagens no conjunto de treino precisa ser idêntico 2. Crie a Hypernetwork – No treino, insira um nome para criar uma hyper network

3. Pré-processar as imagens – Nesta etapa, a IA irá primeiro gerar uma descrição textual com base na imagem de treino. – No campo de imagem pré-processada, preencha o endereço da pasta da imagem de treino e o endereço da pasta da imagem pré-processada de saída. – Modifique o tamanho da imagem de treino – Se o tamanho não for igual, pode usar o Birme para modificar o tamanho das imagens em lote primeiro. – Marque a opção BLIP e clique no botão Pré-processar para executar o pré-processamento

–espere pela conclusão de cada imagem de treino, ao lado de um ficheiro txt, o texto é a descrição da imagem correspondente –haverá imprecisões nas descrições, pode modificá-las manualmente – A precisão das descrições determina a eficácia do treino até certo ponto

4. Treino –Durante o treino, selecione a Hypernetwork que acabou de criar. 2. –insira a taxa de aprendizagem 0.00005 – No treino inicial 4 zeros são apropriados, no treino posterior reduza gradualmente o número de zeros – insira o diretório com a descrição textual e as imagens –modifique o tamanho da imagem –escolha 2000 passos iterativos –Geralmente, para 2000 passos de treino, demora 1 hora numa placa gráfica série 10 e meia hora numa série 30 –Clique no botão Treinar Hypernetwork para iniciar o treino

5. Apresentação do efeito –Após o início do treino, pode ver o processo de treino na janela de pré-visualização

–Após o treino, pode ver o processo de treino em … /stable-diffusion-webui/textual_inversion/date/… Pode encontrar os resultados do treino na pasta hyper networks –na pasta images estão os resultados do processo de treino –Pode visualizar as imagens e decidir qual resultado de treino é apropriado

–na pasta hyper networks, os ficheiros com a extensão .pt são os modelos de estilo treinados – Por exemplo, se achar que o resultado do passo 1400 é apropriado, pode mover o ficheiro pt do passo 1400 para models/hyper networks como o estilo

–Usar os resultados do treino para gerar imagens –Em “txt para img” e “img para img”, selecione o estilo que acabou de treinar e gere. –Se o estilo não for forte o suficiente, pode aumentar o fator

–Divirta-se!

Recentemente foram lançados os últimos desenvolvimentos e a minha compreensão

Recentemente, o Stable Diffusion introduziu um novo modelo chamado DeepFloyd IF, que melhora significativamente uma série de problemas criticados no desenho por IA. Por exemplo, imagens geradas por IA com relações espaciais problemáticas, personagens com múltiplos dedos nos membros e a incapacidade de suportar relações lógicas complexas. Francamente, acredito que para a IA de imagem, o futuro está do lado do open source e do deployment privado.

A sociedade humana é diversa e diferente ao nível visual, e ferramentas com certos estilos e tendências não conseguem cobrir uma grande área. A diferença entre humanos e humanos na estética é o conjunto de treino diferente; não há diferença entre humanos e IA, e o deployment privado do treino para garantir a independência estética, a “independência” pode restaurar um grau maior de “diversidade”.