엣지에서의 AI 아트: Txt2Img 개발 진행 보고서

에바 왕

IceWhale author

에바 왕 는 기술 작가 그리고 이자 ZimaSpace의 상주 장인입니다. 평생을 기술에 열정을 가진 사람으로서 홈랩과 오픈소스 소프트웨어에 열정을 가지고 있으며,복잡한 기술 개념을 쉽게 이해할 수 있는 실습 가이드로 번역하는 데 전문성을 가지고 있습니다.에바는 셀프 호스팅이 어렵지 않고 재미있어야 한다고 믿습니다. 그녀의 튜토리얼을 통해 커뮤니티가 하드웨어 설정의 신비를 풀도록돕고 있습니다. 첫 NAS 구축부터 Docker 컨테이너 마스터링까지.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

Midjourney가 대중적으로 널리 사용되고 검증되면서, AI가 생성한 이미지에 몇 가지 문제가 발견되었습니다. 경이로움에서부터 Midjourney가 생성하는 이미지가 대체로 비슷한 스타일, 즉 “크리미”하고 너무 균일하다는 점, 그리고 무료 사용자의 경우 이미지가 커뮤니티에 노출되며, 유료 사용자도 이미지가 다른 목적으로 “도용”될 가능성을 배제할 수 없다는 점입니다.

Stable Diffusion은 오픈 소스 생태계에서 비롯되었으며, 플러그인 기능과 사용자들의 창의성이 결합되어 더 다양한 응용 시나리오를 탐구할 수 있습니다. 단순히 Midjourney처럼 설명으로 이미지를 생성하는 데 만족하지 않고, 스타일 디자이너로서 활용할 수 있어 재미있고 가치 있는 작업이 시작됩니다.

커뮤니티에서는 일본 만화 스타일의 ChilloutMix, 중국 수묵화 스타일의 MoXin, 심지어 영화 배우 얼굴을 모방한 모델 등 다양한 고유 스타일 모델을 탐색할 수 있습니다. 이러한 학습 모델을 불러와 더 높은 맞춤화 수준의 이미지를 생성할 수 있습니다. 상업적 활용 단계에 진입하면 시장의 초점이 Midjourney에서 Stable Diffusion으로 이동할 것이라 생각합니다.

Stable Diffusion 환경을 셀프 호스팅하려면 무엇이 필요한가요?

하드웨어 준비

1. 윈도우 컴퓨터가능하면 윈도우 컴퓨터가 좋으며, 맥 컴퓨터는 그래픽 카드 드라이버 문제로 어려움이 있을 수 있습니다. 2. 6GB 이상의 NV GPU학습을 원한다면 최소 12GB 비디오 메모리가 필요합니다.

3. 16GB 이상의 메모리8GB도 가능하지만, 커뮤니티의 우수한 모델을 불러오기에는 어렵습니다. 구축 과정과 주의사항.

1. Python 환경 설치 – 설치 시 “Add Python to PATH”가 체크되어 있는지 확인하세요.

2. git 환경 설치

3. CMD에서 다음 명령어를 실행하여 stable-diffusion 다운로드git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. stable-diffusion 웹 UI 시작파일 탐색기에서 다운로드한 webui-user.bat 파일을 관리자 권한 없이 실행하세요.

5. 이전 단계의 안내에 따라 IP 주소를 열면 사용자 인터페이스가 표시됩니다– 위 단계에서 오류가 발생하면 GPT에게 도움을 요청할 수 있습니다.

작은 목표 설계 – 소규모 모델 학습을 위한 몇 장의 이미지

이해해야 할 몇 가지 중요한 개념

메인 모델

– 출력 스타일에 영향을 주는 메인 모델로, 일러스트에서는 원본 v1.5 모델을 사용할 수 있습니다.

– civitai에서 만족하는 모델을 다운로드해 지정된 위치…/stable-diffusion-webui/models/Stable-diffusion에 넣을 수 있습니다.

프롬프트 단어 – 생성하고자 하는 이미지의 텍스트 설명을 입력합니다. 예: 낡은 중국 아버지가 밥그릇을 들고 있는 모습, 특수 기능

샘플링 단계 – 일반적으로 단계 수가 많을수록 정교하지만 대기 시간이 길어집니다. 보통 20-40 사이로 설정합니다.

길이와 너비 – 512×512가 적당한 크기이며, 특별한 비율 요구가 있으면 수정할 수 있습니다.

생성 – 생성 버튼을 클릭해 실행하며, 한 번에 만족하지 않으면 여러 번 시도하세요.

시드 – 현재 생성된 구성이 좋다고 생각되면, 아래 그림을 저장해 다음 생성 시 같은 시드를 계속 사용할 수 있습니다.

고급 옵션

추가 – 이 체크박스를 클릭하면 확장 옵션이 열립니다 – 차이 강도는 이미지의 세부 묘사를 높일 수 있으며, 이미지가 너무 단조롭다고 생각되면 값을 높일 수 있습니다.

모델에 스타일 연결 – 생성 버튼 아래 빨간색 “show extra Networks” 버튼을 클릭해 추가 패널을 확장합니다 – 미니어처는 civitai에서 다운로드하거나 직접 학습할 수 있습니다.

– 하이퍼 네트워크는 범용성이 높고, LoRA는 인물 생성에 더 적합합니다.

– 미니 모델은 models 폴더 내 해당 위치에 배치되며, 확인 및 선택할 수 있습니다.

– “스타일”을 선택하면 스타일의 매개변수가 프롬프트에 추가되며, 뒤에 오는 매개변수는 농도를 나타냅니다.

미니 목표 달성을 위한 작업(학습)

1. 학습 세트 준비

– 약 20장의 이미지면 좋은 소규모 스타일 모델 학습에 충분합니다. – 시작으로 특정 스타일의 5장도 괜찮습니다. – 학습 세트 내 이미지 크기는 동일해야 합니다. 2. 하이퍼네트워크 생성 – 학습 시 이름을 입력해 하이퍼네트워크를 생성합니다.

3. 이미지 전처리 – 이 단계에서 AI가 학습 이미지 기반으로 텍스트 설명을 먼저 생성합니다. – 전처리 이미지에 학습 이미지 폴더 주소와 출력 전처리 이미지 폴더 주소를 입력합니다. – 학습 이미지의 가로세로 비율을 수정합니다. – 크기가 다르면 Birme를 사용해 일괄적으로 크기를 조정할 수 있습니다. – BLIP 옵션을 체크하고 전처리 버튼을 클릭해 전처리를 수행합니다.

–각 학습 이미지 옆에 txt 파일이 생성되며, 텍스트는 해당 이미지의 설명입니다. –설명에 부정확한 부분이 있을 수 있으니 수동으로 수정할 수 있습니다. – 설명의 정확도가 학습 효과에 어느 정도 영향을 미칩니다.

4. 학습 –학습 시 방금 생성한 하이퍼네트워크를 선택합니다. 2. –학습률 0.00005 입력 – 초기 학습에서는 4개의 0이 적당하며, 이후 학습 시 점차 0의 개수를 줄입니다. – 텍스트 설명과 이미지가 있는 디렉터리를 입력합니다. –이미지 크기를 수정합니다. –2000회 반복 단계를 선택합니다. –일반적으로 2000단계 학습은 10 시리즈 그래픽 카드 기준 1시간, 30 시리즈는 30분 정도 소요됩니다. –“Training Hypernetwork” 버튼을 클릭해 학습을 시작합니다.

5. 효과 확인 –학습이 시작되면 미리보기 창에서 학습 과정을 볼 수 있습니다.

–학습 후 …/stable-diffusion-webui/textual_inversion/date/… 경로에서 학습 결과를 확인할 수 있습니다. 하이퍼네트워크 폴더에 학습 결과가 있습니다. –images 폴더에는 학습 과정 결과 이미지가 저장됩니다. –이미지를 보고 적절한 학습 결과를 선택할 수 있습니다.

–하이퍼네트워크 폴더 내 .pt 확장자 파일이 학습 스타일 모델입니다. – 예를 들어, 1400단계 결과가 적절하다면 1400단계 pt 파일을 models/hyper networks 폴더로 옮겨 스타일로 사용합니다.

–학습 결과를 사용해 이미지 생성하기 –“txt to img”와 “img to img”에서 방금 학습한 스타일을 선택해 생성합니다. –스타일이 약하면 인자 값을 높일 수 있습니다.

–즐거운 시간 되세요!

최근 발표된 최신 동향과 제 생각

최근 Stable Diffusion은 DeepFloyd IF라는 새로운 모델을 도입해, 비판받던 AI 그림의 여러 문제를 크게 개선했습니다. 예를 들어, AI가 생성한 이미지의 공간 관계 문제, 사지에 손가락이 여러 개 있는 캐릭터, 복잡한 논리 관계를 표현하지 못하는 문제 등이 있습니다. 솔직히 말해, 이미지 AI의 미래는 오픈 소스와 개인 배포 쪽에 있다고 믿습니다.

인간 사회는 시각적으로 다양하고 다르며, 특정 스타일과 경향을 가진 도구만으로는 넓은 영역을 커버할 수 없습니다. 인간과 인간의 미적 차이는 학습 세트의 차이이며, 인간과 AI도 다르지 않습니다. 미학의 독립성을 보장하는 개인 배포 학습은 더 큰 “다양성”을 복원할 수 있습니다.