الفن بالذكاء الاصطناعي على الحافة: تقرير تقدم تطوير Txt2Img

إيفا وونغ

IceWhale author

إيفا وونغ هي كاتبة تقنية و ومهندسة هاوية في ZimaSpace. مهووسة بالتكنولوجيا مدى الحياة ولديها شغف بالمختبرات المنزلية والبرمجيات مفتوحة المصدر، تتخصص في تبسيط المفاهيم التقنية المعقدة إلى أدلة عملية وسهلة الفهم. تؤمن إيفا بأن الاستضافة الذاتية يجب أن تكون ممتعة وليست مخيفة. من خلال دروسها، تمكّن المجتمع من تبسيط إعدادات الأجهزة، بدءًا من بناء أول نظام تخزين شبكي NAS وحتى إتقان حاويات Docker.

AI Art on Edge: Txt2Img Development Progress Report - Zima Store Online

نظرًا لأن Midjourney قد تم تجربته واختباره على نطاق واسع من قبل الجمهور، فقد تم تحديد بعض المشكلات في الصور التي يولدها الذكاء الاصطناعي، بدءًا من شعور الإعجاب إلى حقيقة أن الصور التي يولدها Midjourney تميل عادة إلى أن تكون بنفس الأسلوب، والذي قد تسميه "كريمي" ومتجانس جدًا، وأن Midjourney لا يملك خيارًا للمستخدمين المجانيين حيث تُعرض صورهم لبقية المجتمع، وحتى المستخدمين المدفوعين لا يمكنهم استبعاد احتمال "سرقة" صورهم لأغراض أخرى.

يأتي Stable Diffusion من نظام مفتوح المصدر، ومع الجمع بين قدرات الإضافات وإبداع المستخدمين، يمكن استكشاف المزيد من سيناريوهات التطبيق. لن تكتفي بمجرد توليد صورة بوصف مثل Midjourney، بل ستتعامل معه كمصمم أسلوب، وهنا تبدأ الأمور الممتعة والقيمة.

في المجتمع، ستستكشف العديد من النماذج ذات الأساليب العالية، مثل ChilloutMix بأسلوب المانغا اليابانية، وMoXin بأسلوب الحبر الصيني، وحتى نماذج تحاكي وجه نجم سينمائي. يمكنك تحميل هذه النماذج التدريبية لتوليد صور بدرجة تخصيص أعلى. وعندما يتقدم الأمر حقًا إلى مرحلة التوفر التجاري، أعتقد أن تركيز السوق سينتقل من Midjourney إلى Stable Diffusion.

ماذا تحتاج إذا أردت استضافة بيئة Stable Diffusion بنفسك؟

التحضير للأجهزة

1. جهاز كمبيوتر يعمل بنظام ويندوز ويفضل أن يكون جهاز ويندوز، حيث قد تواجه أجهزة ماك صعوبات أكبر مع تعريفات بطاقة الرسومات. 2. بطاقة رسومات NV بسعة 6 جيجابايت أو أكثر إذا كنت تريد التدريب، فستحتاج إلى ذاكرة فيديو لا تقل عن 12 جيجابايت.

3. ذاكرة عشوائية تزيد عن 16 جيجابايت 8 جيجابايت مقبولة، لكن من الصعب تحميل النماذج الممتازة في المجتمع.

1. تثبيت بيئة Python أثناء التثبيت، تأكد من تحديد خيار إضافة Python إلى PATH.

2. تثبيت بيئة git

3. في نافذة CMD، نفذ الأمر التالي لتحميل stable-diffusiongit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.

4. تشغيل واجهة stable-diffusion web-ui استخدم مدير الملفات للعثور على ملف webui-user.bat الذي تم تنزيله وقم بتشغيله بدون صلاحيات المسؤول.

5. وفقًا للتعليمات في الخطوة السابقة، افتح عنوان IP، وستظهر واجهة المستخدم – إذا حدث أي خطأ في الخطوات السابقة، يمكنك طلب مساعدة GPT لحل المشكلة.

تصميم هدف صغير – بعض الصور لتدريب نموذج صغير

بعض المفاهيم المهمة التي تحتاج لفهمها

النموذج الرئيسي

– النموذج الرئيسي الذي يؤثر على أسلوب الإخراج، يمكنك استخدام نموذج v1.5 الأصلي في التوضيح

– يمكنك اختيار تحميل نموذج يعجبك من civitai ووضعه في الموقع المحدد …/stable-diffusion-webui/models/Stable-diffusion

كلمة الوصف (prompt) – أدخل الوصف النصي للصورة التي تريد توليدها، على سبيل المثال، أب صيني متجعد يحمل وعاء أرز، ميزات خاصة

خطوات العينة (Sampling steps) – عمومًا، كلما زاد عدد الخطوات، كانت الصورة أكثر دقة، لكن وقت الانتظار أطول. عادةً ما أضبطها بين 20-40.

الطول والعرض – 512×512 هو حجم معقول، وإذا كان لديك متطلبات خاصة لنسبة الصورة، يمكنك تعديلها

توليد (generate) – اضغط على زر التوليد لتنفيذ العملية، إذا لم تكن راضيًا من المحاولة الأولى، جرب عدة مرات

البذور (seeds) – إذا وجدت التكوين الحالي جيدًا، يمكنك الاستمرار في استخدام هذه البذرة في التوليد التالي بحفظ الصورة أدناه.

خيارات متقدمة

إضافي (Extra) – انقر على هذا المربع لفتح الخيارات الموسعة – يمكن لشدة الفرق زيادة تفاصيل الصورة، إذا شعرت أن الصورة بسيطة جدًا يمكنك زيادة هذه القيمة

إرفاق الأسلوب إلى النموذج – انقر على الزر الأحمر "show extra Networks" تحت زر التوليد لتوسيع اللوحة الإضافية – يمكن تنزيل النماذج المصغرة من civitai، أو يمكنك تدريبها بنفسك.

– الشبكة الفائقة (hyper network) أكثر عمومية، وLoRA أكثر ملاءمة لتوليد الصور الشخصية

– النماذج المصغرة توضع في المجلد المقابل تحت models ويمكن رؤيتها واختيارها

– بعد اختيار "الأسلوب"، ستُضاف معلمات الأسلوب إلى الوصف، والمعلمات التي تليها تمثل التركيز

الإجراءات لتحقيق الهدف الصغير (التدريب)

1. تحضير مجموعة التدريب

– حوالي 20 صورة كافية لتدريب نموذج أسلوب صغير جيد – كبداية، 5 صور بأسلوب محدد تكفي – يجب أن يكون حجم الصور في مجموعة التدريب متطابقًا 2. إنشاء Hypernetwork – في التدريب، أدخل اسمًا لإنشاء شبكة فائقة

3. معالجة الصور مسبقًا – في هذه الخطوة، سيولد الذكاء الاصطناعي أولاً وصفًا نصيًا بناءً على صورة التدريب. – في الصور المعالجة مسبقًا، املأ عنوان مجلد صور التدريب وعنوان مجلد الصور المعالجة الناتجة. – عدل نسبة أبعاد صور التدريب – إذا لم تكن الأحجام متطابقة، يمكنك استخدام Birme لتعديل حجم الصور دفعة واحدة أولاً. – حدد خيار BLIP واضغط على زر المعالجة المسبقة لتنفيذ المعالجة

– انتظر اكتمال كل صورة تدريبية مع ملف txt بجانبها، النص هو وصف الصورة المقابلة – قد توجد بعض الأخطاء في الأوصاف، يمكنك تعديلها يدويًا – دقة الأوصاف تحدد فعالية التدريب إلى حد ما

4. التدريب – في التدريب، اختر Hypernetwork الذي أنشأته للتو. 2. – أدخل معدل التعلم 0.00005 – في التدريب الأولي أربعة أصفار مناسبة، وفي التدريب اللاحق قلل عدد الأصفار تدريجيًا – أدخل الدليل الذي يحتوي على الوصف النصي والصور – عدل حجم الصورة – اختر 2000 خطوة تكرارية – عمومًا، يستغرق تدريب 2000 خطوة ساعة واحدة لبطاقة رسومات من سلسلة 10 ونصف ساعة لسلسلة 30 – اضغط على زر Training Hypernetwork لبدء التدريب

5. عرض النتائج – بعد بدء التدريب، يمكنك رؤية عملية التدريب في نافذة المعاينة

– بعد التدريب، يمكنك رؤية عملية التدريب في … /stable-diffusion-webui/textual_inversion/date/… يمكنك العثور على نتائج التدريب في مجلد hyper networks – في مجلد الصور توجد نتائج عملية التدريب – يمكنك عرض الصور وتحديد أي نتيجة تدريب مناسبة

– في مجلد hyper networks، الملفات التي تنتهي باللاحقة .pt هي نماذج أسلوب التدريب – على سبيل المثال، إذا وجدت أن نتيجة الخطوة 1400 مناسبة، يمكنك نقل ملف pt الخاص بالخطوة 1400 إلى models/hyper networks كنمط

– استخدام نتائج التدريب لتوليد الصور – في "txt to img" و "img to img"، اختر الأسلوب الذي دربته للتو وقم بالتوليد. – إذا لم يكن الأسلوب قويًا بما فيه الكفاية، يمكنك زيادة العامل

– استمتع!

أحدث التطورات وفهمي لها مؤخرًا

مؤخرًا قدم Stable Diffusion نموذجًا جديدًا يسمى DeepFloyd IF، والذي يحسن بشكل كبير سلسلة من المشكلات التي كانت تُنتقد في الرسم بالذكاء الاصطناعي. على سبيل المثال، الصور التي يولدها الذكاء الاصطناعي تعاني من علاقات مكانية خاطئة، وشخصيات بأصابع متعددة على أطرافها، وعدم القدرة على حمل علاقات منطقية معقدة. بصراحة، أعتقد أن مستقبل الذكاء الاصطناعي في الصور يكمن في جانب المصدر المفتوح والنشر الخاص.

المجتمع البشري متنوع ومختلف على المستوى البصري، والأدوات ذات الأساليب والميول المحددة لا يمكنها تغطية مساحة واسعة. الاختلاف بين البشر في الذوق الجمالي هو اختلاف مجموعات التدريب، ولا يوجد فرق بين البشر والذكاء الاصطناعي في هذا، والنشر الخاص للتدريب يضمن استقلالية الذوق، و"الاستقلالية" يمكن أن تعيد درجة أكبر من "التنوع".