مقتطف من المدونة
الرسّام في الضباب — فهم نماذج الانتشار من خلال حكاية
فقرات مختارة مع الرسوم الموضوعة بالذكاء الاصطناعي. اقرأ المنشور كاملاً للاطلاع على المقال بأكمله.
أخذ ورقة بيضاء — وبدلاً من أن يضع الفرشاة عليها، غطّى الورقة كلها بطلاء رمادي داكن فوضوي. حار المشاهدون: "أنت تُفسدها." فأجاب وو شنغ: "اللوحة الحقيقية يجب أن تتعلم الاختباء أولاً."

في أثناء التدريب، يتعلّم النموذج بهذه الطريقة: خذ صورة حقيقية لقط وأضف إليها ضجيجًا مرارًا — عند الخطوة 1 تبقى واضحة، وعند الخطوة 100 تبدأ بالضبابية، وعند الخطوة 1000 تصبح تشويشًا عشوائيًا خالصًا. ثم درّب الذكاء الاصطناعي على الإجابة عكسيًا: "إن بدت بهذه الفوضى الآن، فكيف كان شكل الأصل على الأرجح؟"

عند الإنشاء الفعلي، لا يملك النموذج أي صورة — مجرد كتلة من الضجيج العشوائي ووصف نصي. الخطوة 1: إزالة ضجيج طفيفة. الخطوة 30: يظهر شبح قط. الخطوة 80: تظهر الخوذة. الخطوة 150: تتشكّل الخلفية القمرية. الخطوة 300: تستقر التفاصيل. وتُولد الصورة.

لماذا يستطيع النص توجيه الصورة؟ بسبب مُرمِّز النص (Text Encoder). فهو يحوّل "قط برتقالي + رائد فضاء + قمر + قهوة" إلى متجه من الأرقام، وفي كل خطوة إزالة ضجيج يظل يذكّر النموذج: "قط برتقالي، لا قط أسود. على القمر، لا في مطبخ."

اعتمدت مولّدات الصور بالذكاء الاصطناعي السابقة على شبكات GAN، لكنها كانت معروفة بعدم الاستقرار، وعرضةً لانهيار النمط، وصعبة التدريب، ومحدودة التنوع. أما الانتشار فأكثر استقرارًا، وأكثر قابليةً للتحكم، وأعلى جودة، وأفضل في التوسّع — ولذلك أصبح بهدوء الخيار الافتراضي في العصر الحديث.

—— حُذف هنا نحو 1,500 كلمة ——
