Модели диффузии через басню

Давным-давно, в маленьком городке, угнездившемся между северными горами, было место, навеки окутанное густым туманом, под названием Байлань.

В Байлане жил молодой художник по имени Ушэнь — «Рождённый Туманом».

У него был странный дар. Другие художники сначала ясно смотрели на вещь, потом рисовали её штрих за штрихом. Он работал наоборот — он вглядывался в клубящуюся массу тумана и медленно видел, как картина появляется.

Люди считали это абсурдом. «Как может быть картина в тумане?» Ушэнь только улыбался и никогда не объяснял.

Художник в тумане и библиотека на море

Библиотека на море

Однажды старый градоначальник позвал его. «Я хочу картину того, чего никогда не существовало: библиотеку, плывущую по морю, в сумерках, с двумя лунами в небе».

Комната взорвалась смехом. «Такого места не существует. Как кто-то может это нарисовать?»

Но Ушэнь просто кивнул. «Я могу».

Он взял лист белой бумаги — и вместо того чтобы коснуться её кистью, покрыл весь лист хаотичной тёмно-серой краской, как окно после метели. Ничего не было видно. Зрители ещё больше недоумевали. «Ты её портишь».

Ушэнь ответил: «Настоящая картина должна сначала научиться скрываться».

В последующие дни он делал только одно: стирал по чуть-чуть хаоса. Не сразу. Не большими штрихами. Лишь немного.

Однажды он раскрыл слабое пятнышко света. На следующий — отрезок берега. Через день — намёк на книжные полки. Позже две луны выплыли из дымки. Казалось, он вёл переговоры с самим туманом. Не творил, а постоянно спрашивал: «Что должно было быть здесь?» Когда стирал не то — пересматривал. Когда что-то оставалось неясным — продолжал смотреть.

Сорок девять дней.

В конце бумага действительно несла библиотеку, плывущую по морю. Вода была неподвижна. Книжные страницы переворачивались. Сумерки висели в небе, как золотой вдох. Две луны плыли вдалеке.

Откуда берётся туман?

Город был ошеломлён. Кто-то спросил: «Как ты это сделал? Ты начал ни с чего».

Ушэнь покачал головой. «Нет — я начал со всего. Просто всё было скрыто внутри тумана».

Градоначальник надавил: «Тогда как ты узнал, что стирать?»

Ушэнь ответил: «Потому что я сначала услышал имена. Плывущая библиотека. Две луны. Сумерки. Море. Слова были как далёкие колокола. Я следовал за звуком сквозь туман и нашёл путь».

Годы спустя он взял ученика. Мальчик долго учился, но так и не схватил суть. Он всё думал: Я хочу нарисовать результат сразу.

Тогда Ушэнь повёл его на вершину горы. Утренний туман густо катился по склонам.

«Ты видишь башню?» — спросил Ушэнь.

«Нет», — сказал ученик.

«Тогда её не существует?»

Ученик замолчал.

Ушэнь сказал: «Живопись — то же самое. Ты не творишь мир из ничего. Ты движешься, шаг за шагом, к самому правдоподобному миру внутри хаоса. Настоящая живопись — не нанесение мазков. Это удаление шума».

Годы спустя жители Байланя всё ещё говорили о нём. Они говорили: он вообще не рисовал. Он учил мир, как медленно растить порядок из хаоса.

Реальная идея: модели диффузии

Вся эта история ложится на главный принцип современной AI-генерации изображений — модель диффузии.

Stable Diffusion, Midjourney и модель GPT Image 2, питающая этот сайт, все сильно опираются на эту идею.

Одним предложением:

Модель не рисует с нуля. Она начинает с чистого случайного шума и удаляет шум шаг за шагом, пока не появится изображение.

Точно как Ушэнь: сначала покройте страницу хаосом (чистый шум), потом стирайте по чуть-чуть (постепенное удаление шума), пока картина не раскроется.

Обучение: учим модель удалять шум

Обучение: прямая диффузия добавляет шум; модель учится обращать его

В обучении модель учится так.

Шаг 1: возьмите реальное изображение — скажем, кошку.

Шаг 2: добавьте к нему шум, повторно:

Шаг 1: кошка ещё чёткая
Шаг 100: начинает размываться
Шаг 500: едва видна
Шаг 1000: чистая случайная ТВ-помеха

Шаг 3: натренируйте модель отвечать: «Если сейчас выглядит так грязно, как, вероятно, выглядел оригинал?»

То есть выучите обратный процесс: от хаоса → к ясности.

В этом суть.

Генерация: реально рисуем изображение

Генерация: начиная с чистого шума, модель высекает изображение

Когда модель реально генерирует, у неё нет картинки для старта. Только клякса случайного шума и промпт:

Рыжий кот в шлеме астронавта пьёт кофе на луне.

И она начинает:

Шаг 1: маленькое удаление шума
Шаг 30: появляется силуэт кота
Шаг 80: появляется шлем
Шаг 150: оформляется лунный фон
Шаг 300: детали оседают

И изображение рождается.

Почему текст может направлять изображение?

Условная генерация: текст направляет каждый шаг удаления шума

Потому что есть другой ключевой модуль: Text Encoder.

Он превращает «рыжий кот + астронавт + луна + кофе» в вектор чисел (условный сигнал) и на каждом шаге удаления шума напоминает модели:

«Не забудь — рыжий кот, не чёрный».
«На луне, не на кухне».

Это называется условной генерацией.

Почему диффузия побила GAN?

Диффузия vs GAN: стабильность, контроль, качество, масштаб

Ранние AI-генераторы изображений полагались на GAN (Generative Adversarial Networks). Но GAN были печально нестабильны, склонны к коллапсу мод, тяжелы в обучении и ограничены по разнообразию.

Диффузия более стабильна, более контролируема, выше по качеству и лучше масштабируется на крупные модели. Поэтому тихо стала дефолтом современной эпохи.

Истина в одно предложение

AI-генерация изображений — это не «творение». Это:

Поиск результата, выглядящего самым похожим на изображение, внутри пространства вероятностей.

Это как спрашивать снова и снова, внутри бесконечного хаоса: «Какой здесь самый правдоподобный следующий шаг?»

Это самая глубокая идея современного генеративного AI.

Художник в тумане — понимая модели диффузии через басню

Содержание