Давным-давно, в маленьком городке, угнездившемся между северными горами, было место, навеки окутанное густым туманом, под названием Байлань.
В Байлане жил молодой художник по имени Ушэнь — «Рождённый Туманом».
У него был странный дар. Другие художники сначала ясно смотрели на вещь, потом рисовали её штрих за штрихом. Он работал наоборот — он вглядывался в клубящуюся массу тумана и медленно видел, как картина появляется.
Люди считали это абсурдом. «Как может быть картина в тумане?» Ушэнь только улыбался и никогда не объяснял.

Библиотека на море
Однажды старый градоначальник позвал его. «Я хочу картину того, чего никогда не существовало: библиотеку, плывущую по морю, в сумерках, с двумя лунами в небе».
Комната взорвалась смехом. «Такого места не существует. Как кто-то может это нарисовать?»
Но Ушэнь просто кивнул. «Я могу».
Он взял лист белой бумаги — и вместо того чтобы коснуться её кистью, покрыл весь лист хаотичной тёмно-серой краской, как окно после метели. Ничего не было видно. Зрители ещё больше недоумевали. «Ты её портишь».
Ушэнь ответил: «Настоящая картина должна сначала научиться скрываться».
В последующие дни он делал только одно: стирал по чуть-чуть хаоса. Не сразу. Не большими штрихами. Лишь немного.
Однажды он раскрыл слабое пятнышко света. На следующий — отрезок берега. Через день — намёк на книжные полки. Позже две луны выплыли из дымки. Казалось, он вёл переговоры с самим туманом. Не творил, а постоянно спрашивал: «Что должно было быть здесь?» Когда стирал не то — пересматривал. Когда что-то оставалось неясным — продолжал смотреть.
Сорок девять дней.
В конце бумага действительно несла библиотеку, плывущую по морю. Вода была неподвижна. Книжные страницы переворачивались. Сумерки висели в небе, как золотой вдох. Две луны плыли вдалеке.
Откуда берётся туман?
Город был ошеломлён. Кто-то спросил: «Как ты это сделал? Ты начал ни с чего».
Ушэнь покачал головой. «Нет — я начал со всего. Просто всё было скрыто внутри тумана».
Градоначальник надавил: «Тогда как ты узнал, что стирать?»
Ушэнь ответил: «Потому что я сначала услышал имена. Плывущая библиотека. Две луны. Сумерки. Море. Слова были как далёкие колокола. Я следовал за звуком сквозь туман и нашёл путь».
Годы спустя он взял ученика. Мальчик долго учился, но так и не схватил суть. Он всё думал: Я хочу нарисовать результат сразу.
Тогда Ушэнь повёл его на вершину горы. Утренний туман густо катился по склонам.
«Ты видишь башню?» — спросил Ушэнь.
«Нет», — сказал ученик.
«Тогда её не существует?»
Ученик замолчал.
Ушэнь сказал: «Живопись — то же самое. Ты не творишь мир из ничего. Ты движешься, шаг за шагом, к самому правдоподобному миру внутри хаоса. Настоящая живопись — не нанесение мазков. Это удаление шума».
Годы спустя жители Байланя всё ещё говорили о нём. Они говорили: он вообще не рисовал. Он учил мир, как медленно растить порядок из хаоса.
Реальная идея: модели диффузии
Вся эта история ложится на главный принцип современной AI-генерации изображений — модель диффузии.
Stable Diffusion, Midjourney и модель GPT Image 2, питающая этот сайт, все сильно опираются на эту идею.
Одним предложением:
Модель не рисует с нуля. Она начинает с чистого случайного шума и удаляет шум шаг за шагом, пока не появится изображение.
Точно как Ушэнь: сначала покройте страницу хаосом (чистый шум), потом стирайте по чуть-чуть (постепенное удаление шума), пока картина не раскроется.
Обучение: учим модель удалять шум

В обучении модель учится так.
Шаг 1: возьмите реальное изображение — скажем, кошку.
Шаг 2: добавьте к нему шум, повторно:
- Шаг 1: кошка ещё чёткая
- Шаг 100: начинает размываться
- Шаг 500: едва видна
- Шаг 1000: чистая случайная ТВ-помеха
Шаг 3: натренируйте модель отвечать: «Если сейчас выглядит так грязно, как, вероятно, выглядел оригинал?»
То есть выучите обратный процесс: от хаоса → к ясности.
В этом суть.
Генерация: реально рисуем изображение

Когда модель реально генерирует, у неё нет картинки для старта. Только клякса случайного шума и промпт:
Рыжий кот в шлеме астронавта пьёт кофе на луне.
И она начинает:
- Шаг 1: маленькое удаление шума
- Шаг 30: появляется силуэт кота
- Шаг 80: появляется шлем
- Шаг 150: оформляется лунный фон
- Шаг 300: детали оседают
И изображение рождается.
Почему текст может направлять изображение?

Потому что есть другой ключевой модуль: Text Encoder.
Он превращает «рыжий кот + астронавт + луна + кофе» в вектор чисел (условный сигнал) и на каждом шаге удаления шума напоминает модели:
- «Не забудь — рыжий кот, не чёрный».
- «На луне, не на кухне».
Это называется условной генерацией.
Почему диффузия побила GAN?

Ранние AI-генераторы изображений полагались на GAN (Generative Adversarial Networks). Но GAN были печально нестабильны, склонны к коллапсу мод, тяжелы в обучении и ограничены по разнообразию.
Диффузия более стабильна, более контролируема, выше по качеству и лучше масштабируется на крупные модели. Поэтому тихо стала дефолтом современной эпохи.
Истина в одно предложение
AI-генерация изображений — это не «творение». Это:
Поиск результата, выглядящего самым похожим на изображение, внутри пространства вероятностей.
Это как спрашивать снова и снова, внутри бесконечного хаоса: «Какой здесь самый правдоподобный следующий шаг?»
Это самая глубокая идея современного генеративного AI.
