Comprendre la diffusion par une fable

Il y a longtemps, perchée entre les montagnes du nord, une petite ville était noyée toute l'année dans une brume épaisse. Elle s'appelait Brume-Blanche. Y vivait un jeune peintre du nom de Wu Xing.

Il avait un don étrange : alors que les autres peintres voient les choses clairement et les peignent trait après trait, lui faisait l'inverse — il commençait toujours par « entrevoir » lentement un tableau au cœur d'un brouillard désordonné.

Les habitants trouvaient cela ridicule. « Comment peut-il y avoir un tableau dans la brume ? » Wu Xing se contentait de sourire, sans s'expliquer.

Le peintre dans la brume et la bibliothèque sur la mer

La bibliothèque flottante

Un jour, le seigneur de la ville le convoqua : « Je veux un tableau qui n'a jamais existé — une bibliothèque flottant sur la mer au crépuscule, sous deux lunes dans le ciel. »

Tout le monde éclata de rire. « Un tel lieu n'existe pas, comment veux-tu le peindre ? »

Wu Xing acquiesça pourtant : « Je peux le faire. »

Il prit une feuille blanche, mais sans peindre. Il commença par badigeonner toute la feuille de gris-noir, n'importe comment, comme une fenêtre après une grosse averse de neige : on n'y distinguait plus rien. Tout le monde était encore plus perdu : « Il ne fait que gâcher son tableau. »

Wu Xing répondit : « Un vrai tableau doit d'abord apprendre à se cacher. »

Les jours suivants, il ne fit qu'une seule chose chaque jour : essuyer un peu de désordre. Pas tout, pas d'un coup. Juste un peu.

Aujourd'hui, il essuyait la lumière et l'ombre ; demain, le trait de côte ; le surlendemain, le contour des étagères apparaissait faiblement ; plus tard, deux lunes émergeaient de la brume. Il semblait négocier avec le brouillard. Il ne créait pas — il interrogeait, encore et encore : « Que devait-il y avoir ici, à l'origine ? » Si son geste était faux, il rectifiait. Si c'était flou, il continuait d'observer.

Quarante-neuf jours en tout.

Et finalement, sur cette feuille, une bibliothèque flottait vraiment sur la mer. La mer était calme, les rayonnages frémissaient, le crépuscule respirait comme de l'or, et deux lunes étaient suspendues au loin.

D'où vient la brume ?

Toute la ville fut bouleversée. Quelqu'un demanda : « Mais comment as-tu fait ? Au début, il n'y avait rien. »

Wu Xing secoua la tête. « Non, tout y était dès le début. C'était simplement noyé dans la brume. »

Le seigneur insista : « Mais comment savais-tu où essuyer ? »

Wu Xing répondit : « Parce qu'on m'avait d'abord donné les noms. "Bibliothèque flottante", "deux lunes", "crépuscule", "mer". Ces mots étaient comme des cloches lointaines. Je les ai suivis pour trouver mon chemin dans la brume. »

Plus tard, il prit un disciple. Le disciple étudia longtemps sans saisir l'essence. Il pensait toujours : « Je veux peindre directement le résultat. »

Wu Xing l'emmena au sommet de la montagne. À l'aube, une brume épaisse couvrait le sommet. Il dit : « Vois-tu cette tour ? » Le disciple répondit : « Non. » Wu Xing demanda : « Est-ce qu'elle n'existe pas pour autant ? »

Le disciple resta silencieux.

Wu Xing reprit : « Il en va de même pour la peinture. Tu n'es pas le créateur d'un monde issu du néant. Tu te rapproches peu à peu, depuis le chaos, du monde le plus cohérent. Vraiment peindre, ce n'est pas poser le pinceau — c'est retirer le bruit. »

Pendant des années, les habitants de Brume-Blanche se souvinrent du peintre. Ils racontaient : il n'a pas peint un tableau, il a montré au monde comment l'ordre peut lentement émerger du désordre.

Sous la fable, le vrai savoir : les modèles de diffusion

Toute cette fable décrit le principe le plus central de la génération d'images par IA moderne : les modèles de diffusion (Diffusion Models).

Stable Diffusion, Midjourney et le GPT Image 2 utilisé sur notre site — au fond, tous reposent largement sur cette idée.

En une phrase :

On ne peint pas directement le tableau dès le début ; on part d'un amas de bruit aléatoire et, étape après étape, on « débruite » jusqu'à obtenir une image.

Comme Wu Xing dans la fable : on barbouille d'abord le papier (bruit pur), on essuie point par point (débruitage progressif), et on obtient finalement une image.

Phase d'apprentissage : enseigner à l'IA comment « débruiter »

Phase d'apprentissage : apprendre le chemin inverse, de l'image nette au bruit

Pendant l'entraînement, le modèle apprend ainsi :

D'abord, on prend une vraie photo. Disons celle d'un chat.

Ensuite, on y ajoute du bruit, sans cesse :

1ʳᵉ itération : le chat est encore net
100ᵉ itération : il commence à devenir flou
500ᵉ itération : on le distingue à peine
1000ᵉ itération : c'est de la neige télévisuelle pure

Enfin, on entraîne l'IA à répondre à : « Si c'est aussi bruité maintenant, à quoi devait ressembler l'image originale ? »

Autrement dit, elle apprend le chemin inverse : désordre → netteté.

Voilà le cœur du principe.

Phase de génération : passer à la peinture

Phase de génération : du bruit pur, on retire le bruit étape par étape pour aboutir à l'image finale

Lors d'une vraie génération, l'IA n'a aucune image au départ. Juste un amas de bruit aléatoire et un prompt :

Un chat orange en casque d'astronaute, en train de boire un café sur la Lune

Et le modèle se met en route :

Étape 1 : léger débruitage
Étape 30 : la silhouette du chat émerge
Étape 80 : le casque d'astronaute apparaît
Étape 150 : l'arrière-plan lunaire prend forme
Étape 300 : les détails se complètent

L'image est née.

Mais comment le texte peut-il piloter l'image ?

Génération conditionnelle : le texte sert de condition guidant chaque étape de débruitage

Parce qu'il existe un autre module clé : l'encodeur de texte (Text Encoder).

Il transforme « chat orange + astronaute + Lune + café » en un vecteur mathématique (un signal de conditionnement) qui rappelle au modèle, tout au long du débruitage :

« N'oublie pas, c'est un chat orange, pas un chat noir. »
« On est sur la Lune, pas dans une cuisine. »

C'est ce qu'on appelle la génération conditionnelle (Conditional Generation).

Pourquoi la diffusion est-elle plus puissante que les GAN ?

Diffusion vs GAN : comparaison sur 4 axes — stabilité, contrôle, qualité, scalabilité

Les premiers modèles de génération d'images par IA reposaient surtout sur les GAN (réseaux antagonistes génératifs). Mais les GAN étaient souvent instables, sujets à l'effondrement, difficiles à entraîner et peu diversifiés.

Les modèles de diffusion sont plus stables, plus faciles à contrôler, de meilleure qualité, et bien mieux adaptés à l'ère des grands modèles. C'est pourquoi ils sont devenus le standard de fait.

La phrase la plus essentielle

L'essence de la génération d'images par IA n'est pas la « création » :

C'est chercher, dans l'espace des probabilités, le résultat qui « ressemble le plus à une image ».

Comme si, dans le désordre infini, on demandait sans cesse : « Quelle est la prochaine étape la plus cohérente à partir d'ici ? »

Voilà la pensée la plus profonde de l'IA générative moderne.

Le peintre dans la brume — comprendre la diffusion par la fable

Sommaire