Modelli diffusion spiegati con una favola

Tanto tempo fa, in una piccola città incastonata tra le montagne del nord, c'era un luogo perennemente avvolto in una fitta nebbia, chiamato Bailan.

A Bailan viveva un giovane pittore di nome Wu Sheng — "Nato dalla nebbia."

Aveva un dono strano. Gli altri pittori prima guardavano chiaramente una cosa, poi la disegnavano pennellata dopo pennellata. Lui lavorava al contrario — fissava una massa vorticosa di nebbia e lentamente vedeva emergere un dipinto.

La gente lo trovava assurdo. "Come potrebbe esserci un dipinto nella nebbia?" Wu Sheng sorrideva soltanto, e non spiegava mai.

Il pittore nella nebbia e la biblioteca sul mare

Una biblioteca sul mare

Un giorno il vecchio governatore della città lo convocò. "Voglio un dipinto di qualcosa che non è mai esistito: una biblioteca che galleggia sul mare, al tramonto, con due lune nel cielo."

La sala scoppiò a ridere. "Non esiste un posto simile. Come potrebbe qualcuno dipingerlo?"

Ma Wu Sheng annuì semplicemente. "Posso farlo."

Prese un foglio di carta bianca — e invece di posarci il pennello, coprì l'intero foglio di pittura grigio scuro caotica, come una finestra dopo una tormenta di neve. Nulla era visibile. Gli spettatori erano ancora più perplessi. "Lo stai rovinando."

Wu Sheng rispose: "Un vero dipinto deve prima imparare a nascondersi."

Nei giorni successivi fece solo una cosa: cancellare un po' di caos alla volta. Non tutto in una volta. Non con grandi pennellate. Solo un po'.

Un giorno scoprì una debole macchia di luce. Il giorno dopo, un tratto di costa. Il giorno dopo ancora, l'accenno di scaffali di libri. Più tardi, due lune galleggiarono fuori dalla foschia. Sembrava trattare con la nebbia stessa. Non creando, ma chiedendo continuamente: "Cosa doveva esserci qui?" Quando cancellava male, ripensava. Quando qualcosa restava poco chiaro, continuava a guardare.

Per quarantanove giorni.

Alla fine, la carta conteneva davvero una biblioteca che galleggiava sul mare. L'acqua era immobile. Le pagine dei libri si voltavano. Il tramonto pendeva nel cielo come un respiro dorato. Due lune fluttuavano in lontananza.

Da dove viene la nebbia?

La città restò sbalordita. Qualcuno chiese: "Come hai fatto? Sei partito dal nulla."

Wu Sheng scosse la testa. "No — sono partito da tutto. Era solo tutto nascosto dentro la nebbia."

Il governatore insistette: "E come hai saputo cosa cancellare?"

Wu Sheng rispose: "Perché prima ho sentito i nomi. Biblioteca galleggiante. Due lune. Tramonto. Mare. Le parole erano come campane lontane. Ho seguito il suono attraverso la nebbia e ho trovato il sentiero."

Anni dopo prese un apprendista. Il ragazzo studiò a lungo ma non capì mai. Continuava a pensare: Voglio dipingere il risultato direttamente.

Allora Wu Sheng lo portò in cima alla montagna. La nebbia mattutina rotolava densa lungo i pendii.

"Vedi la torre?" chiese Wu Sheng.

"No," rispose l'apprendista.

"Allora non esiste?"

L'apprendista rimase in silenzio.

Wu Sheng disse: "La pittura è la stessa cosa. Non crei un mondo dal nulla. Ti muovi, passo dopo passo, verso il mondo più plausibile dentro al caos. La vera pittura non è posare pennellate. È rimuovere il rumore."

Anni dopo, gli abitanti di Bailan parlavano ancora di lui. Dicevano: non stava dipingendo affatto. Stava insegnando al mondo come far crescere lentamente l'ordine dal caos.

L'idea vera: i modelli diffusion

Tutta questa storia si mappa sul principio centrale dietro alla moderna generazione di immagini AI — il modello diffusion.

Stable Diffusion, Midjourney e il modello GPT Image 2 che alimenta questo sito si basano tutti pesantemente su questa idea.

In una frase:

Il modello non dipinge da zero. Parte da puro rumore casuale e rimuove il rumore passo dopo passo, finché emerge un'immagine.

Proprio come Wu Sheng: prima copri la pagina di caos (puro rumore), poi cancella un po' alla volta (denoising graduale), finché il dipinto si rivela.

Training: insegnare al modello come fare denoising

Training: la diffusion in avanti aggiunge rumore; il modello impara a invertire il processo

Nel training, il modello impara così.

Passo 1: prendi un'immagine reale — diciamo, un gatto.

Passo 2: aggiungi rumore ripetutamente:

Step 1: il gatto è ancora chiaro
Step 100: inizia a sfocarsi
Step 500: appena visibile
Step 1000: pura interferenza casuale da TV

Passo 3: addestra il modello a rispondere: "Se sembra così disordinato adesso, com'era probabilmente l'immagine originale?"

Cioè, impara il processo inverso: da caos → chiarezza.

Questo è il nocciolo.

Generazione: dipingere davvero un'immagine

Generazione: partendo da puro rumore, il modello scolpisce l'immagine

Quando genera davvero un'immagine, il modello non ha un'immagine da cui partire. Ha solo un blob di rumore casuale e un prompt:

An orange cat wearing an astronaut helmet, sipping coffee on the moon.

Quindi inizia:

Step 1: piccolo denoising
Step 30: appare una silhouette di gatto
Step 80: spunta il casco
Step 150: prende forma lo sfondo lunare
Step 300: i dettagli si fissano

E l'immagine nasce.

Perché il testo può guidare l'immagine?

Generazione condizionale: il testo guida ogni passo di denoising

Perché c'è un altro modulo chiave: il Text Encoder.

Trasforma "gatto arancione + astronauta + luna + caffè" in un vettore di numeri (un segnale di condizionamento), e durante ogni passo di denoising ricorda continuamente al modello:

"Non dimenticare — gatto arancione, non gatto nero."
"Sulla luna, non in cucina."

Si chiama Generazione Condizionale (Conditional Generation).

Perché diffusion ha battuto le GAN?

Diffusion vs GAN: stabilità, controllo, qualità, scala

I precedenti generatori di immagini AI si basavano sulle GAN (Generative Adversarial Networks). Ma le GAN erano notoriamente instabili, soggette a mode collapse, difficili da addestrare e limitate nella diversità.

Diffusion è più stabile, più controllabile, di qualità superiore e scala meglio a modelli grandi. Per questo è silenziosamente diventato lo standard dell'era moderna.

La verità in una frase

La generazione di immagini AI non è "creazione." È:

Cercare il risultato che assomiglia di più a un'immagine dentro uno spazio di probabilità.

È come chiedere, ancora e ancora, dentro un caos infinito: "Qual è il prossimo passo più plausibile qui?"

Questa è l'idea più profonda della moderna AI generativa.

Il pittore nella nebbia — capire i modelli diffusion attraverso una favola

Indice