Entender la difusión con una fábula

Hace mucho tiempo, encajada entre las montañas del norte, una pequeña ciudad estaba todo el año envuelta en una niebla densa. Se llamaba Niebla-Blanca. En ella vivía un joven pintor llamado Wu Xing.

Tenía un don extraño: mientras los demás pintores ven las cosas con claridad y las pintan trazo a trazo, él hacía lo contrario — siempre empezaba por «entrever» despacio un cuadro en el corazón de una neblina desordenada.

Los habitantes lo encontraban ridículo. «¿Cómo va a haber un cuadro en la niebla?». Wu Xing se limitaba a sonreír, sin explicarse.

El pintor en la niebla y la biblioteca sobre el mar

La biblioteca flotante

Un día, el señor de la ciudad lo mandó llamar: «Quiero un cuadro que nunca ha existido — una biblioteca flotando sobre el mar al crepúsculo, bajo dos lunas en el cielo».

Todo el mundo se echó a reír. «Tal lugar no existe, ¿cómo vas a pintarlo?».

Wu Xing, sin embargo, asintió: «Puedo hacerlo».

Cogió una hoja en blanco, pero no pintó. Empezó por embadurnar toda la hoja de gris-negro, sin orden, como una ventana tras una gran nevada: ya no se distinguía nada. Todos estaban aún más perdidos: «No hace más que estropear su cuadro».

Wu Xing respondió: «Un cuadro de verdad debe primero aprender a esconderse».

Los días siguientes, hizo una sola cosa cada día: limpiar un poco de desorden. No todo, no de golpe. Solo un poco.

Hoy limpiaba la luz y la sombra; mañana, la línea de costa; pasado, el contorno de las estanterías aparecía débilmente; más tarde, dos lunas emergían de la niebla. Parecía negociar con la niebla. No creaba — interrogaba, una y otra vez: «¿Qué debía haber aquí, en su origen?». Si el gesto era erróneo, rectificaba. Si era borroso, seguía observando.

Cuarenta y nueve días en total.

Y al final, sobre esa hoja, una biblioteca flotaba de verdad sobre el mar. El mar estaba en calma, los anaqueles temblaban, el crepúsculo respiraba como oro y dos lunas estaban suspendidas a lo lejos.

¿De dónde viene la niebla?

Toda la ciudad quedó conmocionada. Alguien preguntó: «Pero ¿cómo lo has hecho? Al principio no había nada».

Wu Xing negó con la cabeza. «No, todo estaba ahí desde el principio. Solo que estaba ahogado en la niebla».

El señor insistió: «Pero ¿cómo sabías dónde limpiar?».

Wu Xing respondió: «Porque me habían dado primero los nombres. "Biblioteca flotante", "dos lunas", "crepúsculo", "mar". Esas palabras eran como campanas lejanas. Las seguí para encontrar mi camino en la niebla».

Más tarde, tomó un discípulo. El discípulo estudió mucho tiempo sin captar la esencia. Siempre pensaba: «Quiero pintar directamente el resultado».

Wu Xing lo llevó a la cima de la montaña. Al amanecer, una niebla densa cubría la cumbre. Dijo: «¿Ves esa torre?». El discípulo respondió: «No». Wu Xing preguntó: «¿Por eso no existe?».

El discípulo guardó silencio.

Wu Xing prosiguió: «Lo mismo pasa con la pintura. No eres el creador de un mundo nacido de la nada. Te acercas poco a poco, desde el caos, al mundo más coherente. Pintar de verdad no es dejar el pincel — es retirar el ruido».

Durante años, los habitantes de Niebla-Blanca recordaron al pintor. Contaban: no pintó un cuadro, le mostró al mundo cómo el orden puede emerger lentamente del desorden.

Bajo la fábula, el saber real: los modelos de difusión

Toda esta fábula describe el principio más central de la generación moderna de imágenes con IA: los modelos de difusión (Diffusion Models).

Stable Diffusion, Midjourney y el GPT Image 2 que se usa en nuestro sitio — en el fondo, todos se apoyan en gran medida en esta idea.

En una frase:

No se pinta directamente el cuadro desde el principio; se parte de un montón de ruido aleatorio y, paso a paso, se «desruidifica» hasta obtener una imagen.

Como Wu Xing en la fábula: primero se emborrona el papel (ruido puro), después se va limpiando punto por punto (desruidificación progresiva), y al final se obtiene una imagen.

Fase de aprendizaje: enseñar a la IA cómo «desruidificar»

Fase de aprendizaje: aprender el camino inverso, de la imagen nítida al ruido

Durante el entrenamiento, el modelo aprende así:

Primero, se toma una foto real. Pongamos la de un gato.

Después, se le añade ruido, sin parar:

1.ª iteración: el gato sigue nítido
100.ª iteración: empieza a verse borroso
500.ª iteración: apenas se distingue
1000.ª iteración: es nieve televisiva pura

Por último, se entrena a la IA para responder a: «Si ahora tiene tanto ruido, ¿a qué debía parecerse la imagen original?».

Es decir, aprende el camino inverso: desorden → nitidez.

Ese es el núcleo del principio.

Fase de generación: pasar a pintar

Fase de generación: a partir de ruido puro, se retira el ruido paso a paso hasta llegar a la imagen final

En una generación real, la IA no tiene ninguna imagen al principio. Solo un montón de ruido aleatorio y un prompt:

Un gato naranja con casco de astronauta, bebiendo un café en la Luna

Y el modelo se pone en marcha:

Paso 1: desruidificación ligera
Paso 30: emerge la silueta del gato
Paso 80: aparece el casco de astronauta
Paso 150: el fondo lunar toma forma
Paso 300: los detalles se completan

La imagen ha nacido.

Pero ¿cómo puede el texto pilotar la imagen?

Generación condicionada: el texto sirve de condición que guía cada paso de desruidificación

Porque existe otro módulo clave: el codificador de texto (Text Encoder).

Convierte «gato naranja + astronauta + Luna + café» en un vector matemático (una señal de condicionamiento) que recuerda al modelo, durante toda la desruidificación:

«No olvides, es un gato naranja, no un gato negro».
«Estamos en la Luna, no en una cocina».

Es lo que se llama generación condicionada (Conditional Generation).

¿Por qué la difusión es más potente que las GAN?

Difusión vs GAN: comparación en 4 ejes — estabilidad, control, calidad, escalabilidad

Los primeros modelos de generación de imágenes con IA se apoyaban sobre todo en las GAN (redes generativas adversarias). Pero las GAN solían ser inestables, propensas al colapso, difíciles de entrenar y poco diversas.

Los modelos de difusión son más estables, más fáciles de controlar, de mejor calidad y mucho mejor adaptados a la era de los modelos grandes. Por eso se han convertido en el estándar de facto.

La frase más esencial

La esencia de la generación de imágenes con IA no es la «creación»:

Es buscar, en el espacio de las probabilidades, el resultado que «más se parece a una imagen».

Como si, en el desorden infinito, preguntáramos sin parar: «¿Cuál es el siguiente paso más coherente desde aquí?».

Ese es el pensamiento más profundo de la IA generativa moderna.

El pintor en la niebla — entender la difusión a través de una fábula

Índice