Extracto del blog
El pintor en la niebla — entender los modelos de difusión a través de una fábula
Párrafos extraídos con sus ilustraciones colocadas por la IA. El artículo completo está en el post original.
Tomó una hoja en blanco — en lugar de poner un trazo, la cubrió por completo con una pintura gris oscura y dispersa. El público se removió: «Está perdido.» Wu Xing respondió: «Una pintura de verdad debe primero aprender a esconderse.»

Durante el aprendizaje, así aprende el modelo: tomas una foto real de un gato y le añades ruido, una y otra vez — a 1 paso aún se ve nítido; a 100 se vuelve borroso; a 1 000 es nieve televisiva pura y aleatoria. Después le pides a la IA que responda al revés: «Si ahora está así de revuelto, ¿a qué se parecía al principio?»

En el momento de la generación real, el modelo no tiene imagen — solo un bloque de ruido aleatorio y un prompt. Paso 1: un denoising ligero. Paso 30: emerge la silueta de un gato. Paso 80: se ve un casco. Paso 150: la luna del fondo se forma. Paso 300: los detalles cuajan. La imagen ha nacido.

¿Por qué el texto puede pilotar la imagen? Gracias al codificador de texto. Convierte «gato pelirrojo + astronauta + luna + café» en un vector numérico y, en cada paso de denoising, recuerda al modelo: «gato pelirrojo, no negro. En la luna, no en la cocina.»

Antes, los generadores de imágenes IA se apoyaban en GAN, pero los GAN son notoriamente inestables, propensos al mode collapse, difíciles de entrenar y poco diversos. Los modelos de difusión son más estables, más controlables, de mejor calidad y escalan mejor — por eso se han convertido silenciosamente en el estándar moderno.

—— aproximadamente 1 500 caracteres omitidos ——
