Trecho do blog
O pintor na névoa — entendendo os modelos de difusão através de uma fábula
Parágrafos extraídos com suas ilustrações colocadas pela IA. O artigo completo está no post original.
Tomou uma folha em branco — em vez de colocar um traço, a cobriu completamente com uma pintura cinza escura e dispersa. O público se remexeu: «Está perdido.» Wu Xing respondeu: «Uma pintura de verdade deve primeiro aprender a se esconder.»

Durante o aprendizado, assim aprende o modelo: você tira uma foto real de um gato e adiciona ruído, uma e outra vez — a 1 passo ainda se vê nítido; a 100 torna-se borrado; a 1 000 é neve televisiva pura e aleatória. Depois você pede à IA que responda ao contrário: «Se agora está assim de bagunçado, como era no início?»

No momento da geração real, o modelo não tem imagem — apenas um bloco de ruído aleatório e um prompt. Passo 1: um denoising leve. Passo 30: emerge a silhueta de um gato. Passo 80: vê-se um capacete. Passo 150: a lua do fundo se forma. Passo 300: os detalhes se solidificam. A imagem nasceu.

Por que o texto pode pilotar a imagem? Graças ao codificador de texto. Converte «gato pelirrojo + astronauta + lua + café» em um vetor numérico e, em cada passo de denoising, lembra ao modelo: «gato pelirrojo, não negro. Na lua, não na cozinha.»

Antes, os geradores de imagens IA se apoiavam em GAN, mas os GAN são notoriamente instáveis, propensos ao mode collapse, difíceis de treinar e pouco diversos. Os modelos de difusão são mais estáveis, mais controláveis, de melhor qualidade e escalam melhor — por isso se tornaram silenciosamente o padrão moderno.

—— aproximadamente 1 500 caracteres omitidos ——
