Modelos de difusão explicados numa fábula

Há muito tempo, em uma pequena vila aninhada entre montanhas do norte, havia um lugar para sempre envolto em densa neblina, chamado Bailan.

Em Bailan vivia um jovem pintor chamado Wu Sheng — "Nascido da Neblina".

Ele tinha um dom estranho. Outros pintores primeiro olhavam claramente para algo e depois desenhavam traço a traço. Ele trabalhava ao contrário — fitava uma massa rodopiante de neblina e lentamente via uma pintura emergir.

As pessoas achavam absurdo. "Como pode haver uma pintura na neblina?" Wu Sheng só sorria e nunca explicava.

O pintor na neblina e a biblioteca sobre o mar

Uma biblioteca sobre o mar

Um dia, o velho governador da cidade o convocou. "Quero uma pintura de algo que nunca existiu: uma biblioteca flutuando sobre o mar, ao entardecer, com duas luas no céu."

A sala explodiu em risos. "Tal lugar não existe. Como alguém poderia pintá-lo?"

Mas Wu Sheng simplesmente acenou. "Eu posso."

Ele pegou uma folha de papel branco — e em vez de tocar nele com o pincel, cobriu a folha inteira de tinta cinza-escura caótica, como uma janela depois de uma nevasca. Nada era visível. Os espectadores ficaram ainda mais confusos. "Você está estragando."

Wu Sheng respondeu: "Uma pintura real precisa primeiro aprender a se esconder."

Pelos dias seguintes, ele só fez uma coisa: apagar um pouquinho do caos por vez. Não tudo de uma vez. Não em traços largos. Só um pouco.

Um dia, ele descobriu uma manchinha tênue de luz. No outro, um trecho de costa. No dia seguinte, a sugestão de prateleiras de livros. Mais tarde, duas luas flutuaram para fora da névoa. Ele parecia em negociação com a própria neblina. Não criando, mas perguntando constantemente: "O que deveria estar aqui?" Quando apagava errado, repensava. Quando algo permanecia obscuro, continuava observando.

Por quarenta e nove dias.

No fim, o papel realmente continha uma biblioteca flutuando sobre o mar. A água estava imóvel. As páginas dos livros viravam. O entardecer pendia no céu como um suspiro dourado. Duas luas flutuavam à distância.

De onde vem a neblina?

A cidade ficou pasma. Alguém perguntou: "Como você fez isso? Começou do nada."

Wu Sheng balançou a cabeça. "Não — comecei com tudo. Estava tudo escondido dentro da neblina."

O governador insistiu: "Então como sabia o que apagar?"

Wu Sheng respondeu: "Porque primeiro ouvi os nomes. Biblioteca flutuante. Duas luas. Entardecer. Mar. As palavras eram como sinos distantes. Segui o som através da neblina e encontrei o caminho."

Anos depois, tomou um aprendiz. O menino estudou muito tempo, mas nunca pegou. Continuava pensando: Eu quero pintar o resultado direto.

Então Wu Sheng o levou ao topo da montanha. A névoa da manhã rolava densa pelas encostas.

"Você vê a torre?", perguntou Wu Sheng.

"Não", disse o aprendiz.

"Então ela não existe?"

O aprendiz silenciou.

Wu Sheng disse: "Pintar é igual. Você não cria um mundo do nada. Você caminha, passo a passo, em direção ao mundo mais plausível dentro do caos. Pintura real não é dar pinceladas. É remover ruído."

Anos depois, o povo de Bailan ainda falava dele. Diziam: ele não estava pintando. Estava ensinando o mundo a fazer ordem crescer lentamente do caos.

A ideia real: modelos de difusão

Toda essa história mapeia para o princípio central por trás da geração moderna de imagens com IA — o modelo de difusão.

Stable Diffusion, Midjourney e o modelo GPT Image 2 que move este site dependem fortemente dessa ideia.

Em uma frase:

O modelo não pinta do zero. Começa com puro ruído aleatório e remove ruído passo a passo, até uma imagem emergir.

Igual a Wu Sheng: cubra a página com caos primeiro (puro ruído), depois apague um pouquinho por vez (denoising gradual), até a pintura ser revelada.

Treino: ensinando o modelo a remover ruído

Treino: difusão direta adiciona ruído; o modelo aprende a reverter

No treino, o modelo aprende assim.

Passo 1: pegue uma imagem real — digamos, um gato.

Passo 2: adicione ruído a ela, repetidamente:

Passo 1: gato ainda nítido
Passo 100: começando a borrar
Passo 500: mal visível
Passo 1000: estática pura de TV

Passo 3: treine o modelo a responder: "Se está bagunçado assim agora, como provavelmente era a imagem original?"

Isto é, aprenda o processo reverso: do caos → à clareza.

Esse é o cerne.

Geração: pintando uma imagem de verdade

Geração: começando do puro ruído, o modelo esculpe a imagem

Ao gerar uma imagem de verdade, o modelo não tem imagem de partida. Só uma mancha de ruído aleatório e um prompt:

Um gato laranja vestindo um capacete de astronauta, tomando café na lua.

Então começa:

Passo 1: pequeno denoising
Passo 30: aparece silhueta de gato
Passo 80: o capacete surge
Passo 150: o fundo lunar toma forma
Passo 300: detalhes se assentam

E a imagem nasce.

Por que o texto pode guiar a imagem?

Geração condicional: o texto guia cada passo de denoising

Porque há outro módulo chave: o Text Encoder.

Ele transforma "gato laranja + astronauta + lua + café" em um vetor de números (sinal de condicionamento) e, em cada passo de denoising, lembra o modelo:

"Não esqueça — gato laranja, não gato preto."
"Na lua, não na cozinha."

Isto se chama Geração Condicional.

Por que a difusão venceu as GANs?

Difusão vs GAN: estabilidade, controle, qualidade, escala

Geradores de imagem por IA mais antigos dependiam de GANs (Generative Adversarial Networks). Mas GANs eram notoriamente instáveis, propensas a colapso de modos, difíceis de treinar e limitadas em diversidade.

Difusão é mais estável, mais controlável, de qualidade superior e escala melhor para modelos grandes. Por isso virou silenciosamente o padrão da era moderna.

A verdade em uma frase

A geração de imagens com IA não é "criação". É:

Buscar o resultado que parece mais com uma imagem dentro de um espaço de probabilidade.

É como perguntar, repetidamente, dentro do caos infinito: "Qual o próximo passo mais plausível aqui?"

Essa é a ideia mais profunda da IA generativa moderna.

O pintor na neblina — entendendo modelos de difusão por meio de uma fábula

Índice