Há muito tempo, em uma pequena vila aninhada entre montanhas do norte, havia um lugar para sempre envolto em densa neblina, chamado Bailan.
Em Bailan vivia um jovem pintor chamado Wu Sheng — "Nascido da Neblina".
Ele tinha um dom estranho. Outros pintores primeiro olhavam claramente para algo e depois desenhavam traço a traço. Ele trabalhava ao contrário — fitava uma massa rodopiante de neblina e lentamente via uma pintura emergir.
As pessoas achavam absurdo. "Como pode haver uma pintura na neblina?" Wu Sheng só sorria e nunca explicava.

Uma biblioteca sobre o mar
Um dia, o velho governador da cidade o convocou. "Quero uma pintura de algo que nunca existiu: uma biblioteca flutuando sobre o mar, ao entardecer, com duas luas no céu."
A sala explodiu em risos. "Tal lugar não existe. Como alguém poderia pintá-lo?"
Mas Wu Sheng simplesmente acenou. "Eu posso."
Ele pegou uma folha de papel branco — e em vez de tocar nele com o pincel, cobriu a folha inteira de tinta cinza-escura caótica, como uma janela depois de uma nevasca. Nada era visível. Os espectadores ficaram ainda mais confusos. "Você está estragando."
Wu Sheng respondeu: "Uma pintura real precisa primeiro aprender a se esconder."
Pelos dias seguintes, ele só fez uma coisa: apagar um pouquinho do caos por vez. Não tudo de uma vez. Não em traços largos. Só um pouco.
Um dia, ele descobriu uma manchinha tênue de luz. No outro, um trecho de costa. No dia seguinte, a sugestão de prateleiras de livros. Mais tarde, duas luas flutuaram para fora da névoa. Ele parecia em negociação com a própria neblina. Não criando, mas perguntando constantemente: "O que deveria estar aqui?" Quando apagava errado, repensava. Quando algo permanecia obscuro, continuava observando.
Por quarenta e nove dias.
No fim, o papel realmente continha uma biblioteca flutuando sobre o mar. A água estava imóvel. As páginas dos livros viravam. O entardecer pendia no céu como um suspiro dourado. Duas luas flutuavam à distância.
De onde vem a neblina?
A cidade ficou pasma. Alguém perguntou: "Como você fez isso? Começou do nada."
Wu Sheng balançou a cabeça. "Não — comecei com tudo. Estava tudo escondido dentro da neblina."
O governador insistiu: "Então como sabia o que apagar?"
Wu Sheng respondeu: "Porque primeiro ouvi os nomes. Biblioteca flutuante. Duas luas. Entardecer. Mar. As palavras eram como sinos distantes. Segui o som através da neblina e encontrei o caminho."
Anos depois, tomou um aprendiz. O menino estudou muito tempo, mas nunca pegou. Continuava pensando: Eu quero pintar o resultado direto.
Então Wu Sheng o levou ao topo da montanha. A névoa da manhã rolava densa pelas encostas.
"Você vê a torre?", perguntou Wu Sheng.
"Não", disse o aprendiz.
"Então ela não existe?"
O aprendiz silenciou.
Wu Sheng disse: "Pintar é igual. Você não cria um mundo do nada. Você caminha, passo a passo, em direção ao mundo mais plausível dentro do caos. Pintura real não é dar pinceladas. É remover ruído."
Anos depois, o povo de Bailan ainda falava dele. Diziam: ele não estava pintando. Estava ensinando o mundo a fazer ordem crescer lentamente do caos.
A ideia real: modelos de difusão
Toda essa história mapeia para o princípio central por trás da geração moderna de imagens com IA — o modelo de difusão.
Stable Diffusion, Midjourney e o modelo GPT Image 2 que move este site dependem fortemente dessa ideia.
Em uma frase:
O modelo não pinta do zero. Começa com puro ruído aleatório e remove ruído passo a passo, até uma imagem emergir.
Igual a Wu Sheng: cubra a página com caos primeiro (puro ruído), depois apague um pouquinho por vez (denoising gradual), até a pintura ser revelada.
Treino: ensinando o modelo a remover ruído

No treino, o modelo aprende assim.
Passo 1: pegue uma imagem real — digamos, um gato.
Passo 2: adicione ruído a ela, repetidamente:
- Passo 1: gato ainda nítido
- Passo 100: começando a borrar
- Passo 500: mal visível
- Passo 1000: estática pura de TV
Passo 3: treine o modelo a responder: "Se está bagunçado assim agora, como provavelmente era a imagem original?"
Isto é, aprenda o processo reverso: do caos → à clareza.
Esse é o cerne.
Geração: pintando uma imagem de verdade

Ao gerar uma imagem de verdade, o modelo não tem imagem de partida. Só uma mancha de ruído aleatório e um prompt:
Um gato laranja vestindo um capacete de astronauta, tomando café na lua.
Então começa:
- Passo 1: pequeno denoising
- Passo 30: aparece silhueta de gato
- Passo 80: o capacete surge
- Passo 150: o fundo lunar toma forma
- Passo 300: detalhes se assentam
E a imagem nasce.
Por que o texto pode guiar a imagem?

Porque há outro módulo chave: o Text Encoder.
Ele transforma "gato laranja + astronauta + lua + café" em um vetor de números (sinal de condicionamento) e, em cada passo de denoising, lembra o modelo:
- "Não esqueça — gato laranja, não gato preto."
- "Na lua, não na cozinha."
Isto se chama Geração Condicional.
Por que a difusão venceu as GANs?

Geradores de imagem por IA mais antigos dependiam de GANs (Generative Adversarial Networks). Mas GANs eram notoriamente instáveis, propensas a colapso de modos, difíceis de treinar e limitadas em diversidade.
Difusão é mais estável, mais controlável, de qualidade superior e escala melhor para modelos grandes. Por isso virou silenciosamente o padrão da era moderna.
A verdade em uma frase
A geração de imagens com IA não é "criação". É:
Buscar o resultado que parece mais com uma imagem dentro de um espaço de probabilidade.
É como perguntar, repetidamente, dentro do caos infinito: "Qual o próximo passo mais plausível aqui?"
Essa é a ideia mais profunda da IA generativa moderna.
