Blog-Auszug
Der Maler im Nebel – Diffusionsmodelle anhand einer Fabel verstehen
Extrahierte Absätze mit den von der KI platzierten Illustrationen. Der vollständige Artikel ist im Originalbeitrag.
Er nahm ein weißes Blatt – statt einen Strich zu setzen, bedeckte er es vollständig mit dunkelgrauer, verstreuter Farbe. Das Publikum geriet in Aufruhr: „Das ist ruiniert.“ Wu Xing erwiderte: „Eine echte Malerei muss zuerst lernen, sich zu verbergen.“

Beim Training lernt das Modell so: Wir nehmen ein echtes Foto einer Katze und fügen ihm immer wieder Rauschen hinzu – nach 1 Schritt ist es noch klar; nach 100 wird es unscharf; nach 1.000 ist es reines zufälliges Bildschirmrauschen. Dann fragen wir die KI umgekehrt: „Wenn es jetzt so ungeordnet ist, wie sah es ursprünglich aus?“

Bei der eigentlichen Generierung hat das Modell kein Bild – nur einen Block aus zufälligem Rauschen und einen Prompt. Schritt 1: leichtes Entrauschen. Schritt 30: die Silhouette einer Katze taucht auf. Schritt 80: ein Helm wird sichtbar. Schritt 150: der Mond im Hintergrund formt sich. Schritt 300: die Details fixieren sich. Das Bild ist geboren.

Warum kann der Text das Bild steuern? Dank des Text-Encoders. Er wandelt „rote Katze + Astronaut + Mond + Café“ in einen numerischen Vektor um und erinnert das Modell bei jedem Entrauschungsschritt: „rote Katze, nicht schwarz. Auf dem Mond, nicht in der Küche.“

Früher stützten sich KI-Bildgeneratoren auf GANs, doch GANs sind notorisch instabil, anfällig für Mode Collapse, schwer zu trainieren und wenig vielfältig. Diffusionsmodelle sind stabiler, kontrollierbarer, von höherer Qualität und besser skalierbar – deshalb sind sie still und leise zum modernen Standard geworden.

—— ca. 1.500 Zeichen ausgelassen ——
