GPT Image 2 ist OpenAIs Bildgenerierungsmodell von 2026. Nachfolger von GPT Image 1 / DALL·E 3 — und das erste, bei dem viele Teams sagen: „Ok, das ist endlich gut genug zum Ausliefern.“
Hier die ehrliche „Was ist das?“-Version: was es wirklich gut kann, wo es stolpert, und ob sich Zeitinvest lohnt.
In einem Satz
GPT Image 2 ist ein Text-zu-Bild-Modell, das Bilder bearbeiten, echten Text im Bild rendern und lange, mehrteilige Prompts zuverlässiger befolgen kann als vorherige Consumer-Modelle.
Wenn du DALL·E 3 oder Midjourney kennst, fallen dir zuerst drei Dinge auf:
- Text auf Postern und Mockups sagt die richtigen Wörter.
- Du lädst ein Bild hoch, sagst „ändere das“, und der Rest bleibt intakt.
- Lange strukturierte Prompts kommen nah am Briefing — keine reine Vibes-Interpretation.
Der Rest ist Detail.
Was sich gegenüber DALL·E 3 / GPT Image 1 ändert
Echtes Text-Rendering. Ältere Modelle halluzinierten Typo — wirkte wie Überschrift, Buchstaben falsch. GPT Image 2 ist auf Text im Bild trainiert (u. a. EN, ZH, JA, KO). Keine Perfektion bei langen Absätzen — aber 4–12 Wörter oder saubere Infografik sind normal.
Echte Bildbearbeitung. Bestehendes Bild + Anweisung („Hintergrund Strand“, „rote Jacke“) — relevante Pixel ändern, Rest bleibt. Bei DALL·E 3 hieß es meist: neu generieren.
Zusammen das sind die Hebel für echte Produktion — Packaging, App-Screens, Ads, Slides, Manga.
Worin es stark ist
- Poster & Ads mit lesbarer Headline
- Produktmockups — Verpackung, UI mit Text, Preisschild
- Infografiken & Slide-Layouts — beschriftete Diagramme, Schritt-Karten
- Mehrsprachig — z. B. 新年快乐 neben „Happy New Year“
- Lokalisierte Fotobearbeitung — Lächeln, Sonnenbrille weg, Farbe ändern
Woran es noch scheitert (realistisch bleiben)
- Lange Textblöcke im Bild — über ~40 Wörter wird’s schlecht. Kurz halten.
- Hände & verschlungene Gliedmaßen — besser, nicht perfekt.
- Exakte Marken-Reproduktion — generisches Logo ja, eure Corporate Identity nur mit Referenz.
- Pixelgleiche Reproduzierbarkeit — zwei Runs, zwei Bilder. Feature zum Erkunden, manchmal nervig.
Projekte, die davon abhängen: mit Bearbeitungs-Workflow planen.
Größen, Qualität, Praxis
Ausgaben u. a.:
- 1024×1024 — Social, Profil, Thumbnails
- 1024×1536 — Hochformat, Stories, Wallpaper
- 1536×1024 — Blog-Header, Slides, YouTube
Standard (schnell, günstig, zum Erkunden) und High Quality (mehr Detail, mehr Credits). Auf imagesv2 siehst du Credits vor Bestätigung.
Wie du es ausprobierst
Entwickler:in mit eigenem Produkt → OpenAI-API, aber Billing, Tiers, eigenes UI.
Creator, Marketing, Design und du willst einfach nutzen → imagesv2. Google-Login, Playground, Prompt, unter 30 Sekunden am Generieren. Credits vorher sichtbar, bezahlte Pläne ohne Wasserzeichen-Download.
Start: 1,000 Credits für 14,90 $ (einmalig, kein Verfall). In der Praxis merkst du innerhalb einer Woche, ob es dir nützt.
