Übersicht
GPT Image 1 ist OpenAIs erstes nativ multimodales Bildmodell, basierend auf GPT-4o und veröffentlicht im April 2025. Anders als diffusionsbasierte Bildmodelle erzeugt es Bilder Token für Token — derselbe autoregressive Ansatz, der in GPT-Sprachmodellen verwendet wird. Das sorgt für stärkere Prompt-Treue und kohärentere Kompositionen. Kurz nach dem Launch ging es viral durch seine Fähigkeit, Illustrationen im Ghibli-Stil zu erzeugen.
Anwendungsfälle
Schnelle kreative Exploration und Moodboarding. Social-Media-Bilder und Thumbnails. Produkt-Konzeptskizzen. Bildbearbeitung mit natürlichsprachlichen Anweisungen — laden Sie bis zu 5 Referenzbilder hoch, um Stil oder Komposition zu steuern.
Eingaben
Alle Parameter werden im input-Objekt des Run-Requests übergeben.
| Parameter | Required | Description |
|---|
| prompt | Yes | Textbeschreibung des zu erzeugenden Bildes (1–4000 Zeichen) |
| aspect_ratio | No | Seitenverhältnis der Ausgabe. Standard 1:1. Optionen: 1:1, 3:2, 2:3 |
| image_urls | No | Bis zu 5 Referenzbilder (max. 4 MB pro Bild) zur Bildbearbeitung |
Prompt-Tipps
Stilistische Richtungen nutzen
GPT Image 1 zeichnet sich bei erkennbaren Kunststilen aus. Die Erwähnung einer spezifischen Ästhetik — „Studio Ghibli watercolor", „vintage travel poster", „flat vector illustration" — liefert markantere Ergebnisse als generische Beschreibungen.
Prompts fokussiert halten
Mit nur 3 Seitenverhältnissen und ohne Auflösungssteuerung funktionieren einfachere Kompositionen tendenziell am besten. Beschreiben Sie das Kernmotiv und die Stimmung, statt Layout-Details hineinzupacken.
Einschränkungen
- Nur 3 Seitenverhältnisse verfügbar (1:1, 3:2, 2:3)
- Keine Auflösungssteuerung — die Ausgabeauflösung wird vom Modell festgelegt
- Komplexer oder kleiner Text in Bildern erfordert möglicherweise Iteration für Genauigkeit
- Prompt-Länge auf 4000 Zeichen begrenzt
- Maximal 5 Referenzbilder pro Anfrage, je 4 MB
Häufige Fragen
Wie unterscheidet sich GPT Image 1 von DALL-E?
GPT Image 1 verwendet eine autoregressive Architektur (Token-für-Token-Generierung) anstelle von Diffusion. Dies liefert generell bessere Prompt-Treue und kohärentere Kompositionen.
Welche Seitenverhältnisse sind verfügbar?
Drei Optionen: 1:1, 3:2 und 2:3. Der Standard ist 1:1.
Kann ich bestehende Bilder bearbeiten?
Ja. Laden Sie bis zu 5 Referenzbilder über image_urls hoch, um die Generierung mit eigenen Bildern zu steuern.