Présentation
GPT Image 1 est le premier modèle d'image nativement multimodal d'OpenAI, construit sur GPT-4o et sorti en avril 2025. Contrairement aux modèles d'image basés sur la diffusion, il génère les images token par token — la même approche autorégressive que les modèles de langage GPT. Cela lui confère une meilleure adhérence au prompt et des compositions plus cohérentes. Il est devenu viral peu après son lancement pour sa capacité à produire des illustrations dans le style Ghibli.
Cas d'utilisation
Exploration créative rapide et planches d'ambiance. Visuels pour les réseaux sociaux et miniatures. Esquisses de concepts produit. Édition d'image avec des instructions en langage naturel — chargez jusqu'à 5 images de référence pour guider le style ou la composition.
Entrées
Tous les paramètres sont passés dans l'objet input de la requête d'exécution.
| Parameter | Required | Description |
|---|
| prompt | Yes | Description textuelle de l'image à générer (1–4000 caractères) |
| aspect_ratio | No | Ratio d'aspect de sortie. Par défaut 1:1. Options : 1:1, 3:2, 2:3 |
| image_urls | No | Jusqu'à 5 images de référence (max 4 MB chacune) pour l'édition d'image |
Conseils pour les prompts
Misez sur les directions stylistiques
GPT Image 1 excelle dans les styles artistiques reconnaissables. Mentionner une esthétique spécifique — « Studio Ghibli watercolor », « vintage travel poster », « flat vector illustration » — produit des résultats plus distinctifs que des descriptions génériques.
Gardez les prompts ciblés
Avec seulement 3 ratios d'aspect et pas de contrôle de résolution, les compositions simples tendent à mieux fonctionner. Décrivez le sujet principal et l'ambiance plutôt que d'accumuler les détails de mise en page.
Limitations
- Seulement 3 ratios d'aspect disponibles (1:1, 3:2, 2:3)
- Pas de contrôle de résolution — la résolution de sortie est fixée par le modèle
- Le texte complexe ou petit dans les images peut nécessiter des itérations pour la précision
- Longueur du prompt plafonnée à 4000 caractères
- Maximum 5 images de référence par requête, 4 MB chacune
FAQ
En quoi GPT Image 1 diffère-t-il de DALL-E ?
GPT Image 1 utilise une architecture autorégressive (génération token par token) plutôt que la diffusion. Cela produit généralement une meilleure adhérence au prompt et des compositions plus cohérentes.
Quels ratios d'aspect sont disponibles ?
Trois options : 1:1, 3:2, et 2:3. La valeur par défaut est 1:1.
Puis-je éditer des images existantes ?
Oui. Chargez jusqu'à 5 images de référence via image_urls pour guider la génération avec vos propres visuels.