Panoramica
GPT Image 1 è il primo modello immagine nativamente multimodale di OpenAI, basato su GPT-4o e rilasciato ad aprile 2025. A differenza dei modelli immagine basati su diffusione, genera immagini token per token — lo stesso approccio autoregressivo usato nei modelli linguistici GPT. Questo gli conferisce una maggiore aderenza al prompt e composizioni più coerenti. È diventato virale poco dopo il lancio per la sua capacità di produrre illustrazioni in stile Ghibli.
Casi d'uso
Esplorazione creativa rapida e moodboard. Visual per social media e miniature. Bozze di concept di prodotto. Editing di immagini con istruzioni in linguaggio naturale — carica fino a 5 immagini di riferimento per guidare stile o composizione.
Input
Tutti i parametri vengono passati nell'oggetto input della richiesta di esecuzione.
| Parameter | Required | Description |
|---|
| prompt | Yes | Descrizione testuale dell'immagine da generare (1–4000 caratteri) |
| aspect_ratio | No | Aspect ratio dell'output. Default 1:1. Opzioni: 1:1, 3:2, 2:3 |
| image_urls | No | Fino a 5 immagini di riferimento (max 4 MB ciascuna) per editing immagini |
Suggerimenti per i prompt
Punta sulle direzioni stilistiche
GPT Image 1 eccelle con stili artistici riconoscibili. Menzionare un'estetica specifica — "Studio Ghibli watercolor", "vintage travel poster", "flat vector illustration" — produce risultati più distintivi rispetto a descrizioni generiche.
Mantieni i prompt focalizzati
Con solo 3 aspect ratio e nessun controllo sulla risoluzione, le composizioni più semplici tendono a funzionare meglio. Descrivi il soggetto principale e l'atmosfera piuttosto che inserire dettagli di layout.
Limitazioni
- Solo 3 aspect ratio disponibili (1:1, 3:2, 2:3)
- Nessun controllo sulla risoluzione — la risoluzione dell'output è fissa e determinata dal modello
- Il testo complesso o di piccole dimensioni nelle immagini può richiedere iterazione per ottenere accuratezza
- Lunghezza del prompt limitata a 4000 caratteri
- Massimo 5 immagini di riferimento per richiesta, 4 MB ciascuna
FAQ
Che differenza c'è tra GPT Image 1 e DALL-E?
GPT Image 1 usa un'architettura autoregressiva (generazione token per token) invece della diffusione. Questo generalmente produce una migliore aderenza al prompt e composizioni più coerenti.
Quali aspect ratio sono disponibili?
Tre opzioni: 1:1, 3:2 e 2:3. Il default è 1:1.
Posso modificare immagini esistenti?
Sì. Carica fino a 5 immagini di riferimento tramite image_urls per guidare la generazione con le tue immagini.