Обзор
GPT Image 1 — первая нативно мультимодальная модель OpenAI для генерации изображений, построенная на GPT-4o и выпущенная в апреле 2025 года. В отличие от моделей на основе диффузии, она генерирует изображения токен за токеном — тем же авторегрессивным методом, что и языковые модели GPT. Это обеспечивает более точное следование промпту и более согласованные композиции. Вскоре после запуска модель стала вирусной благодаря способности создавать иллюстрации в стиле Ghibli.
Сценарии использования
Быстрое творческое исследование и мудборды. Визуалы для социальных сетей и превью. Эскизы продуктовых концепций. Редактирование изображений с помощью инструкций на естественном языке — загрузите до 5 референсных изображений для управления стилем или композицией.
Входные параметры
Все параметры передаются в объекте input запроса на выполнение.
| Parameter | Required | Description |
|---|
| prompt | Yes | Текстовое описание генерируемого изображения (1–4000 символов) |
| aspect_ratio | No | Соотношение сторон. По умолчанию 1:1. Варианты: 1:1, 3:2, 2:3 |
| image_urls | No | До 5 референсных изображений (макс. 4 MB каждое) для редактирования |
Советы по промптам
Задавайте стилистическое направление
GPT Image 1 отлично работает с узнаваемыми художественными стилями. Упоминание конкретной эстетики — «Studio Ghibli watercolor», «vintage travel poster», «flat vector illustration» — даёт более выразительные результаты, чем общие описания.
Делайте промпты сфокусированными
При наличии только 3 соотношений сторон и без управления разрешением простые композиции работают лучше. Описывайте ключевой субъект и настроение, а не загружайте промпт деталями компоновки.
Ограничения
- Только 3 соотношения сторон (1:1, 3:2, 2:3)
- Нет управления разрешением — разрешение вывода определяется моделью
- Сложный или мелкий текст на изображениях может потребовать итераций для точности
- Длина промпта ограничена 4000 символами
- Максимум 5 референсных изображений на запрос, 4 MB каждое
Часто задаваемые вопросы
Чем GPT Image 1 отличается от DALL-E?
GPT Image 1 использует авторегрессивную архитектуру (генерация токен за токеном) вместо диффузии. Это обычно обеспечивает лучшее следование промпту и более согласованные композиции.
Какие соотношения сторон доступны?
Три варианта: 1:1, 3:2 и 2:3. По умолчанию 1:1.
Можно ли редактировать существующие изображения?
Да. Загрузите до 5 референсных изображений через image_urls, чтобы направить генерацию с помощью собственных визуалов.