GPT Image 1 - Runbase

輸入

輸出查看全部

輸出結果會顯示在這裡

定價

固定

$0.05

範例

賽博龐克城市

1:1

A serene cyberpunk cityscape at twilight, with neon signs glowing in vibrant blues and purples, reflecting on rain-slick streets. Sleek futuristic buildings tower above, connected by glowing skybridges. A lone figure in a hooded jacket stands under a streetlamp, backlit by soft mist. The atmosphere is cinematic, moody

概述

GPT Image 1 是 OpenAI 首款原生多模態圖片模型，基於 GPT-4o 構建，於 2025 年 4 月發布。不同於擴散式圖片模型，它以逐 token 方式產生圖片 — 與 GPT 語言模型相同的自迴歸方法。這賦予它更強的提示詞遵循度和更連貫的構圖。發布後不久因能產出吉卜力風格插畫而爆紅。

使用情境

快速創意探索和情緒板。社群媒體視覺素材和縮圖。產品概念草圖。使用自然語言指令的圖片編輯 — 上傳最多 5 張參考圖片來引導風格或構圖。

輸入參數

所有參數都在執行請求的 input 物件中傳遞。

Parameter	Required	Description
prompt	Yes	圖片的文字描述（1–4000 字元）
aspect_ratio	No	輸出比例。預設 `1:1`。選項：`1:1`、`3:2`、`2:3`
image_urls	No	最多 5 張參考圖片（每張最大 4 MB）用於圖片編輯

提示詞技巧

善用風格指引

GPT Image 1 擅長辨識具體的藝術風格。提及特定美學 — 「Studio Ghibli watercolor」、「vintage travel poster」、「flat vector illustration」 — 比泛泛的描述產出更獨特的結果。

提示詞保持聚焦

僅有 3 種比例且無解析度控制，較簡單的構圖通常效果最好。描述核心主體和氛圍，而非塞入版面細節。

限制

僅有 3 種比例可用（1:1、3:2、2:3）
無解析度控制 — 輸出解析度由模型決定
圖片中的複雜或小字可能需要反覆調整才能準確
提示詞長度上限 4000 字元
每次請求最多 5 張參考圖片，每張 4 MB

常見問題

GPT Image 1 和 DALL-E 有什麼差異？

GPT Image 1 使用自迴歸架構（逐 token 產生）而非擴散式。這通常產出更好的提示詞遵循度和更連貫的構圖。

有哪些比例可選？

三種選項：1:1、3:2 和 2:3。預設為 1:1。

可以編輯現有圖片嗎？

可以。透過 image_urls 上傳最多 5 張參考圖片來引導產生。