Veo 3.1 Fast - Runbase

輸入

輸出查看全部

輸出結果會顯示在這裡

定價

720p

$0.33

1080p

$0.36

範例

電影級戰場

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

概述

Veo 3.1 Fast 是 Google DeepMind Veo 3.1 影片模型的速度與成本優化版本。與 Veo 3 系列其他模型一樣，它原生產生音訊 — 在單次產生中同步輸出對白、音效和環境音。模型可產生最高 1080p 的影片，支援兩種比例（16:9 和 9:16），並接受最多兩張畫格圖片用於圖片轉影片，實現首幀和尾幀控制。

使用情境

音訊不可或缺的電影級內容 — 帶有環境音的自然紀錄片、帶有衝擊效果的產品發布。帶有原生音效設計的社群短片和直式影片。使用首尾幀的圖片轉影片，精確控制動態弧線。帶有同步語音的對白場景和角色敘事。

輸入參數

所有參數都在執行請求的 input 物件中傳遞。

Parameter	Required	Description
prompt	Yes	文字描述（1–5000 字元）
aspect_ratio	No	預設 `16:9`。選項：`16:9`、`9:16`
resolution	No	預設 `720p`。選項：`720p`、`1080p`
image_urls	No	最多 2 張畫格圖片（每張最大 10 MB）用於圖片轉影片

提示詞技巧

在場景中描述聲景

Veo 3 原生產生音訊。暗示聲音的提示詞 — 「rain on a tin roof」、「crowd cheering in a stadium」、「whispered conversation」 — 會產出比純視覺描述更豐富、更沉浸的輸出。

用兩張圖片控制動態弧線

上傳一張首幀圖片和一張作為結尾狀態的圖片。Veo 3 會在兩者之間插值，讓你同時控制起始構圖和最終姿態或構圖。

具體描述鏡頭行為

「slow tracking shot」、「static wide angle」或「handheld close-up」等描述會直接轉換為鏡頭運動。模糊的提示詞會產生平淡的動態。

限制

僅有 2 種比例（16:9 和 9:16）— 沒有正方形或超寬選項
沒有時長參數 — 模型自動決定片段長度
沒有低於 720p 的解析度可選
產生時間可能比競品模型長
沒有 generate_audio 開關 — 模型不提供音訊輸出的控制選項

常見問題

可以關閉音訊產生嗎？

不行。Veo 3 Fast 始終原生產生音訊，不提供 generate_audio 開關來關閉。（某些其他模型，如 ByteDance 的 Seedance，有提供 generate_audio 開關。）

可以控制影片時長嗎？

不行。Veo 3 不提供時長參數。模型根據提示詞內容決定片段長度。一般輸出從幾秒到約 8 秒不等。

兩張畫格圖片如何運作？

第一張圖片設定開場畫面；第二張設定目標結尾狀態。模型產生在兩者之間過渡的影片。也可以只提供一張圖片來固定起始畫面。