Veo 3.1 Fast - Runbase

入力

出力すべて表示

ここに出力が表示されます

料金

720p

$0.33

1080p

$0.36

サンプル

シネマティック戦場

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

概要

Veo 3.1 Fast は、Google DeepMind の Veo 3.1 動画モデルの速度・コスト最適化バリアントです。Veo 3 ファミリーの他のモデルと同様にネイティブ音声生成に対応しており、同期した対話、効果音、環境音を映像と 1 パスで同時に生成します。最大 1080p で 2 つのアスペクト比（16:9 と 9:16）に対応し、画像から動画では最大 2 枚のフレーム画像を受け付けて、最初のフレームと最後のフレームの制御が可能です。

ユースケース

音声が不可欠なシネマティックコンテンツ — 環境音付きの自然ドキュメンタリー、インパクト効果音付きの商品お披露目。ネイティブサウンドデザイン付きの SNS リールや縦型動画。開始・終了フレーム制御による画像から動画でのアニメーションアーク。同期スピーチを含む対話シーンやキャラクター主導のナラティブ。

入力パラメータ

すべてのパラメータは実行リクエストの input オブジェクトで指定します。

Parameter	Required	Description
prompt	Yes	テキスト説明（1〜5000 文字）
aspect_ratio	No	デフォルト `16:9`。選択肢: `16:9`, `9:16`
resolution	No	デフォルト `720p`。選択肢: `720p`, `1080p`
image_urls	No	画像から動画用のフレーム画像（最大 2 枚、各 10 MB 以下）

プロンプトのコツ

シーンの音風景を記述する

Veo 3 はネイティブに音声を生成します。「トタン屋根に打ち付ける雨」「スタジアムで歓声を上げる観客」「ひそひそ話」など、音を暗示するプロンプトは、純粋に視覚的な記述よりもリッチで没入感のある出力を生みます。

2 枚の画像でモーションアークを制御する

最初のフレーム画像と最終状態の 2 枚目の画像をアップロードしてください。Veo 3 が両者の間を補間し、開始構図と最終ポーズ・フレーミングの両方を制御できます。

カメラの動きを具体的に指示する

「スロートラッキングショット」「固定ワイドアングル」「手持ちクローズアップ」などのフレーズがカメラの動きに直接反映されます。あいまいなプロンプトは汎用的な動きになります。

制限事項

アスペクト比は 2 種類のみ（16:9 と 9:16）で、スクエアやウルトラワイドのオプションなし
再生時間パラメータなし — クリップの長さはモデルが自動決定
720p 未満の解像度は利用不可
他のモデルと比較して生成時間が長い場合がある
generate_audio トグルなし — 音声出力を制御するオプションは公開されていない

よくある質問

音声生成を無効にできますか？

できません。Veo 3 Fast は常にネイティブに音声を生成し、generate_audio トグルは公開されていません。（ByteDance の Seedance など、他のモデルでは generate_audio スイッチが提供されています。）

動画の再生時間を制御できますか？

できません。Veo 3 は再生時間パラメータを公開していません。クリップの長さはプロンプトの内容に基づいてモデルが決定します。通常、数秒から約 8 秒程度の出力になります。

2 枚のフレーム画像はどのように機能しますか？

1 枚目の画像が開始フレームを設定し、2 枚目が目標の最終状態を設定します。モデルが両者の間を遷移する動画を生成します。開始フレームのみを固定する場合は、1 枚だけ提供することも可能です。