Veo 3.1 Fast - Runbase

Eingabe

AusgabeAlle anzeigen

Ausgabe erscheint hier

Preise

720p

$0.33

1080p

$0.36

Beispiele

Cineastisches Schlachtfeld

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

Übersicht

Veo 3.1 Fast ist die geschwindigkeits- und kostenoptimierte Variante von Google DeepMinds Veo 3.1-Videomodell. Wie der Rest der Veo 3-Familie erzeugt es Audio nativ — synchronisierte Dialoge, Soundeffekte und Umgebungsaudio werden zusammen mit den Visuals in einem einzigen Durchlauf produziert. Das Modell generiert Video in bis zu 1080p in zwei Seitenverhältnissen (16:9 und 9:16) und akzeptiert bis zu zwei Frame-Bilder für Bild-zu-Video-Generierung, was die Steuerung von erstem und letztem Frame ermöglicht.

Anwendungsfälle

Cineastische Inhalte, bei denen Audio integral ist — Naturdokumentationen mit Umgebungsklang, Produktenthüllungen mit Impact-Effekten. Social Reels und vertikale Videos mit nativem Sound-Design. Bild-zu-Video mit Start- und End-Frames für kontrollierte Animationsbögen. Dialogszenen und charaktergetriebene Erzählungen mit synchronisierter Sprache.

Eingaben

Alle Parameter werden im input-Objekt des Run-Requests übergeben.

Parameter	Required	Description
prompt	Yes	Textbeschreibung (1–5000 Zeichen)
aspect_ratio	No	Standard `16:9`. Optionen: `16:9`, `9:16`
resolution	No	Standard `720p`. Optionen: `720p`, `1080p`
image_urls	No	Bis zu 2 Frame-Bilder (max. 10 MB pro Bild) für Bild-zu-Video

Prompt-Tipps

Die Klanglandschaft Ihrer Szene beschreiben

Veo 3 erzeugt Audio nativ. Prompts, die Klang implizieren — „rain on a tin roof", „crowd cheering in a stadium", „whispered conversation" — liefern reichhaltigere, immersivere Ergebnisse als rein visuelle Beschreibungen.

Zwei Bilder für Bewegungsbögen verwenden

Laden Sie ein Bild für den ersten Frame und ein zweites Bild als Endzustand hoch. Veo 3 interpoliert zwischen beiden, sodass Sie sowohl die Anfangskomposition als auch die finale Pose oder das Framing kontrollieren können.

Kameraverhalten präzise angeben

Formulierungen wie „slow tracking shot", „static wide angle" oder „handheld close-up" werden direkt in Kamerabewegung umgesetzt. Vage Prompts erzeugen generische Bewegung.

Einschränkungen

Nur 2 Seitenverhältnisse (16:9 und 9:16) — kein quadratisches oder Ultra-Breitformat
Kein Dauerparameter — das Modell bestimmt die Cliplänge automatisch
Keine Auflösung unter 720p verfügbar
Die Generierungszeit kann länger sein als bei konkurrierenden Modellen
Kein generate_audio-Schalter — das Modell bietet keine Option zur Steuerung der Audioausgabe

Häufige Fragen

Kann ich die Audioerzeugung deaktivieren?

Nein. Veo 3 Fast erzeugt immer nativ Audio und bietet keinen generate_audio-Schalter zum Deaktivieren. (Einige andere Modelle, wie ByteDances Seedance, stellen einen generate_audio-Schalter bereit.)

Kann ich die Videodauer steuern?

Nein. Veo 3 bietet keinen Dauerparameter. Das Modell bestimmt die Cliplänge anhand des Prompt-Inhalts. Typische Ausgaben reichen von wenigen Sekunden bis etwa 8 Sekunden.

Wie funktionieren die zwei Frame-Bilder?

Das erste Bild legt den Eröffnungsframe fest; das zweite legt den Ziel-Endzustand fest. Das Modell erzeugt Video, das zwischen beiden übergeht. Sie können auch nur ein Bild bereitstellen, um nur den Anfangsframe zu verankern.