Übersicht
Veo 3.1 Fast ist die geschwindigkeits- und kostenoptimierte Variante von Google DeepMinds Veo 3.1-Videomodell. Wie der Rest der Veo 3-Familie erzeugt es Audio nativ — synchronisierte Dialoge, Soundeffekte und Umgebungsaudio werden zusammen mit den Visuals in einem einzigen Durchlauf produziert. Das Modell generiert Video in bis zu 1080p in zwei Seitenverhältnissen (16:9 und 9:16) und akzeptiert bis zu zwei Frame-Bilder für Bild-zu-Video-Generierung, was die Steuerung von erstem und letztem Frame ermöglicht.
Anwendungsfälle
Cineastische Inhalte, bei denen Audio integral ist — Naturdokumentationen mit Umgebungsklang, Produktenthüllungen mit Impact-Effekten. Social Reels und vertikale Videos mit nativem Sound-Design. Bild-zu-Video mit Start- und End-Frames für kontrollierte Animationsbögen. Dialogszenen und charaktergetriebene Erzählungen mit synchronisierter Sprache.
Eingaben
Alle Parameter werden im input-Objekt des Run-Requests übergeben.
| Parameter | Required | Description |
|---|
| prompt | Yes | Textbeschreibung (1–5000 Zeichen) |
| aspect_ratio | No | Standard 16:9. Optionen: 16:9, 9:16 |
| resolution | No | Standard 720p. Optionen: 720p, 1080p |
| image_urls | No | Bis zu 2 Frame-Bilder (max. 10 MB pro Bild) für Bild-zu-Video |
Prompt-Tipps
Die Klanglandschaft Ihrer Szene beschreiben
Veo 3 erzeugt Audio nativ. Prompts, die Klang implizieren — „rain on a tin roof", „crowd cheering in a stadium", „whispered conversation" — liefern reichhaltigere, immersivere Ergebnisse als rein visuelle Beschreibungen.
Zwei Bilder für Bewegungsbögen verwenden
Laden Sie ein Bild für den ersten Frame und ein zweites Bild als Endzustand hoch. Veo 3 interpoliert zwischen beiden, sodass Sie sowohl die Anfangskomposition als auch die finale Pose oder das Framing kontrollieren können.
Kameraverhalten präzise angeben
Formulierungen wie „slow tracking shot", „static wide angle" oder „handheld close-up" werden direkt in Kamerabewegung umgesetzt. Vage Prompts erzeugen generische Bewegung.
Einschränkungen
- Nur 2 Seitenverhältnisse (16:9 und 9:16) — kein quadratisches oder Ultra-Breitformat
- Kein Dauerparameter — das Modell bestimmt die Cliplänge automatisch
- Keine Auflösung unter 720p verfügbar
- Die Generierungszeit kann länger sein als bei konkurrierenden Modellen
- Kein
generate_audio-Schalter — das Modell bietet keine Option zur Steuerung der Audioausgabe
Häufige Fragen
Kann ich die Audioerzeugung deaktivieren?
Nein. Veo 3 Fast erzeugt immer nativ Audio und bietet keinen generate_audio-Schalter zum Deaktivieren. (Einige andere Modelle, wie ByteDances Seedance, stellen einen generate_audio-Schalter bereit.)
Kann ich die Videodauer steuern?
Nein. Veo 3 bietet keinen Dauerparameter. Das Modell bestimmt die Cliplänge anhand des Prompt-Inhalts. Typische Ausgaben reichen von wenigen Sekunden bis etwa 8 Sekunden.
Wie funktionieren die zwei Frame-Bilder?
Das erste Bild legt den Eröffnungsframe fest; das zweite legt den Ziel-Endzustand fest. Das Modell erzeugt Video, das zwischen beiden übergeht. Sie können auch nur ein Bild bereitstellen, um nur den Anfangsframe zu verankern.