Veo 3.1 Fast - Runbase

Entrée

SortieVoir tout

Le résultat apparaîtra ici

Tarifs

720p

$0.33

1080p

$0.36

Exemples

Champ de bataille cinématographique

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

Présentation

Veo 3.1 Fast est la variante optimisée en vitesse et en coût du modèle vidéo Veo 3.1 de Google DeepMind. Comme le reste de la famille Veo 3, il génère l'audio nativement — produisant des dialogues synchronisés, des effets sonores et un audio ambiant en même temps que les visuels en une seule passe. Le modèle génère des vidéos jusqu'en 1080p dans deux ratios d'aspect (16:9 et 9:16) et accepte jusqu'à deux images de cadrage pour la génération image-to-video, permettant de contrôler la première et la dernière frame.

Cas d'utilisation

Contenus cinématographiques où l'audio est essentiel — documentaires nature avec son ambiant, révélations de produits avec effets d'impact. Reels et vidéos verticales pour les réseaux sociaux avec design sonore natif. Image-to-video avec images de début et de fin pour des arcs d'animation contrôlés. Scènes de dialogue et récits de personnages avec parole synchronisée.

Entrées

Tous les paramètres sont passés dans l'objet input de la requête d'exécution.

Parameter	Required	Description
prompt	Yes	Description textuelle (1–5000 caractères)
aspect_ratio	No	Par défaut `16:9`. Options : `16:9`, `9:16`
resolution	No	Par défaut `720p`. Options : `720p`, `1080p`
image_urls	No	Jusqu'à 2 images de cadrage (max 10 MB chacune) pour l'image-to-video

Conseils pour les prompts

Décrivez l'environnement sonore de votre scène

Veo 3 génère l'audio nativement. Les prompts qui impliquent du son — « rain on a tin roof », « crowd cheering in a stadium », « whispered conversation » — produisent des résultats plus riches et immersifs que les descriptions purement visuelles.

Utilisez deux images pour les arcs de mouvement

Chargez une image de première frame et une seconde image comme état final. Veo 3 interpole entre les deux, vous donnant le contrôle sur la composition de départ et la pose ou le cadrage final.

Soyez précis sur le comportement de la caméra

Des expressions comme « slow tracking shot », « static wide angle » ou « handheld close-up » se traduisent directement en mouvements de caméra. Les prompts vagues produisent des mouvements génériques.

Limitations

Seulement 2 ratios d'aspect (16:9 et 9:16) — pas d'option carrée ni ultra-large
Pas de paramètre de durée — le modèle détermine automatiquement la longueur du clip
Pas de résolution inférieure à 720p disponible
Le temps de génération peut être plus long que chez les modèles concurrents
Pas de contrôle generate_audio — le modèle n'expose pas d'option pour désactiver la sortie audio

FAQ

Puis-je désactiver la génération audio ?

Non. Veo 3 Fast génère toujours l'audio nativement et n'expose pas de contrôle generate_audio pour le désactiver. (D'autres modèles, comme Seedance de ByteDance, proposent un interrupteur generate_audio.)

Puis-je contrôler la durée de la vidéo ?

Non. Veo 3 n'expose pas de paramètre de durée. Le modèle détermine la longueur du clip en fonction du contenu du prompt. Les sorties typiques vont de quelques secondes à environ 8 secondes.

Comment fonctionnent les deux images de cadrage ?

La première image définit la frame d'ouverture ; la seconde définit l'état final cible. Le modèle génère une vidéo qui effectue la transition entre les deux. Vous pouvez aussi fournir une seule image pour ancrer uniquement la frame de départ.