Présentation
Veo 3.1 Fast est la variante optimisée en vitesse et en coût du modèle vidéo Veo 3.1 de Google DeepMind. Comme le reste de la famille Veo 3, il génère l'audio nativement — produisant des dialogues synchronisés, des effets sonores et un audio ambiant en même temps que les visuels en une seule passe. Le modèle génère des vidéos jusqu'en 1080p dans deux ratios d'aspect (16:9 et 9:16) et accepte jusqu'à deux images de cadrage pour la génération image-to-video, permettant de contrôler la première et la dernière frame.
Cas d'utilisation
Contenus cinématographiques où l'audio est essentiel — documentaires nature avec son ambiant, révélations de produits avec effets d'impact. Reels et vidéos verticales pour les réseaux sociaux avec design sonore natif. Image-to-video avec images de début et de fin pour des arcs d'animation contrôlés. Scènes de dialogue et récits de personnages avec parole synchronisée.
Entrées
Tous les paramètres sont passés dans l'objet input de la requête d'exécution.
| Parameter | Required | Description |
|---|
| prompt | Yes | Description textuelle (1–5000 caractères) |
| aspect_ratio | No | Par défaut 16:9. Options : 16:9, 9:16 |
| resolution | No | Par défaut 720p. Options : 720p, 1080p |
| image_urls | No | Jusqu'à 2 images de cadrage (max 10 MB chacune) pour l'image-to-video |
Conseils pour les prompts
Décrivez l'environnement sonore de votre scène
Veo 3 génère l'audio nativement. Les prompts qui impliquent du son — « rain on a tin roof », « crowd cheering in a stadium », « whispered conversation » — produisent des résultats plus riches et immersifs que les descriptions purement visuelles.
Utilisez deux images pour les arcs de mouvement
Chargez une image de première frame et une seconde image comme état final. Veo 3 interpole entre les deux, vous donnant le contrôle sur la composition de départ et la pose ou le cadrage final.
Soyez précis sur le comportement de la caméra
Des expressions comme « slow tracking shot », « static wide angle » ou « handheld close-up » se traduisent directement en mouvements de caméra. Les prompts vagues produisent des mouvements génériques.
Limitations
- Seulement 2 ratios d'aspect (16:9 et 9:16) — pas d'option carrée ni ultra-large
- Pas de paramètre de durée — le modèle détermine automatiquement la longueur du clip
- Pas de résolution inférieure à 720p disponible
- Le temps de génération peut être plus long que chez les modèles concurrents
- Pas de contrôle
generate_audio — le modèle n'expose pas d'option pour désactiver la sortie audio
FAQ
Puis-je désactiver la génération audio ?
Non. Veo 3 Fast génère toujours l'audio nativement et n'expose pas de contrôle generate_audio pour le désactiver. (D'autres modèles, comme Seedance de ByteDance, proposent un interrupteur generate_audio.)
Puis-je contrôler la durée de la vidéo ?
Non. Veo 3 n'expose pas de paramètre de durée. Le modèle détermine la longueur du clip en fonction du contenu du prompt. Les sorties typiques vont de quelques secondes à environ 8 secondes.
Comment fonctionnent les deux images de cadrage ?
La première image définit la frame d'ouverture ; la seconde définit l'état final cible. Le modèle génère une vidéo qui effectue la transition entre les deux. Vous pouvez aussi fournir une seule image pour ancrer uniquement la frame de départ.