Panoramica
Veo 3.1 Fast è la variante ottimizzata per velocità e costo del modello video Veo 3.1 di Google DeepMind. Come il resto della famiglia Veo 3, genera audio nativamente — producendo dialoghi sincronizzati, effetti sonori e audio ambientale insieme alle immagini in un unico passaggio. Il modello genera video fino a 1080p in due aspect ratio (16:9 e 9:16) e accetta fino a due immagini fotogramma per la generazione image-to-video, consentendo il controllo del primo e dell'ultimo fotogramma.
Casi d'uso
Contenuti cinematografici dove l'audio è parte integrante — documentari naturalistici con suono ambientale, reveal di prodotti con effetti di impatto. Reel per social e video verticali con sound design nativo. Image-to-video con fotogrammi iniziale e finale per archi di animazione controllati. Scene di dialogo e narrazioni con parlato sincronizzato.
Input
Tutti i parametri vengono passati nell'oggetto input della richiesta di esecuzione.
| Parameter | Required | Description |
|---|
| prompt | Yes | Descrizione testuale (1–5000 caratteri) |
| aspect_ratio | No | Default 16:9. Opzioni: 16:9, 9:16 |
| resolution | No | Default 720p. Opzioni: 720p, 1080p |
| image_urls | No | Fino a 2 immagini fotogramma (max 10 MB ciascuna) per image-to-video |
Suggerimenti per i prompt
Descrivi il paesaggio sonoro nella scena
Veo 3 genera audio nativamente. Prompt che implicano suoni — "rain on a tin roof", "crowd cheering in a stadium", "whispered conversation" — producono output più ricchi e immersivi rispetto a descrizioni puramente visive.
Usa due immagini per gli archi di movimento
Carica un'immagine per il primo fotogramma e una seconda immagine come stato finale. Veo 3 interpola tra le due, dandoti il controllo sia sulla composizione iniziale che sulla posa o inquadratura finale.
Sii specifico sul comportamento della camera
Frasi come "slow tracking shot", "static wide angle" o "handheld close-up" si traducono direttamente in movimento della camera. Prompt vaghi producono movimenti generici.
Limitazioni
- Solo 2 aspect ratio (16:9 e 9:16) — nessuna opzione quadrata o ultra-wide
- Nessun parametro di durata — il modello determina automaticamente la lunghezza della clip
- Nessuna risoluzione inferiore a 720p disponibile
- I tempi di generazione possono essere più lunghi rispetto ai modelli concorrenti
- Nessun toggle
generate_audio — il modello non espone un'opzione per controllare l'output audio
FAQ
Posso disattivare la generazione audio?
No. Veo 3 Fast genera sempre audio nativamente e non espone un toggle generate_audio per disattivarlo. (Alcuni altri modelli, come Seedance di ByteDance, offrono uno switch generate_audio.)
Posso controllare la durata del video?
No. Veo 3 non espone un parametro di durata. Il modello determina la lunghezza della clip in base al contenuto del prompt. Gli output tipici vanno da pochi secondi a circa 8 secondi.
Come funzionano le due immagini fotogramma?
La prima immagine imposta il fotogramma di apertura; la seconda imposta lo stato finale desiderato. Il modello genera video che transiziona tra le due. Puoi anche fornire una sola immagine per ancorare solo il fotogramma iniziale.