Runbase

Command Palette

Search for a command to run...

Google

Veo 3.1 Fast

ID:google/veo-3

Veo 3.1 Fast — modello video Veo 3.1 di Google DeepMind, veloce e conveniente, con audio nativo (dialoghi ed effetti sonori), image-to-video e risoluzione fino a 1080p.

Text to videoImage to videoGenerazione audio1080p
Input
Aspect ratio
Resolution
Frame images
Max 2 immagini, 10 MB ciascuna
L'output apparira qui
720p
$0.33
1080p
$0.36
cURL
curl https://api.runbase.net/v1/runs \
  -H "Authorization: Bearer $RUNBASE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/veo-3",
    "input": {
      "prompt": "A cinematic product photo of a ceramic lamp",
      "aspect_ratio": "1:1",
      "resolution": "1K"
    }
  }'

Esempi

Campo di battaglia cinematografico

Campo di battaglia cinematografico

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

Panoramica

Veo 3.1 Fast è la variante ottimizzata per velocità e costo del modello video Veo 3.1 di Google DeepMind. Come il resto della famiglia Veo 3, genera audio nativamente — producendo dialoghi sincronizzati, effetti sonori e audio ambientale insieme alle immagini in un unico passaggio. Il modello genera video fino a 1080p in due aspect ratio (16:9 e 9:16) e accetta fino a due immagini fotogramma per la generazione image-to-video, consentendo il controllo del primo e dell'ultimo fotogramma.

Casi d'uso

Contenuti cinematografici dove l'audio è parte integrante — documentari naturalistici con suono ambientale, reveal di prodotti con effetti di impatto. Reel per social e video verticali con sound design nativo. Image-to-video con fotogrammi iniziale e finale per archi di animazione controllati. Scene di dialogo e narrazioni con parlato sincronizzato.

Input

Tutti i parametri vengono passati nell'oggetto input della richiesta di esecuzione.

ParameterRequiredDescription
promptYesDescrizione testuale (1–5000 caratteri)
aspect_ratioNoDefault 16:9. Opzioni: 16:9, 9:16
resolutionNoDefault 720p. Opzioni: 720p, 1080p
image_urlsNoFino a 2 immagini fotogramma (max 10 MB ciascuna) per image-to-video

Suggerimenti per i prompt

Descrivi il paesaggio sonoro nella scena

Veo 3 genera audio nativamente. Prompt che implicano suoni — "rain on a tin roof", "crowd cheering in a stadium", "whispered conversation" — producono output più ricchi e immersivi rispetto a descrizioni puramente visive.

Usa due immagini per gli archi di movimento

Carica un'immagine per il primo fotogramma e una seconda immagine come stato finale. Veo 3 interpola tra le due, dandoti il controllo sia sulla composizione iniziale che sulla posa o inquadratura finale.

Sii specifico sul comportamento della camera

Frasi come "slow tracking shot", "static wide angle" o "handheld close-up" si traducono direttamente in movimento della camera. Prompt vaghi producono movimenti generici.

Limitazioni

  • Solo 2 aspect ratio (16:9 e 9:16) — nessuna opzione quadrata o ultra-wide
  • Nessun parametro di durata — il modello determina automaticamente la lunghezza della clip
  • Nessuna risoluzione inferiore a 720p disponibile
  • I tempi di generazione possono essere più lunghi rispetto ai modelli concorrenti
  • Nessun toggle generate_audio — il modello non espone un'opzione per controllare l'output audio

FAQ

Posso disattivare la generazione audio?

No. Veo 3 Fast genera sempre audio nativamente e non espone un toggle generate_audio per disattivarlo. (Alcuni altri modelli, come Seedance di ByteDance, offrono uno switch generate_audio.)

Posso controllare la durata del video?

No. Veo 3 non espone un parametro di durata. Il modello determina la lunghezza della clip in base al contenuto del prompt. Gli output tipici vanno da pochi secondi a circa 8 secondi.

Come funzionano le due immagini fotogramma?

La prima immagine imposta il fotogramma di apertura; la seconda imposta lo stato finale desiderato. Il modello genera video che transiziona tra le due. Puoi anche fornire una sola immagine per ancorare solo il fotogramma iniziale.