
Image to Video (Risultato)
16:9An octopus on the sandy seafloor wrapping its arms around a soccer ball, clear blue water, realistic underwater physics
bytedance/seedance-2API di generazione video Seedance 2.0 di ByteDance — fino a 1080p con audio nativo e dialoghi, image-to-video, e clip da 4 a 15 secondi.

An octopus on the sandy seafloor wrapping its arms around a soccer ball, clear blue water, realistic underwater physics

An octopus resting beside a soccer ball on the ocean floor, sunlight filtering through the water
Seedance 2.0 è il modello video di seconda generazione di ByteDance, rilasciato a febbraio 2026. Genera video con audio nativo — dialoghi, effetti sonori e rumore ambientale vengono prodotti insieme alle immagini in un unico passaggio, eliminando la necessità di post-produzione audio separata. Il modello alimenta le funzionalità di video AI in CapCut e Dreamina.
Reveal di prodotto e animazioni unboxing per e-commerce. Reel per social media e contenuti brevi con colonne sonore abbinate. Conversione image-to-video — carica una foto statica e animala con movimento e audio opzionale. Clip narrative con dialoghi parlati per pubblicità o contenuti esplicativi.
Tutti i parametri vengono passati nell'oggetto input della richiesta di esecuzione.
| Parameter | Required | Description |
|---|---|---|
| prompt | Yes | Descrizione testuale (3–20000 caratteri) |
| aspect_ratio | No | Default 16:9. Opzioni: 1:1, 3:4, 4:3, 9:16, 16:9, 21:9 |
| resolution | No | Default 720p. Opzioni: 480p, 720p, 1080p |
| duration | No | Durata del video in secondi (4–15). Default 5 |
| generate_audio | No | Genera traccia audio. Default false |
| image_urls | No | Immagine primo fotogramma (max 1, max 10 MB) per image-to-video |
Seedance 2.0 risponde bene alle indicazioni cinematografiche. Frasi come "slow dolly forward", "overhead tracking shot" o "quick cut to close-up" migliorano la coerenza.
Quando generate_audio è attivato, il modello inferisce l'audio dalla descrizione della scena. Scrivi prompt che implichino suoni — "rain hitting a window", "footsteps on gravel" — piuttosto che descrivere l'audio direttamente.
Clip brevi (4–5s) funzionano meglio per riprese a singola azione. Per sequenze con transizioni di camera o momenti narrativi, spingi verso 10–15 secondi.
Sì. Imposta generate_audio su true e il modello produce dialoghi sincronizzati, effetti sonori e audio ambientale in un unico passaggio. Questo aggiunge al costo per esecuzione.
15 secondi. Puoi impostare qualsiasi valore intero da 4 a 15 tramite il parametro duration. Il default è 5 secondi.
Sì. Carica un'immagine primo fotogramma tramite image_urls e il modello genera video a partire da quel fotogramma.