
Bild zu Video (Ergebnis)
16:9An octopus on the sandy seafloor wrapping its arms around a soccer ball, clear blue water, realistic underwater physics
bytedance/seedance-2Seedance 2.0 Videoerzeugung-API von ByteDance — bis zu 1080p mit nativem Audio und Dialog, Bild-zu-Video und Clips von 4 bis 15 Sekunden.

An octopus on the sandy seafloor wrapping its arms around a soccer ball, clear blue water, realistic underwater physics

An octopus resting beside a soccer ball on the ocean floor, sunlight filtering through the water
Seedance 2.0 ist ByteDances Videomodell der zweiten Generation, veröffentlicht im Februar 2026. Es erzeugt Video mit nativem Audio — Dialoge, Soundeffekte und Umgebungsgeräusche werden zusammen mit den Visuals in einem einzigen Durchlauf produziert, sodass separate Audio-Nachbearbeitung entfällt. Das Modell treibt die KI-Videofunktionen in CapCut und Dreamina an.
Produktenthüllungen und Unboxing-Animationen für E-Commerce. Social-Media-Reels und Kurzform-Inhalte mit passendem Soundtrack. Bild-zu-Video-Konvertierung — ein Standbild hochladen und mit Bewegung und optionalem Audio animieren. Narrative Clips mit gesprochenen Dialogen für Werbung oder Erklärinhalte.
Alle Parameter werden im input-Objekt des Run-Requests übergeben.
| Parameter | Required | Description |
|---|---|---|
| prompt | Yes | Textbeschreibung (3–20000 Zeichen) |
| aspect_ratio | No | Standard 16:9. Optionen: 1:1, 3:4, 4:3, 9:16, 16:9, 21:9 |
| resolution | No | Standard 720p. Optionen: 480p, 720p, 1080p |
| duration | No | Videolänge in Sekunden (4–15). Standard 5 |
| generate_audio | No | Audiospur erzeugen. Standard false |
| image_urls | No | Bild für den ersten Frame (max. 1, max. 10 MB) für Bild-zu-Video |
Seedance 2.0 reagiert gut auf cineastische Anweisungen. Formulierungen wie „slow dolly forward", „overhead tracking shot" oder „quick cut to close-up" verbessern die Kohärenz.
Wenn generate_audio aktiviert ist, leitet das Modell Audio aus der Szenenbeschreibung ab. Schreiben Sie Prompts, die Klang implizieren — „rain hitting a window", „footsteps on gravel" — statt den Ton direkt zu beschreiben.
Kurze Clips (4–5s) eignen sich am besten für Einzelaktionsszenen. Für Sequenzen mit Kameraübergängen oder narrativen Akzenten tendieren Sie zu 10–15 Sekunden.
Ja. Setzen Sie generate_audio auf true, und das Modell produziert synchronisierte Dialoge, Soundeffekte und Umgebungsaudio in einem Durchlauf. Dies erhöht die Kosten pro Ausführung.
15 Sekunden. Sie können über den Parameter duration eine beliebige Ganzzahl von 4 bis 15 angeben. Der Standardwert ist 5 Sekunden.
Ja. Laden Sie ein Bild für den ersten Frame über image_urls hoch, und das Modell erzeugt ein Video ausgehend von diesem Frame.