Runbase

概述

Seedance 1.5 Pro 是 ByteDance 首个支持原生音频生成的视频模型，填补了无声的 1.0 系列与功能完备的 2.0 之间的空白。它可生成最高 1080p 的电影级视频，并支持多语言的同步对话、音效和环境音。该模型支持最多 2 张参考图用于图生视频，可控制首帧和末帧。时长固定为 4、8 或 12 秒。

使用场景

对话驱动的场景——访谈、独白、带同步语音的讲解视频。多语言广告素材，配音需与画面匹配。使用两张参考图进行图生视频，控制片段的开始和结束。带环境音设计的短叙事内容。

输入参数

所有参数通过运行请求的 input 对象传入。

Parameter	Required	Description
prompt	Yes	文本描述（3–2500 字符）
aspect_ratio	No	默认 `16:9`。可选：`16:9`、`9:16`、`4:3`、`3:4`、`1:1`、`21:9`
resolution	No	默认 `720p`。可选：`480p`、`720p`、`1080p`
duration	No	默认 `4`。可选：`4s`、`8s`、`12s`
generate_audio	No	生成同步音频。默认 `false`
image_urls	No	最多 2 张参考图（每张最大 10 MB）用于图生视频

提示词技巧

用场景描述代替台词脚本

不要用引号写台词（"He says: Hello"），而是描述场景："A man greets someone warmly at a doorstep, casual tone." 模型会根据上下文推断合适的对话。

利用双图片槽控制首尾帧

上传一张首帧图片和一张作为目标结束状态的图片。模型会在两者之间插值生成运动，让你更精确地控制片段的走向。

限制

提示词长度上限较短（2500 字符），低于 Seedance 2.0 的 20000
仅有三种固定时长选项（4s、8s、12s）——不支持任意长度
提示词最少 3 个字符
开启音频生成会增加单次运行成本
1080p 相比 720p 会显著增加生成时间和成本

常见问题

音频支持哪些语言？

该模型可生成多语言对话和配音。语言根据提示词上下文自动推断——用目标语言编写场景描述，或在提示词中明确指定语言。

1.5 Pro 和 2.0 有什么区别？

Seedance 2.0 支持 4 到 15 秒的任意时长、20000 字符的提示词上限，且整体画质更高。1.5 Pro 限制为固定的 4/8/12s 时长和 2500 字符。在 Runbase 上，1.5 Pro 最多接受两张参考图（首帧和末帧），而 2.0 只接受一张首帧图片。

可以关闭音频只输出视频吗？

可以。generate_audio 参数默认为 false。不开启即可获得静音视频输出，与 1.0 系列相同。

Seedance 1.5 Pro

示例

对话场景

图生视频（源图）

图生视频（结果）

概述