Runbase

Command Palette

Search for a command to run...

ByteDance

Seedance 1.5 Pro

ID:bytedance/seedance-1.5-pro

API tạo video Seedance 1.5 Pro của ByteDance — video chất lượng điện ảnh với âm thanh đồng bộ, hội thoại đa ngôn ngữ, và độ phân giải lên đến 1080p.

Chuyển văn bản thành videoChuyển hình ảnh thành videoTạo âm thanhĐa ngôn ngữ1080p
Đầu vào
Aspect ratio
Resolution
Duration
Generate audio
Source images
Tối đa 2 ảnh, mỗi ảnh 10MB
Kết quả sẽ hiển thị tại đây
480p
$0.26
720p
$0.52
1080p
$1.10
cURL
curl https://api.runbase.net/v1/runs \
  -H "Authorization: Bearer $RUNBASE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bytedance/seedance-1.5-pro",
    "input": {
      "prompt": "A cinematic product photo of a ceramic lamp",
      "aspect_ratio": "1:1",
      "resolution": "1K"
    }
  }'

Ví dụ

Cảnh hội thoại

Cảnh hội thoại

16:9

A lawyer delivering a closing argument from the lectern of a wood-paneled courtroom, jury seated behind, synchronized speech

Chuyển hình ảnh thành video (Nguồn)

Chuyển hình ảnh thành video (Nguồn)

16:9

Extreme close-up of an older person's face by a window, a single tear forming, soft natural light

Chuyển hình ảnh thành video (Kết quả)

Chuyển hình ảnh thành video (Kết quả)

16:9

The tear rolls slowly down the cheek, subtle facial movement, ambient room tone

Tổng quan

Seedance 1.5 Pro là mô hình video đầu tiên của ByteDance có tính năng tạo âm thanh tích hợp, cầu nối giữa dòng 1.0 không có tiếng và bản phát hành 2.0 đầy đủ tính năng. Mô hình tạo video chất lượng điện ảnh ở độ phân giải lên đến 1080p với hội thoại đồng bộ, hiệu ứng âm thanh và âm thanh nền bằng nhiều ngôn ngữ. Mô hình chấp nhận tối đa hai hình ảnh tham chiếu cho chuyển hình ảnh thành video, cho phép kiểm soát khung hình đầu và khung hình cuối. Thời lượng cố định ở 4, 8 hoặc 12 giây.

Trường hợp sử dụng

Cảnh có hội thoại — phỏng vấn, độc thoại, video giải thích với lời nói đồng bộ. Quảng cáo sáng tạo đa ngôn ngữ khi lời bình cần khớp với hình ảnh. Chuyển hình ảnh thành video với hai khung hình tham chiếu để kiểm soát cả đầu và cuối clip. Nội dung tường thuật ngắn với thiết kế âm thanh nền.

Đầu vào

Tất cả tham số được truyền trong đối tượng input của yêu cầu chạy.

ParameterRequiredDescription
promptYesMô tả văn bản (3–2500 ký tự)
aspect_ratioNoMặc định 16:9. Tùy chọn: 16:9, 9:16, 4:3, 3:4, 1:1, 21:9
resolutionNoMặc định 720p. Tùy chọn: 480p, 720p, 1080p
durationNoMặc định 4. Tùy chọn: 4s, 8s, 12s
generate_audioNoTạo âm thanh đồng bộ. Mặc định false
image_urlsNoTối đa 2 hình ảnh tham chiếu (mỗi ảnh tối đa 10 MB) cho chuyển hình ảnh thành video

Mẹo viết prompt

Viết hội thoại như chỉ dẫn cảnh, không phải kịch bản

Thay vì trích dẫn lời thoại ("He says: Hello"), hãy mô tả tình huống: "A man greets someone warmly at a doorstep, casual tone." Mô hình sẽ suy luận hội thoại phù hợp từ ngữ cảnh.

Sử dụng hai hình ảnh cho khung hình đầu/cuối

Tải lên hình ảnh khung hình đầu tiên và hình ảnh thứ hai làm trạng thái kết thúc mong muốn. Mô hình sẽ nội suy chuyển động giữa chúng, giúp bạn kiểm soát chặt hơn diễn biến của clip.

Hạn chế

  • Giới hạn prompt ngắn hơn (2500 ký tự) so với 20000 của Seedance 2.0
  • Chỉ có ba tùy chọn thời lượng cố định (4s, 8s, 12s) — không có thời lượng tùy ý
  • Prompt tối thiểu 3 ký tự
  • Tạo âm thanh làm tăng chi phí mỗi lượt chạy
  • 1080p tăng đáng kể thời gian tạo và chi phí so với 720p

Câu hỏi thường gặp

Âm thanh hỗ trợ những ngôn ngữ nào?

Mô hình tạo hội thoại và lời bình đa ngôn ngữ. Ngôn ngữ được suy luận từ ngữ cảnh prompt — viết mô tả cảnh bằng ngôn ngữ mục tiêu hoặc chỉ định ngôn ngữ rõ ràng.

1.5 Pro khác gì so với 2.0?

Seedance 2.0 hỗ trợ thời lượng tùy ý từ 4 đến 15 giây, giới hạn prompt 20000 ký tự và chất lượng hình ảnh cao hơn nhìn chung. 1.5 Pro bị giới hạn ở thời lượng cố định 4/8/12s và 2500 ký tự. Trên Runbase, 1.5 Pro chấp nhận tối đa hai hình ảnh tham chiếu (khung hình đầu và cuối), trong khi 2.0 chỉ nhận một hình ảnh khung hình đầu.

Tôi có thể tắt âm thanh và chỉ lấy video không?

Có. Tham số generate_audio mặc định là false. Để nguyên để nhận đầu ra video không có tiếng, giống như các mô hình 1.0.