Runbase

Command Palette

Search for a command to run...

Google

Veo 3.1 Fast

ID:google/veo-3

Veo 3.1 Fast — mô hình video nhanh và tiết kiệm chi phí của Google DeepMind với âm thanh tích hợp (hội thoại và hiệu ứng âm thanh), chuyển hình ảnh thành video, và độ phân giải lên đến 1080p.

Chuyển văn bản thành videoChuyển hình ảnh thành videoTạo âm thanh1080p
Đầu vào
Aspect ratio
Resolution
Frame images
Tối đa 2 ảnh, mỗi ảnh 10MB
Kết quả sẽ hiển thị tại đây
720p
$0.33
1080p
$0.36
cURL
curl https://api.runbase.net/v1/runs \
  -H "Authorization: Bearer $RUNBASE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/veo-3",
    "input": {
      "prompt": "A cinematic product photo of a ceramic lamp",
      "aspect_ratio": "1:1",
      "resolution": "1K"
    }
  }'

Ví dụ

Trận chiến điện ảnh

Trận chiến điện ảnh

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

Tổng quan

Veo 3.1 Fast là phiên bản tối ưu tốc độ và chi phí của mô hình video Veo 3.1 từ Google DeepMind. Giống như các mô hình khác trong dòng Veo 3, mô hình tạo âm thanh tích hợp — tạo hội thoại đồng bộ, hiệu ứng âm thanh và âm thanh nền cùng lúc với hình ảnh trong một lần xử lý. Mô hình tạo video ở độ phân giải lên đến 1080p với hai tỷ lệ khung hình (16:9 và 9:16) và chấp nhận tối đa hai hình ảnh khung hình cho chuyển hình ảnh thành video, cho phép kiểm soát khung hình đầu và khung hình cuối.

Trường hợp sử dụng

Nội dung điện ảnh khi âm thanh là yếu tố không thể thiếu — phim tài liệu thiên nhiên với âm thanh nền, phát hành sản phẩm với hiệu ứng ấn tượng. Video ngắn và video dọc cho mạng xã hội với thiết kế âm thanh tích hợp. Chuyển hình ảnh thành video với khung hình đầu và cuối để kiểm soát chuyển động. Cảnh hội thoại và tường thuật nhân vật với lời nói đồng bộ.

Đầu vào

Tất cả tham số được truyền trong đối tượng input của yêu cầu chạy.

ParameterRequiredDescription
promptYesMô tả văn bản (1–5000 ký tự)
aspect_ratioNoMặc định 16:9. Tùy chọn: 16:9, 9:16
resolutionNoMặc định 720p. Tùy chọn: 720p, 1080p
image_urlsNoTối đa 2 hình ảnh khung hình (mỗi ảnh tối đa 10 MB) cho chuyển hình ảnh thành video

Mẹo viết prompt

Mô tả cảnh âm thanh trong cảnh của bạn

Veo 3 tạo âm thanh tích hợp. Prompt gợi ý âm thanh — "rain on a tin roof," "crowd cheering in a stadium," "whispered conversation" — tạo đầu ra phong phú, sống động hơn so với mô tả thuần hình ảnh.

Dùng hai hình ảnh cho cung chuyển động

Tải lên hình ảnh khung hình đầu và hình ảnh thứ hai làm trạng thái kết thúc. Veo 3 nội suy giữa chúng, giúp bạn kiểm soát cả bố cục mở đầu và tư thế hoặc bố cục kết thúc.

Cụ thể về hành vi camera

Các cụm từ như "slow tracking shot," "static wide angle," hoặc "handheld close-up" chuyển trực tiếp thành chuyển động camera. Prompt mơ hồ cho chuyển động chung chung.

Hạn chế

  • Chỉ có 2 tỷ lệ khung hình (16:9 và 9:16) — không có tùy chọn vuông hoặc siêu rộng
  • Không có tham số thời lượng — mô hình tự xác định độ dài clip
  • Không có độ phân giải dưới 720p
  • Thời gian tạo có thể lâu hơn so với các mô hình cạnh tranh
  • Không có công tắc generate_audio — mô hình không cung cấp tùy chọn kiểm soát đầu ra âm thanh

Câu hỏi thường gặp

Tôi có thể tắt tạo âm thanh không?

Không. Veo 3 Fast luôn tạo âm thanh tích hợp và không cung cấp công tắc generate_audio để tắt. (Một số mô hình khác, như Seedance của ByteDance, có cung cấp công tắc generate_audio.)

Tôi có thể kiểm soát thời lượng video không?

Không. Veo 3 không cung cấp tham số thời lượng. Mô hình xác định độ dài clip dựa trên nội dung prompt. Đầu ra thường từ vài giây đến khoảng 8 giây.

Hai hình ảnh khung hình hoạt động như thế nào?

Hình ảnh đầu tiên đặt khung hình mở đầu; hình ảnh thứ hai đặt trạng thái kết thúc mục tiêu. Mô hình tạo video chuyển tiếp giữa chúng. Bạn cũng có thể chỉ cung cấp một hình ảnh để neo khung hình mở đầu.