Veo 3.1 Fast - Runbase

입력

출력전체 보기

결과가 여기에 표시됩니다

요금

720p

$0.33

1080p

$0.36

예시

시네마틱 전장

16:9

First-person view soaring low over a medieval battlefield at dawn, gliding past clashing knights in armor, fire-lit arrows whizzing overhead, splintered catapults burning near fallen soldiers, flying inches above torn flags and mud-soaked ground, raw, terrifying, epic

개요

Veo 3.1 Fast는 Google DeepMind의 Veo 3.1 영상 모델의 속도·비용 최적화 버전입니다. Veo 3 패밀리와 마찬가지로 오디오를 네이티브로 생성합니다 — 동기화된 대사, 사운드 이펙트, 앰비언트 오디오가 영상과 함께 한 번에 만들어집니다. 최대 1080p, 2가지 종횡비(16:9, 9:16)로 영상을 생성하며, 이미지-투-비디오에서 최대 2장의 프레임 이미지를 받아 첫 프레임과 마지막 프레임을 제어할 수 있습니다.

사용 사례

오디오가 핵심인 시네마틱 콘텐츠 — 앰비언트 사운드가 포함된 자연 다큐멘터리, 임팩트 이펙트가 포함된 제품 공개. 네이티브 사운드 디자인이 적용된 소셜 릴과 세로 영상. 정교한 모션 아크를 위한 시작·끝 프레임 이미지-투-비디오. 동기화된 음성이 포함된 대사 장면과 캐릭터 중심 내러티브.

입력

모든 파라미터는 실행 요청의 input 객체에 전달됩니다.

Parameter	Required	Description
prompt	Yes	텍스트 설명 (1–5000자)
aspect_ratio	No	기본값 `16:9`. 옵션: `16:9`, `9:16`
resolution	No	기본값 `720p`. 옵션: `720p`, `1080p`
image_urls	No	이미지-투-비디오용 프레임 이미지 최대 2장 (각 최대 10 MB)

프롬프트 팁

장면의 사운드스케이프를 묘사하세요

Veo 3는 오디오를 네이티브로 생성합니다. 소리를 암시하는 프롬프트 — "양철 지붕 위 빗소리", "경기장에서 환호하는 관중", "속삭이는 대화" — 가 순수 시각적 묘사보다 더 풍부하고 몰입감 있는 결과물을 만듭니다.

2장 이미지로 모션 아크를 제어하세요

첫 프레임 이미지와 최종 상태 이미지를 업로드하세요. Veo 3가 두 이미지 사이를 보간하여 시작 구도와 최종 포즈/프레이밍을 모두 제어할 수 있습니다.

카메라 동작을 구체적으로 지정하세요

"슬로우 트래킹 샷", "고정 와이드 앵글", "핸드헬드 클로즈업" 같은 표현이 카메라 움직임에 직접 반영됩니다. 모호한 프롬프트는 일반적인 움직임을 만듭니다.

제한 사항

2가지 종횡비만 지원 (16:9, 9:16) — 정사각형이나 울트라와이드 옵션 없음
길이 파라미터 없음 — 모델이 클립 길이를 자동 결정
720p 미만 해상도 불가
경쟁 모델 대비 생성 시간이 길 수 있음
generate_audio 토글 없음 — 오디오 출력 제어 옵션이 제공되지 않음

자주 묻는 질문

오디오 생성을 비활성화할 수 있나요?

아니요. Veo 3 Fast는 항상 오디오를 네이티브로 생성하며 generate_audio 토글이 제공되지 않습니다. (ByteDance의 Seedance 등 일부 다른 모델은 generate_audio 스위치를 제공합니다.)

영상 길이를 제어할 수 있나요?

아니요. Veo 3는 길이 파라미터를 제공하지 않습니다. 모델이 프롬프트 내용에 따라 클립 길이를 결정합니다. 일반적으로 수 초에서 약 8초 범위의 출력을 생성합니다.

2장의 프레임 이미지는 어떻게 작동하나요?

첫 번째 이미지가 시작 프레임을, 두 번째 이미지가 목표 최종 상태를 설정합니다. 모델이 두 이미지 사이를 전환하는 영상을 생성합니다. 시작 프레임만 고정하려면 이미지 1장만 제공할 수도 있습니다.