STIV: 확장 가능한 텍스트 및 이미지 조건부 비디오 생성

발행일: 2025년 8월 1일 오전 12시 00분

비디오 생성 분야는 혁신적인 발전을 이루고 있지만, 강력하고 확장 가능한 모델의 개발을 위한 명확하고 체계적인 지침이 여전히 필요합니다. 본 연구에서는 모델 아키텍처, 훈련 레시피, 데이터 정리 전략의 상호 작용을 체계적으로 탐구하여 간단하고 확장 가능한 텍스트-이미지-조건부 비디오 생성 방법인 STIV를 제안합니다. 우리의 프레임워크는 이미지 조건을 DiT(Diffusion Transformer)에 프레임 교체를 통해 통합하고, 텍스트 조건을 통합하여 더욱 다양하고 현실적인 비디오 생성이 가능하도록 합니다. 이를 통해 향후 비디오 생성 모델의 발전을 이끌 수 있는 새로운 지표를 마련하고자 합니다. 현재까지의 연구 결과로, STIV는 다양한 시나리오에서 우수한 성능을 보여주며, 비디오 생성 분야에서의 새로운 지평을 열어나가고 있습니다.

#연구

출처: Apple

요약번역: 미주투데이 서현진 기자