StereoFoley: 비디오에서 객체 인식 스테레오 오디오 생성

발행일: 2026년 4월 28일 오전 12시 00분

StereoFoley는 비디오를 기반으로 스테레오 오디오를 생성하는 혁신적인 프레임워크입니다. 이 시스템은 의미적으로 정렬되고 시간적으로 동기화된 스테레오 사운드를 48 kHz의 고음질로 제공합니다. 최근의 비디오-오디오 생성 모델들은 강력한 의미적 및 시간적 충실도를 달성했지만, 대부분 모노 오디오에 한정되거나 객체 인식 스테레오 이미징을 제공하지 못하는 한계가 있었습니다. 이는 전문적으로 믹스된 공간적으로 정확한 비디오-오디오 데이터셋의 부족에 기인합니다. StereoFoley는 이러한 문제를 해결하기 위해 개발된 기본 모델을 통해 스테레오 오디오를 생성하며, 의미적 정확성과 동기화에서 최첨단 성능을 자랑합니다.

출처: Apple

요약번역: 미주투데이 서현진 기자