Meta AI, 오픈소스로 공개된 Perception Encoder Audiovisual (PE-AV): SAM Audio 및 대규모 다중 모달 검색을 동력으로 하는 오디오비주얼 인코더

Meta 연구진은 Perception Encoder Audiovisual(PEAV)를 도입하면서, 단일 임베딩 공간에서 오디오, 비디오 및 텍스트 표현을 학습하는 새로운 인코더 패밀리인 PEAV를 소개했다. 이 모델은 약 100M개의 오디오 비디오 쌍과 텍스트 캡션을 대규모 대조적 학습을 통해 정렬된 방식으로 학습한다. 이를 통해 SAM 오디오와 대규모 다중 모달 검색을 동력질 수 있는 기초를 제공한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자