Visatronic: 음성 합성을 위한 다중 모달 디코더 전용 모델

최근의 기반 모델과 대형 언어 모델(Large Language Models, LLMs)의 빠른 발전은 다중 입력 데이터를 활용하는 기계 학습 시스템의 능력을 크게 향상시켰다. 그러나 기존의 다중 모달 모델은 주로 사전 훈련된 LLMs 위에 구축되어 다른 모달 간의 시간적 의존성을 정확하게 모델링하는 것을 제한할 수 있으며, 이는 모델이 다중 모달 입력을 공동으로 처리하고 활용하는 능력을 제한할 수 있다. 텍스트, 비디오, 음성 모달의 정렬을 탐구하기 위해 LLM 스타일(디코더 전용) 모델에서 간단한 모델을 고려한다.
출처: Apple
요약번역: 미주투데이 서현진 기자