자가 교육 음성 모델의 다국어 간격 축소를 위한 오디오-비주얼 데이터 활용

발행일: 2025년 9월 25일 오전 12시 00분

자가 교육(SSL)은 음성 표현 학습에서 상당한 발전을 이루었습니다. wav2vec 2.0 및 HuBERT와 같은 모델은 음성 인식과 같은 작업에서 최첨단 결과를 달성했습니다. 특히, 단일 언어 환경에서는 성능이 우수합니다. 그러나 이중 언어 환경과 같이 적은 언어가 있는 다국어 시나리오에서는 다국어 SSL 모델이 각 개별 언어에서 특히 성능이 낮습니다. 본 연구에서는 제한된 비주얼 기반을 이중 언어 음성 SSL 모델에 도입하여 이러한 성능 간격을 줄이는 새로운 접근 방식을 조사합니다.

#머신러닝

출처: Apple

요약번역: 미주투데이 서현진 기자