기기 지향적 음성 감지를 위한 적응형 지식 증류

기기 지향적 음성 감지(DDSD)은 사용자의 음성 어시스턴트(VA)에 대한 쿼리를 배경 음성이나 부수적인 대화와 분리하는 이진 분류 작업이다. 이는 자연스러운 사용자 경험을 달성하는 데 중요하다. 이를 위해, ASR 대규모 사전 훈련된 음향 인코더(교사)의 일반적인 표현으로부터 지식을 전달하는 새로운 적응형 지식 증류(KD) 방법을 제안한다. 구체적으로, 우리는 교사 인코더(고정 상태) 위에 과제별 어댑터를 도입하여(훈련된) 교사 인코더로부터 지식을 전송하고 DDSD 정확도를 향상시킨다. 이를 통해 효율적인 배포를 보장하면서 DDSD 정확도를 향상시키는 것이 목표이다. 애플 머신러닝 논문에서 소개된 이 방법은 음성 데이터셋 및 특정 DDSD 구성에 대해 효과적인 것으로 입증되었다. 앞으로의 연구에서는 이 방법을 더 발전시켜 음성 인식 분야에서의 성능을 더욱 향상시킬 계획이다.
출처: Apple
요약번역: 미주투데이 서현진 기자