NVIDIA AI, 오디오-SDS 소개: 특별한 데이터셋 없이 프롬프트 안내 오디오 합성 및 소스 분리를위한 통합 확산 기반 프레임워크

NVIDIA AI는 오디오 확산 모델을 통해 텍스트에서 3D 및 이미지 편집을 가능케 한 Score Distillation Sampling (SDS)을 오디오 합성 및 소스 분리에 적용한다. 기존 모델은 샘플 생성에 뛰어나지만, 물리적 영향음 생성이나 프롬프트 주도의 소스 분리와 같은 작업에서는 명시적이고 해석 가능한 매개변수 조정이 필요하다. SDS는 특별한 데이터셋 없이 고품질의 음성, 음악 및 효과음 합성을 달성할 수 있도록 도와준다. 이를 통해 사용자는 구조적 제약 하에 명시적 매개변수를 조정하고 소리를 생성할 수 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자