실제 데이터를 넘어선 합성 데이터의 정규화 관점

합성 데이터는 실제 데이터가 부족한 상황에서 모델의 일반화를 개선하는 데 도움을 줄 수 있습니다. 그러나 합성 데이터에 지나치게 의존할 경우, 실제 데이터와의 분포 차이로 인해 성능이 저하될 수 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 합성 데이터와 실제 데이터 간의 균형을 정량화할 수 있는 학습 이론적 프레임워크를 제안합니다. 이 프레임워크는 알고리즘의 안정성을 활용하여 일반화 오류 경계를 도출하고, 실제 데이터와 합성 데이터 간의 Wasserstein 거리의 함수로서 기대 테스트 오류를 최소화하는 최적의 합성 데이터 대 실제 데이터 비율을 특성화합니다. 연구는 커널 릿지 회귀 설정에서 이 프레임워크의 필요성을 설명합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자