텍스트 대비 비디오 정렬의 평가: 미세한 질문 생성 및 답변을 통해

발행일: 2025년 6월 30일 오전 12시 00분

텍스트 프롬프트와 생성된 비디오 간의 의미적 정렬을 정확하게 평가하는 것은 텍스트 대비 비디오(T2V) 생성에서 여전히 도전적인 과제입니다. 기존의 텍스트 대비 비디오 정렬 메트릭인 CLIPScore는 미세한 정렬 세부사항을 생성하지 않고 인간의 선호와 일치하지 않는 등의 한계가 있습니다. 이러한 한계를 극복하기 위해 우리는 ETVA라는 새로운 텍스트 대비 비디오 정렬 평가 방법을 제안합니다. ETVA는 미세한 질문 생성과 답변을 통해 텍스트 대비 비디오의 정렬을 평가하는 혁신적인 방법입니다. 먼저, 다중 에이전트 시스템이 프롬프트를 의미적인 장면 그래프로 파싱하여 원자적인 질문을 생성합니다. 그런 다음, 우리는 지식을 보강한 기초적인 자연 언어 처리(NLP) 모델을 사용하여 이러한 질문에 대한 답변을 생성합니다. 이를 통해 ETVA는 기존 메트릭보다 훨씬 더 세밀하게 텍스트 대비 비디오의 의미적 정렬을 측정할 수 있습니다.

#머신러닝

출처: Apple

요약번역: 미주투데이 서현진 기자