UniGen: 통합된 다중 모달 이해 및 생성을 위한 향상된 훈련 및 테스트 시 전략

UniGen은 이미지 이해와 생성이 가능한 통합된 다중 모달 대형 언어 모델(MLLM)로, 데이터 중심적인 관점에서 UniGen의 전체 훈련 파이프라인을 연구한다. 이는 다단계 사전 훈련, 지도 미세 조정 및 직접 선호도 최적화를 포함한다. 더 중요한 것은, 테스트 시 스케일링을 위해 새로운 Chain-of-Thought Verification (CoT-V) 전략을 제안하는데, 이는 간단한 Best-of-N 테스트 시 전략을 사용하여 UniGen의 이미지 생성 품질을 크게 향상시킨다. 구체적으로, CoT-V는 UniGen이 테스트 시 이미지 생성자 및 검증자로 모두 작용할 수 있도록 한다.
출처: Apple
요약번역: 미주투데이 서현진 기자