2026년 3월 9일 월요일
오늘의 신문
2026년 3월 9일 월요일 오늘의 신문
MM-Spatial: 3D 공간 이해를 탐구하는 다중 모달 LLMs
발행일: 2025년 9월 23일 오전 12시 00분

다중 모달 대형 언어 모델(MLLMs)은 시각적 이해 분야에서 큰 발전을 이루었지만, 여전히 3D 공간에 대한 추론 능력에는 한계가 있습니다. 본 연구에서는 대규모 고품질 3D 장면 데이터와 오픈셋 주석을 활용하여 1) 새로운 지도형 데이터셋을 도입하고 2) 실내 장면에 중점을 둔 새로운 평가 기준을 소개합니다. Cubify Anything VQA (CA-VQA) 데이터는 공간 관계 예측, 측정 크기 및 거리 추정, 3D 기준을 포함한 다양한 공간 작업을 다루며, MM-Spatial을 학습시키기 위한 훈련에 활용됩니다. 이를 통해 MM-Spatial은 일반적인 강력한 다중 모달 대형 언어 모델(MLLM)로 훈련됨을 보여줍니다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자