3D 장면 이해를 위한 토큰 구조의 영향 연구: 대규모 언어 모델과의 점-3D LLM

3차원 장면을 다중모달 대규모 언어 모델(MLLMs)에 효과적으로 표현하는 것은 중요하지만 어렵습니다. 기존 방법은 주로 2D 이미지 기능에만 의존하고 다양한 토큰화 방법을 사용합니다. 본 연구는 일관된 모델 백본과 매개변수를 유지하면서 비디오 기반 및 포인트 기반 표현을 체계적으로 비교하는 3D 토큰 구조의 철저한 연구를 제시합니다. 우리는 Sonata 사전 학습된 Point Transformer V3 인코더에서 3D 포인트 클라우드 기능을 통합하여 시각적 토큰을 보강하는 새로운 방법을 제안합니다. 실험 결과는 명시적인 3D 정보를 통합하는 것이 3D 장면 이해에 도움이 된다는 것을 보여줍니다.
출처: Apple
요약번역: 미주투데이 서현진 기자