Matrix3D: 대형 사진 측량 모델 올인원

Apple의 Machine Learning Research에서 발표된 Matrix3D는 사진 측량 작업을 통합하는 혁신적인 모델이다. 포즈 추정, 깊이 예측, 신규 뷰 합성 등 다양한 작업을 수행하며, 이를 위해 이미지, 카메라 매개변수, 깊이 맵과 같은 다양한 모달리티를 통합하는 다중 모달 확산 트랜스포머(DiT)를 활용한다. Matrix3D의 핵심은 마스크 학습 전략으로, 부분적으로 완전하지 않은 데이터로도 모든 모달리티를 포함한 모델 훈련이 가능해진다. 이 모델은 대규모 사진 측량 작업에 적합하며, 효율적인 결과를 얻을 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자