대규모 에고센트릭 비디오로부터 솜씨있는 조작 학습하기

조작을 위한 모방 학습은 데이터 부족 문제를 안고 있다. 자연어와 2D 컴퓨터 비전과는 달리, 솜씨있는 조작을 위한 인터넷 규모의 데이터 코퍼스가 없다. 에고센트릭 인간 비디오는 확장 가능한 데이터 원천으로 작용한다. 그러나 기존의 대규모 데이터셋인 Ego4D는 원시 손 위치 주석을 갖고 있지 않으며 물체 조작에 중점을 두지 않는다. 이에 우리는 Apple Vision Pro를 사용하여 EgoDex를 수집했는데, 이는 오늘날 가장 크고 다양한 솜씨있는 인간 조작 데이터셋이다. EgoDex에는 829시간의 에고센트릭 비디오와 이에 짝을 이룬 3D…
출처: Apple
요약번역: 미주투데이 서현진 기자