AToken: 시각을 위한 통합 토크나이저

AToken은 이미지, 비디오, 3D 자산에 대해 고신뢰 재구성과 의미 이해를 달성하는 최초의 통합 시각 토크나이저이다. 기존의 특정 단일 모달리티에 대한 재구성 또는 이해에 특화된 토크나이저와는 달리, AToken은 이러한 다양한 시각 입력을 공유된 4D 잠재 공간으로 인코딩하여 단일 프레임워크에서 두 작업과 모달리티를 통합한다. 구체적으로, 임의 해상도와 시간 지속 시각 입력을 처리하기 위해 4D 로터리 위치 임베딩이 포함된 순수 트랜스포머 아키텍처를 소개한다. 안정적인 재구성 및 의미 이해를 보장하기 위해 상호 어텐션과 잠재 장치를 고려한 토크나이저를 제안한다. 이를 통해 AToken은 시각 데이터의 다양한 형태와 크기에 대해 일관된 효율적인 처리를 달성하며 시각 토크나이제이션에 새로운 지평을 열고 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자