TrajTok: 비디오 이해를 향상시키는 학습 궤적 토큰

비디오 모델에서의 토큰화는 일반적으로 패치화를 통해 이루어지며, 이 과정에서 과도하고 중복된 수의 토큰이 생성됩니다. 이러한 문제는 비디오의 효율성과 확장성을 심각하게 제한합니다. 최근의 궤적 기반 토큰화 기법은 비디오의 지속 시간과 토큰 수를 분리하여 유망한 해결책을 제시하지만, 복잡한 외부 분할 및 추적 파이프라인에 의존하여 느리고 작업에 구애받지 않는 단점이 있습니다. 이에 따라, 우리는 TrajTok이라는 새로운 비디오 토크나이저 모듈을 제안합니다. 이 모듈은 비디오 모델과 완전히 통합되어 있으며, 하위 목표에 맞춰 공동 학습됩니다. TrajTok은 의미적 복잡성에 따라 동적으로 토큰의 세분화를 조정하여 비디오 이해를 향상시킵니다.
출처: Apple
요약번역: 미주투데이 서현진 기자