단일 단안 카메라 스트림으로부터 여러 사람의 자세를 감지하고 추적하는 방법 소개. 복잡한 자세와 가려진 장면에서 시간적으로 일관된 예측을 유지. 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적. 감지를 시간에 따라 매칭하는 대신, 자세는 새 입력 이미지에서 직접 업데이트되어 가려짐을 통해 온라인 추적 가능.
최신뉴스 전체보기
디퓨전 트랜스포머를 스케일업하여 수십억 개의 파라미터로 확장하는 것이 유망하나, 현재 크기 이상으로 스케일링하는 효과는 여전히 탐구 중이며 어렵다. EC-DIT는 이미지 생성의 계산적 이질성을 명시적으로 이용하여 전문가 선택 라우팅을 사용하는 디퓨전 트랜스포머용 새로운 MoE 모델을 개발한다. EC-DIT는 입력 텍스트를 이해하고 해당 이미지 패치를 생성하기 위해 할당된 계산을 적응적으로 최적화하는 방법을 학습한다.
대규모 언어 모델의 선호도 조정을 위해 DPO가 널리 사용되고 있지만 토큰 간 중요도 차이를 무시하여 최적화 효율성에 영향을 줄 수 있음. 이에 TIS-DPO를 제안하여 토큰 간 중요도를 고려한 최적 데이터를 제시함.
이 논문은 ICLR 2025의 Foundation Models in the Wild 워크샵에서 받아들여졌다. 이미지의 시각적 이해는 본질적으로 맥락에 의존적이며, 이미지에서 주목하는 대상은 주어진 작업에 따라 달라진다. 대부분의 기존 이미지 인코딩 패러다임은 이미지를 고정된 범용 특징 벡터로 표현하는데, 다양한 시각 정보를 우선순위에 따라 다르게 처리하는 잠재적 필요성을 간과한다.
Apple은 민감한 프라이버시를 중요시하며, Differential Privacy와 같은 기술을 활용하여 제품 사용 통계를 분석하고 사용자 프라이버시를 보호합니다. 이러한 필요성은 Apple 인텔리전스에서도 중요하며, 사용자들의 데이터를 보호하면서 사용 트렌드를 이해하는 것이 목표입니다.
이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해 Ego4D에서 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성한다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나이다. 또한 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가한다.

