MANZANO: 간단하고 확장 가능한 혼합 비전 토크나이저를 갖춘 통합 다중 모달 모델

Manzano는 시각적 콘텐츠를 이해하고 생성할 수 있는 통합 다중 모달 대형 언어 모델(LLM)을 제안한다. 기존의 오픈 소스 모델은 종종 이러한 능력 사이의 성능 트레이드오프로 인해 고통받는다. Manzano는 하이브리드 이미지 토크나이저와 정교하게 설계된 훈련 레시피를 결합하여 이 긴장을 크게 줄이는 간단하고 확장 가능한 통합 프레임워크이다. 단일 공유 비전 인코더가 두 가벼운 어댑터에 공급되어 이미지에서 텍스트 이해 및 텍스트에서 이미지 생성을 위한 연속 임베딩과 이산형 토큰을 생성한다. Manzano는 텍스트 및 이미지 간의 상호작용을 강화하고, 더 나은 시각적-언어적 이해와 생성 능력을 제공한다.
출처: Apple
요약번역: 미주투데이 서현진 기자