Jina AI, 2.4B 다국어 비전 언어 모델 ‘Jina-VLM’ 출시

Jina AI는 Jina-VLM을 발표했다. 이 모델은 2.4B 파라미터의 비전 언어 모델로, 다국어 비주얼 질의응답 및 제한된 하드웨어에서 문서 이해를 대상으로 한다. 모델은 SigLIP2 비전 인코더와 Qwen3 언어 백본을 결합하며, 시각 토큰을 줄이고 공간 구조를 보존하는 주의 집중 풀링 커넥터를 사용한다. 이 모델은 2B 규모의 다른 VLM과 비교하여 성능이 우수하다. Jina AI는 Jina-VLM을 통해 비주얼 QA 및 문서 이해 분야에서 혁신을 이루고 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자