알리바바 AI팀, 향상된 시각 지각 및 추론 능력을 갖춘 Ovis 2.5 다중모달 LLMs 발표
알리바바의 AIDC-AI팀은 Ovis2.5라는 최신 대형 다중모달 언어 모델을 선보였는데, 9B와 2B 매개변수 버전을 제공하며 오픈소스 AI 커뮤니티에서 큰 주목을 받고 있다. Ovis2.5는 기술적 진보를 통해 성능과 효율성에 새로운 기준을 제시하고 있는데, 이는 원본 해상도 비전 인식, 심층 다중모달 추론, 견고한 OCR(광학 문자 인식)을 통해 오랫동안 직면해온 한계를 극복하기 위한 것이다. 다중모달 언어 모델은 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형식의 데이터를 처리할 수 있는 능력을 갖추고 있으며, 이는 다양한 분야에서 혁신적인 응용 프로그램을 개발하는 데 중요한 역할을 한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자