중국 과학원의 새로운 LLM인 Stream-Omni, Cross-Modal 실시간 AI용

중국 과학원에서 개발한 Stream-Omni은 텍스트, 비전, 음성 모달리티에서 우수한 성능을 보이며 시각 정보에 기반한 음성 상호작용을 지원하는 omni-modal LMMs의 한계를 극복하기 위한 기술이다. 대형 다중 모달 모델(LMMs)은 텍스트, 비전 및 음성 모달리티 전반에 걸쳐 뛰어난 omni-기능을 보여주어 다양한 응용 분야에 큰 잠재력을 제공한다. 비전 중심 LMMs는 성공을 거두었지만 시각 정보에 기반한 음성 상호작용을 지원하는 omni-modal LMMs는 모달리티 간의 본질적인 표현적 불일치로 인해 도전에 직면한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자