Zhipu AI, 문서 파싱과 핵심 정보 추출 위한 0.9B 멀티모달 OCR 모델 GLM-OCR 공개

Zhipu AI는 문서 OCR 분야의 난제를 해결하기 위해 0.9B 파라미터 규모의 멀티모달 OCR 모델인 GLM-OCR을 공개했다. 기존 OCR 기술은 깨끗한 데모 이미지에서는 잘 작동하지만, 실제 문서에서는 표, 수식, 구조화된 정보 추출 등 다양한 요소를 처리하는 데 어려움이 있었다. GLM-OCR은 이러한 문제를 해결하고자 설계되었으며, 문서 파싱과 핵심 정보 추출(KIE)을 동시에 수행할 수 있는 효율적인 모델이다. 특히, 고성능을 유지하면서도 추론 시 과도한 자원 소모를 줄이는 데 중점을 두었다. 이번 모델은 실제 문서 처리에 적합한 OCR 기술 발전에 기여할 것으로 기대된다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자