바이두, 통합 문서 인공지능 모델 ‘치안판-OCR’ 발표

바이두 치안판 팀이 새로운 문서 인공지능 모델인 ‘치안판-OCR’을 발표했습니다. 이 모델은 40억 개의 매개변수를 갖춘 엔드 투 엔드 모델로, 문서 파싱, 레이아웃 분석, 문서 이해를 하나의 비전-언어 아키텍처 내에서 통합합니다. 전통적인 다단계 OCR 파이프라인과는 달리, 치안판-OCR은 레이아웃 감지와 텍스트 인식을 위한 별도의 모듈을 연결하는 대신, 이미지를 직접 Markdown 형식으로 변환할 수 있는 기능을 제공합니다. 또한, 테이블 추출 및 문서 질문과 같은 프롬프트 기반 작업을 지원합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자