바이두의 PaddlePaddle 팀, PaddleOCR-VL (0.9B) 출시: NaViT 스타일 + ERNIE-4.5-0.3B VLM을 통한 end-to-end 다국어 문서 구문 분석
바이두의 PaddlePaddle 팀이 PaddleOCR-VL을 출시했습니다. 이 모델은 0.9B 파라미터를 가진 Vision-Language 모델로, 다국어 문서를 텍스트, 표, 수식, 차트, 필기체 등 다양한 형태의 구문으로 변환합니다. 이 모델은 실제 배포에 적합한 추론 지연 시간과 메모리를 유지하면서 최신 정확도를 제공합니다. 자세한 내용은 링크를 참조해주세요.
#AIPaperSummary #Applications #ArtificialIntelligence #EditorsPick #LanguageModel #Machinelearning #NewReleases #TechNews #Technology #VisionLanguageModel
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자