2026년 3월 9일 월요일
오늘의 신문
2026년 3월 9일 월요일 오늘의 신문

최신뉴스 전체보기

FireRedTeam, 소프트웨어 개발자를 위한 FireRed-OCR-2B를 발표하며 LVLM의 구조적 환각 해결

FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 ‘구조적 환각’을 해결하는 데 사용된다.

2026년 3월 2일 오전 1시 38분
DeepSeek AI, 인쇄물 이해를 위한 레이아웃 인식 OCR을 발표

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.

2026년 1월 30일 오전 3시 21분
Mistral AI, 구조화된 문서 AI를 위한 작은 OCR 모델 OCR 3 출시

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.

2025년 12월 20일 오전 4시 26분
텐센트 훈유안, HunyuanOCR 공개: 1B 파라미터 엔드 투 엔드 OCR 전문가 VLM

텐센트 훈유안이 OCR 및 문서 이해를 위해 특화된 1B 파라미터 비전 언어 모델인 HunyuanOCR을 공개했다. 이 모델은 멀티모달 아키텍처를 기반으로 하며, 스포팅, 파싱, 정보 추출, 시각적 질문 응답 및 텍스트 이미지 번역을 단일 엔드 투 엔드 파이프라인을 통해 실행한다.

2025년 11월 27일 오전 4시 07분
2025년 최고의 OCR (Optical Character Recognition) 모델/시스템 비교

2025년 현대 시스템은 스캔 및 디지털 PDF를 한 번에 읽고 레이아웃을 보존하며 표를 감지하고 키-값 쌍을 추출하고 여러 언어를 처리해야 합니다. 많은 팀들은 이제 OCR이 RAG 및 에이전트 파이프라인에 직접 공급되는 것을 원합니다.

2025년 11월 2일 오전 3시 49분
DeepSeek, 고성능 OCR 및 구조화된 문서 변환을 위해 디자인된 3B OCR 모델 출시

DeepSeek-AI가 3B DeepSeek-OCR을 출시했다. 이는 텍스트를 작은 집합의 시각 토큰으로 압축한 뒤 언어 모델로 해당 토큰을 디코딩하는 OCR 및 문서 구문 분석 Vision-Language Model(VLM) 시스템이다. 이미지는 텍스트의 간략한 표현을 갖고 있어 디코더의 시퀀스 길이를 줄인다.

2025년 10월 20일 오후 7시 50분
IBM AI, 그래나이트 독링 258M 공개: 기업용 오픈소스 문서 AI 모델

IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.

2025년 9월 17일 오후 8시 35분
파이썬을 사용하여 EasyOCR과 OpenCV로 다국어 OCR AI 에이전트 구축하는 방법

본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.

2025년 9월 12일 오후 2시 06분
dots.ocr 만나보기: 다국어 문서 구문 분석에서 최고 수준의 성능을 달성한 새로운 1.7B 비전-언어 모델

dots.ocr은 다국어 문서 레이아웃 구문 분석과 광학 문자 인식(OCR)을 위해 개발된 오픈 소스 비전-언어 트랜스포머 모델이다. 이 모델은 단일 아키텍처 내에서 레이아웃 감지와 내용 인식을 수행하며 100여 개 언어와 다양한 구조화된 및 비구조화된 문서 유형을 지원한다.

2025년 8월 16일 오후 1시 22분