Mistral OCR, Mistral이 공개한 문서 인식 API

Mistral OCR 소개

Mistral AI가 강력한 문서 인식 API인 Mistral OCR을 공개했습니다. 기존 OCR보다 더 정밀하고 빠르게 문서를 분석할 수 있으며, 텍스트뿐만 아니라 표, 이미지, 수식까지도 정확히 인식하는 것이 특징입니다. 특히 다국어 지원이 뛰어나며, 기업 및 연구기관에서 활용도가 높을 것으로 기대됩니다. 현재 세계 조직 데이터의 약 90%가 문서 형태로 저장되어 있으며, Mistral OCR을 사용하여 이 잠재력을 극대화할 수 있을 것으로 기대합니다.

Mistral OCR은 문서 이해의 새로운 기준을 세우는 광학 문자 인식(OCR, Optical Character Recognition) API입니다. 다른 모델과 달리 Mistral OCR은 문서의 각 요소—미디어, 텍스트, 표, 수식—를 전례 없는 정확도와 이해력으로 분석합니다. 이미지를 비롯한 PDF를 입력으로 받아 순차적으로 배열된 텍스트 및 이미지를 추출합니다.

이러한 특징 덕분에 Mistral OCR은 다중 모드 문서(예: 슬라이드나 복잡한 PDF)를 입력으로 활용하는 RAG 시스템과 결합하기에 이상적인 모델입니다. Mistral OCR은 Le Chat의 수백만 사용자에게 제공되는 문서 이해의 기본 모델로 설정했으며, API(mistral-ocr-latest)를 1,000페이지/$로 제공하고 있습니다(배치 추론을 통해 페이지당 비용이 절반 수준으로 절감). 이 API는 현재 la Plateforme에서 사용할 수 있으며, 곧 클라우드 및 추론 파트너뿐만 아니라 온프레미스(on-premises) 환경에서도 제공될 예정입니다.

복잡한 문서에 대한 최첨단 이해력

Mistral OCR은 이미지, 수식, 표, LaTeX 포맷과 같은 고급 레이아웃을 포함하는 복잡한 문서를 이해하는 데 탁월합니다. 특히, 이 모델은 그래프, 차트, 방정식, 그림을 포함하는 과학 논문과 같은 복잡한 문서를 깊이 이해할 수 있도록 설계되었습니다.

아래 영상은 모델이 PDF에서 텍스트와 이미지를 추출하여 마크다운 파일로 변환하는 예제로, 해당 노트북은 Google Colab에서 확인할 수 있습니다.

다음은 Mistral OCR을 사용한 PDF(좌측)와 OCR 출력 결과(우측)를 비교할 수 있습니다:

최고 수준의 벤치마크 성능

Mistral OCR은 엄격한 벤치마크 테스트에서 다른 주요 OCR 모델을 지속적으로 능가했습니다. 다양한 문서 분석 측면에서 뛰어난 정확도를 보여주며, 다른 LLM이 제공하지 않는 내장 이미지 추출 기능을 지원합니다. 공정한 비교를 위해, 내부 “텍스트 전용” 테스트 세트를 사용하여 여러 출판 논문과 웹에서 가져온 PDF를 평가했습니다:

모델 전체 성능 수학 다국어 스캔 문서
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89.52 85.72 87.52 94.65 89.52
Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48
Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71
Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46
GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

다국어 기본 지원

Mistral의 목표는 세계적으로 활용 가능한 모델을 제공하는 것이며, Mistral OCR은 이를 새로운 수준으로 끌어올렸습니다.

모델 일치율(Fuzzy Match)
Google Document AI 95.88
Gemini-2.0-Flash-001 96.53
Azure OCR 97.31
Mistral OCR 99.02

수천 개의 문자, 글꼴, 언어를 인식하고 이해하며, 이는 글로벌 기업뿐만 아니라 특정 시장을 타겟팅하는 지역 기업에도 필수적인 기능입니다.

언어 Azure OCR Google Document AI Mistral OCR
러시아어(ru) 97.35 95.56 99.09
프랑스어(fr) 97.50 96.36 99.20
힌디어(hi) 96.45 95.65 97.55
중국어(zh) 91.40 90.89 97.11
포르투갈어(pt) 97.96 96.24 99.42
독일어(de) 98.39 97.09 99.51
스페인어(es) 98.54 97.52 99.54

:scroll: Mistral OCR 공개 블로그

:framed_picture: le Chat에서 Mistral OCR 무료로 사용해보기

:house: Mistral OCR API 사용을 위한 Mistral Cnsole 홈페이지

http://console.mistral.ai

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요