MinerU, PDF를 JSON/Markdown 변환 및 OCR 등을 지원하는 데이터 추출 도구 (feat. 한국어 지원)

MinerU 소개

MinerU는 PDF를 비롯한 다양한 문서를 JSON이나 Markdown과 같은 기계가 읽을 수 있는 형식(Machine-Readable Formats)으로 변환하는 오픈소스 도구입니다. MinerU를 사용하여 PDF 문서에서 쉽게 데이터를 추출할 수 있으며, 텍스트, 테이블, 이미지 등 다양한 형태의 데이터를 효과적으로 처리하고, 과학 문헌의 기호 변환 문제를 해결하기 위해 개발되었습니다. MinerU는 대규모 언어 모델(LLM) 시대의 기술 발전에 기여하는 것을 목표로 합니다.

MinerU의 주요 기능은 다음과 같습니다:

  • 다중 포맷 지원: MinerU는 PDF, 웹 페이지, 전자책 등 다양한 포맷에서 데이터를 추출할 수 있습니다. 특히 전자책의 경우 EPUB, MOBI 등의 주요 포맷을 지원하여 범용성을 높였습니다.

  • 테이블 인식 기능: MinerU는 StructTable-InternVL2와 같은 최신 AI 모델을 활용하여 복잡한 테이블도 정확히 인식할 수 있습니다. 테이블 구조를 파악하고 데이터를 추출하여 CSV 또는 JSON 형태로 저장할 수 있습니다. 또한, RapidTable 모델을 추가하여 단일 테이블의 파싱 속도가 최대 10배까지 향상되었습니다.

  • 레이아웃 분석: PDF와 같은 비정형 데이터 소스에서 텍스트 순서를 올바르게 분석하는 것이 중요합니다. MinerU는 LayoutReader와 같은 도구를 사용하여 읽기 순서를 정확히 분석하고, 데이터의 문맥을 유지합니다.

  • 콘텐츠 간 연계: PDF나 웹 페이지에서 표, 그림, 텍스트 간의 연관성을 자동으로 분석하여 더 깊이 있는 데이터를 제공할 수 있습니다. 예를 들어, 그림이나 표의 설명 텍스트를 자동으로 연결하여 활용도를 높입니다.

  • 다국어 OCR 지원: MinerU는 한국어와 영어, 중국어를 포함하여 84개 언어의 OCR 인식을 지원합니다. 이를 통해 스캔된 PDF를 자동 감지하고 OCR하는 기능을 포함하고 있습니다. 지원하는 전체 언어 목록은 OCR 언어 지원 목록을 참고해주세요.

  • 다중 플랫폼 및 환경 지원: MinerU는 Windows, Linux, Mac 플랫폼과 호환되며, CPU 및 GPU 환경 모두에서 실행 가능합니다.

:github: MinuerU GitHub 저장소

:books: MinerU 공식 문서 사이트

https://mineru.readthedocs.io

:framed_picture: 온라인 데모

  • 안정적인 버전 (Stable version verified by QA):
    OpenDataLab

  • 최신의 테스트 버전 (Synced with dev branch updates, testing new features):
    HuggingFace ModelScope




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요