MinerU, PDF를 JSON/Markdown 변환 및 OCR 등을 지원하는 데이터 추출 도구 (feat. 한국어 지원)

9bow · 11월 18, 2024, 1:24오후

MinerU 소개

MinerU는 PDF를 비롯한 다양한 문서를 JSON이나 Markdown과 같은 기계가 읽을 수 있는 형식(Machine-Readable Formats)으로 변환하는 오픈소스 도구입니다. MinerU를 사용하여 PDF 문서에서 쉽게 데이터를 추출할 수 있으며, 텍스트, 테이블, 이미지 등 다양한 형태의 데이터를 효과적으로 처리하고, 과학 문헌의 기호 변환 문제를 해결하기 위해 개발되었습니다. MinerU는 대규모 언어 모델(LLM) 시대의 기술 발전에 기여하는 것을 목표로 합니다.

MinerU의 주요 기능은 다음과 같습니다:

다중 포맷 지원: MinerU는 PDF, 웹 페이지, 전자책 등 다양한 포맷에서 데이터를 추출할 수 있습니다. 특히 전자책의 경우 EPUB, MOBI 등의 주요 포맷을 지원하여 범용성을 높였습니다.
테이블 인식 기능: MinerU는 StructTable-InternVL2와 같은 최신 AI 모델을 활용하여 복잡한 테이블도 정확히 인식할 수 있습니다. 테이블 구조를 파악하고 데이터를 추출하여 CSV 또는 JSON 형태로 저장할 수 있습니다. 또한, RapidTable 모델을 추가하여 단일 테이블의 파싱 속도가 최대 10배까지 향상되었습니다.
레이아웃 분석: PDF와 같은 비정형 데이터 소스에서 텍스트 순서를 올바르게 분석하는 것이 중요합니다. MinerU는 LayoutReader와 같은 도구를 사용하여 읽기 순서를 정확히 분석하고, 데이터의 문맥을 유지합니다.
콘텐츠 간 연계: PDF나 웹 페이지에서 표, 그림, 텍스트 간의 연관성을 자동으로 분석하여 더 깊이 있는 데이터를 제공할 수 있습니다. 예를 들어, 그림이나 표의 설명 텍스트를 자동으로 연결하여 활용도를 높입니다.
다국어 OCR 지원: MinerU는 한국어와 영어, 중국어를 포함하여 84개 언어의 OCR 인식을 지원합니다. 이를 통해 스캔된 PDF를 자동 감지하고 OCR하는 기능을 포함하고 있습니다. 지원하는 전체 언어 목록은 OCR 언어 지원 목록을 참고해주세요.
다중 플랫폼 및 환경 지원: MinerU는 Windows, Linux, Mac 플랫폼과 호환되며, CPU 및 GPU 환경 모두에서 실행 가능합니다.

MinuerU GitHub 저장소

MinerU 공식 문서 사이트

https://mineru.readthedocs.io

온라인 데모

안정적인 버전 (Stable version verified by QA):
최신의 테스트 버전 (Synced with dev branch updates, testing new features):

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~