MarkItDown, Microsoft가 공개한 PDF, 이미지 및 오피스 문서 👉 Markdown 변환 도구

MarkItDown 소개

MarkItDown은 다양한 파일 형식을 Markdown 텍스트로 변환해주는 Python 기반 도구입니다. Markdown은 단순하면서도 강력한 텍스트 포맷으로, 텍스트 정리, 협업, 블로그 포스팅, 그리고 데이터 분석에서 널리 사용됩니다. 하지만 다양한 파일 형식을 Markdown으로 변환하는 작업은 번거로울 수 있습니다. MarkItDown은 이러한 문제를 해결하기 위해 설계되었으며, PDF나 Word와 같은 복잡한 파일도 간단한 텍스트로 변환할 수 있습니다. 지원하는 파일은 다음과 같습니다:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Images (EXIF metadata, and OCR)
  • Audio (EXIF metadata, and speech transcription)
  • HTML (special handling of Wikipedia, etc.)
  • Various other text-based formats (csv, json, xml, etc.)

MarkItDown 설치 및 사용법

MarkItDown은 다음과 같이 pip로 설치할 수 있습니다:

pip install markitdown

사용법은 간단합니다:

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

또는, LLM을 사용하여 이미지를 설명하도록 할수도 있습니다:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

라이선스

MarkItDown은 MIT License로 공개되어 있습니다.

:github: MarkItDown GitHub 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요

+ GPTs에 사용하기 위해 간단하게 FastAPI로 Wrapper를 만들어봤습니다.

fly.io 에서 무료 플랜으로 사용 중인데, GPTs가 기존에 AWS Lambda에 mozilla의 readablity.js(의 Golang버전)를 배포해둔거랑 헷갈려하네요 :sweat_smile: 조만간 하나로 합쳐야겠습니다ㅎㅎ