llama-scan 소개
Llama-Scan은 PDF 파일을 손쉽게 텍스트 파일로 변환해 주는 도구로, 특히 Ollama의 최신 멀티모달 모델을 활용하여 이미지나 다이어그램까지 상세한 텍스트 설명으로 바꿀 수 있습니다. 단순히 텍스트 추출에 그치는 것이 아니라, 그림과 시각적 요소까지 자연어로 변환한다는 점이 특징입니다. 기존의 PDF 텍스트 추출 도구들이 이미지 기반 문서에서 한계를 드러낸 것과 달리, Llama-Scan은 최신 AI 모델을 이용해 이러한 문제를 보완하고 있습니다.
또한 Llama-Scan은 로컬 환경에서 실행되므로 별도의 API 호출이나 토큰 비용이 발생하지 않습니다. 이는 대규모 PDF 문서를 처리해야 하는 개발자나 연구자들에게 매우 중요한 장점으로, 데이터 프라이버시 측면에서도 안심할 수 있습니다. Python 환경만 갖추고 Ollama를 설치하면 바로 사용할 수 있어 접근성 또한 뛰어납니다.
최근 논문, 기술 문서, 학술 자료들이 이미지와 그래프 중심으로 작성되는 경우가 많은데, Llama-Scan을 활용하면 이러한 자료를 텍스트 중심의 데이터셋으로 가공할 수 있습니다. 이는 연구자뿐 아니라, AI 학습 데이터 전처리 과정에도 큰 도움이 될 것으로 기대합니다.
기존 PDF 추출 도구와의 비교
대표적인 PDF 텍스트 추출 도구로는 PyPDF2와 같이 단순히 문서 내의 텍스트를 파싱하여 출력하는 방식의 도구들이 대부분이었습니다. 이미지 기반 문서에서는 거의 작동하지 않거나 OCR(광학 문자 인식) 같은 별도 도구를 병행해야 했습니다.
반면 Llama-Scan은 Ollama의 멀티모달 모델을 활용하여 이미지 자체를 이해하고 설명으로 변환할 수 있기 때문에, 기존 도구들보다 훨씬 풍부한 데이터를 얻을 수 있습니다. 특히 논문에 포함된 수식, 다이어그램, 표 등을 문맥 기반으로 해석하는 데 강점을 보입니다.
따라서 텍스트만 있는 문서라면 기존 도구가 가볍고 빠를 수 있지만, 시각 자료가 포함된 PDF라면 Llama-Scan이 훨씬 유용한 선택지가 될 수 있습니다.
그 외에도 Mistral OCR과 같이 VLM 모델을 사용하는 API들이 있지만, 유료이고 변환 처리가 로컬에서 되지 않은 점이 Llama-Scan과의 다른 점입니다.
llama-scan의 주요 기능 및 사용법
설치
Llama-Scan을 설치하려면 Python 3.10 이상과 Ollama가 필요합니다.
Ollama를 설치한 뒤, 기본 모델을 가져와야 합니다.
ollama run qwen2.5vl:latest
패키지는 pip 또는 uv를 통해 설치할 수 있습니다:
# pip 사용 시
pip install llama-scan
# 또는, uv 사용 시
uv tool install llama-scan
기본 사용법
아래와 같은 명령어를 실행하면 해당 PDF가 텍스트 파일로 변환되어 output/
디렉터리에 저장됩니다:
llama-scan path/to/your/file.pdf
다음의 옵션들을 사용할 수 있습니다:
--output
,-o
: 결과 저장 디렉터리 (기본값: “output”)--model
,-m
: 사용할 Ollama 모델 지정 (기본값: “qwen2.5vl:latest”)--keep-images
,-k
: 변환 과정에서 생성된 중간 이미지 보관 여부 (기본값: False)--width
,-w
: 이미지 리사이즈 너비 (0이면 리사이즈 생략, 기본값: 0)--start
,-s
: 시작 페이지 지정 (기본값: 0)--end
,-e
: 종료 페이지 지정 (기본값: 0, 즉 전체 페이지 처리)
활용 예시
다음은 document.pdf 파일로부터 1~5 페이지까지만 추출하고, 이미지를 가로 1000px로 리사이즈하는 예시입니다:
llama-scan document.pdf --start 1 --end 5 --width 1000
다음은 document.pdf 파일을 파싱할 때, 사용하려는 Ollama 모델을 지정하는 예시입니다:
llama-scan document.pdf --model qwen2.5vl:3b
라이선스
llama-scan은 MIT 라이선스로 공개되어 있습니다. 상업적 사용이 가능합니다.
llama-scan 프로젝트 GitHub 저장소
더 읽어보기
-
olmOCR, PDF 및 이미지를 효과적으로 분석하고 구조화하는 오픈소스 OCR 도구 (feat. Allen AI)
-
MinerU, PDF를 JSON/Markdown 변환 및 OCR 등을 지원하는 데이터 추출 도구 (feat. 한국어 지원)
-
Tarsier: LLM&LMM Agent를 위한 시각 도구 (🙈 Vision utilities for web interaction agents 🙈)
-
MegaParse, PDF 및 오피스 문서 파싱이 가능한, 멀티모달 모델과의 통합을 지원하는 오픈소스 프로젝트
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~