Gemini Document Processor: PDF와 EPUB을 요약하는 Gemini 기반 문서 처리기 (feat. 태국어)

9bow · 5월 1, 2025, 3:30오전

Gemini Document Processor

Gemini Document Processor는 PDF나 EPUB 파일을 Google의 Gemini AI를 활용하여 태국어 중심의 고품질 요약을 생성하고, 이미지 추출까지 자동화하며 Obsidian과도 연동되는 오픈소스 도구입니다. Gemini Document Processor는 Google의 Gemini AI 모델을 활용하여 PDF 및 EPUB 파일에서 텍스트를 추출하고, 이를 태국어로 요약하는 오픈소스 문서 처리 도구입니다. Flask 기반의 웹 인터페이스를 제공하며, 사용자는 파일 업로드, 모델 선택, 이미지 추출 여부, Obsidian 연동 설정 등을 손쉽게 조작할 수 있습니다.

또한, 문서를 페이지나 챕터 단위로 나누어 처리하고, 실패한 청크에 대한 재처리 기능도 지원하여 안정적인 문서 요약을 제공합니다. Gemini Document Processor는 특히 태국어 문서 요약과 Obsidian 연동에 특화되어 있어, 해당 요구사항이 있는 사용자에게 적합합니다.

Gemini Document Processor의 주요 기능

AI 기반 요약: Google Gemini 모델(gemini-2.0-flash, gemini-2.5-flash-preview, gemini-1.5-pro)을 활용한 고품질 요약 생성
다양한 포맷 지원: PDF 및 EPUB 파일 처리 가능
이미지 추출: 문서 내 이미지 추출 및 필터링 기능
Obsidian 연동: 요약 결과를 Obsidian Vault에 Markdown 형식으로 저장
웹 인터페이스: 파일 업로드, 모델 선택, 설정 조정 등을 위한 직관적인 웹 UI 제공
에러 처리 및 재시도: 처리 실패한 청크에 대한 재처리 기능 지원

라이선스

Gemini Document Processor 프로젝트는 MIT License로 공개되어 있으며, 상업적 사용에 제한이 없습니다.

Gemini Document Processor GitHub 저장소

https://github.com/kidpeterpan/gemini-document-processor

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~