Lumina.ai, 문서 처리 및 OCR가 가능한 오픈소스 프로젝트 Chunkr (및 API) 공개

9bow · 10월 30, 2024, 6:24오전

Chunkr 소개

Chunkr는 Lumina.ai가 개발한 PDF 문서 처리 및 OCR(광학 문자 인식) 솔루션입니다. 특히 학술 연구에서 고품질 데이터를 추출하는 것이 중요한데, 이를 위해 Lumina는 자체적으로 수백만 개의 PDF 파일을 처리해야 했습니다. 하지만 기존 솔루션들은 너무 느리거나 비용이 높았기 때문에 자체적으로 Chunkr를 개발했습니다. 이 솔루션은 최신 비전 모델을 활용하여 PDF에서 정보를 추출하고, Rust Actix 서버를 통해 빠르게 처리할 수 있습니다. Chunkr는 단일 NVIDIA L4 인스턴스에서 초당 약 5페이지를 처리할 수 있으며, GPU와 CPU 모두에서 사용 가능합니다.

기존의 OCR 솔루션들은 대개 느리거나 비용이 높았으며, 특히 대규모 PDF 파일 처리에서 한계를 드러냈습니다. Chunkr는 이러한 문제를 해결하기 위해 설계되었으며, 자체 배포가 가능하고 최신 비전 모델을 사용하여 빠르고 정확한 결과를 제공합니다. 또한, OCR 엔진으로 Textract와 PaddleOCR을 선택할 수 있어, 특정 환경에 맞춘 유연한 설정이 가능합니다.

Chunkr의 주요 특징

속도: 초당 약 5페이지 처리 (단일 NVIDIA L4 인스턴스 기준).
모델: GPU 및 CPU 환경 모두에서 동작하는 모델 지원.
유연성: Textract와 PaddleOCR을 사용할 수 있으며, 두 엔진 간의 전환이 간단.
비용 효율성: 기존 솔루션 대비 훨씬 저렴한 가격으로 대량의 문서 처리 가능.
오픈소스: Chunkr는 오픈소스로 제공되며, 자체 배포도 가능.

설치 방법

Chunkr는 2가지 방법으로 사용할 수 있습니다:

가장 쉽게 사용할 수 있는 것은 chunkr.ai에 가입하고 API를 발급받는 것입니다.
GitHub 저장소의 직접 배포하기(Self-Deployment) 문서를 참고하면 됩니다. (k8s 및 Docker 필요)

빠른 시작

다음은 Chunkr를 빠르게 시작하는 방법입니다:

chunkr.ai에 방문하여 계정을 생성하고 API 키를 복사합니다.
API 키를 사용하여 파일을 업로드하고 작업을 생성합니다:

curl -X POST https://api.chunkr.ai/api/v1/task \
   -H "Content-Type: multipart/form-data" \
   -H "Authorization: ${YOUR_API_KEY}" \
   -F "file=@/path/to/your/file" \
   -F "model=HighQuality" \
   -F "target_chunk_length=512" \
   -F "ocr_strategy=Auto"

생성된 작업을 조회합니다:

curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
   -H "Authorization: ${YOUR_API_KEY}"

라이센스

Chunkr는 2가지 라이선스(Dual Lincense)로 공개되었습니다:

일반적인 목적에 대해서는 GNU Affero General Public License v3.0 (AGPL-3.0)로 제공됩니다.
상업적인 목적으로 사용하려면 상업 라이선스를 구매해야 합니다. 자세한 내용은 이메일 또는 홈페이지로 문의해주세요.

Chunkr 홈페이지

Chunkr GitHub 저장소

Chunkr 공식 문서

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~