LLM 데이터 엔지니어링 1탄 - GPU 없이 PDF 레이아웃을 분석한다고요? 10배 빠른 파싱 성능 벤치마크 공유

안녕하세요! 파이토치로 Document AI 모델을 설계할 때 가장 고민되는 지점 중 하나가 바로 '레이아웃 분석(Layout Analysis)' 단계인 것 같습니다.

보통 표(Table), 제목, 본문 등을 구분하기 위해 LayoutLM이나 YOLO 같은 무거운 비전 모델을 GPU 위에서 돌리곤 하죠. 하지만 수백만 페이지의 문서를 전처리해야 할 때 그 비용과 시간은 무시할 수 없습니다.

최근 Artifex에서 공개한 DocLayNet(대규모 문서 레이아웃 데이터셋) 벤치마크 결과가 꽤 흥미로워 공유해 드립니다. GPU 없이 C 기반 엔진만으로 레이아웃을 분석했을 때 어느 정도의 성능이 나오는지 확인해 보세요!

:bar_chart: 핵심 벤치마크 요약 (vs DL 기반 모델)

  1. 처리 속도 (Speed):
  • Deep Learning 방식: 페이지당 수 초(seconds) 소요 (GPU 자원 소모)
  • PyMuPDF-Layout: 페이지당 평균 0.1초 내외 (CPU 기반)
  • 결과적으로 약 10배 이상의 속도 향상을 보여줍니다.
  1. 정확도 (Accuracy):
  • 복잡한 금융 보고서나 학술 논문을 포함한 DocLayNet 데이터셋에서 비전 모델에 근접한 mAP(Mean Average Precision)를 기록했습니다.
  • 특히 디지털 PDF의 '텍스트 스트림' 정보를 직접 활용하기 때문에, 시각적 추론에만 의존하는 모델보다 텍스트 경계 인식에서 더 정교한 모습을 보입니다.

:thinking: 왜 이게 가능한가요?

딥러닝 모델이 픽셀 하나하나를 분석할 때, 이 방식은 PDF 내부의 폰트 메타데이터, 좌표 시스템, 그리고 휴리스틱 알고리즘을 결합해 구조를 파악합니다. 즉, "추론"이 아니라 "구조적 분석"을 하기 때문에 GPU 없이도 압도적인 속도가 나오는 것이죠.

:light_bulb: 이런 분들께 추천합니다

  • 수천, 수만 권의 PDF 도서를 RAG용 데이터로 빠르게 변환해야 하시는 분
  • 인퍼런스 서버 비용 때문에 GPU 사용을 최소화해야 하는 환경
  • 텍스트와 표의 경계가 모호해 전처리 단계에서 고생하고 계신 분

단순히 "빠르다"는 주장을 넘어, 실제 오픈 데이터셋인 DocLayNet을 통해 검증된 수치라 더 신뢰가 가는 것 같습니다.
전처리 파이프라인 최적화에 진심인 분들이라면 아래 상세 벤치마크 리포트를 꼭 읽어보시길 권합니다!

실험방법:

데이터셋: DocLayNet (Pfitzmann et al., 2022)

  • 학습(Training) 세트: 69,000 페이지
  • 검증(Validation) 세트: 6,480 페이지
  • 문서 카테고리: 재무 보고서, 과학 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서(tender documents)
  • 어노테이션 스키마: 11개 클래스 라벨
    (caption, footnote, formula, list-item, page-footer, page-header, picture, section-header, table, text, title)

베이스라인

  • Docling v2 (RT-DETR 아키텍처)

평가 지표

  • IoU 임계값 0.6에서 precision/recall로 계산한 F1 스코어

클래스 정합(Class harmonization)

Docling과 DocLayNet 사이에 분류 체계(택소노미) 차이가 있어서, 아래처럼 매핑을 적용했습니다.

  • Docling의 document-index, form → DocLayNet의 table
  • Docling의 key-value-region, code, checkbox-selected, checkbox-unselected → DocLayNet의 text

Note
Docling의 분류 체계에서는 모든 title 요소가 section-header로 매핑됩니다. 그 결과 DocLayNet의 title 클래스에 대해서는 커버리지가 0이 됩니다(= title을 못 잡는 것으로 계산됨).


실험 결과 :

실험 1: PDF-based features

첫 번째 모델 변형은 이미지 렌더링 없이, PDF 내부 정보(PDF internals)에서 추출한 피처만 사용합니다.

Class Docling F1 PyMuPDF-Layout F1 Δ
caption 0.8594 0.8157 -0.0437
footnote 0.4827 0.7217 +0.2390
formula 0.7416 0.7370 -0.0046
list-item 0.7955 0.8737 +0.0782
page-footer 0.7937 0.7973 +0.0036
page-header 0.8218 0.8387 +0.0169
picture 0.6314 0.2462 -0.3852
section-header 0.8732 0.7823 -0.0909
table 0.7977 0.6886 -0.1091
text 0.8146 0.8675 +0.0529
title 0.0000 0.7672 +0.7672
Overall 0.8102 0.8270 +0.0168

모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout 1.3M 파라미터

관찰된 성능 패턴(원문 요약):

  • 구조화된 요소에서 강함: footnotes(+0.239), list-items(+0.078), text blocks(+0.053)
  • 시각적 요소에서 성능 저하: pictures(-0.385)
  • 문서 전체 문맥이 필요한 요소에서 상대적으로 낮음: tables(-0.109), section-headers(-0.091)
  • title 탐지에서 큰 개선(+0.767)

실험 2: Fusion features (PDF + global image context)

두 번째 모델 변형은 PDF 피처에 더해, 저해상도 페이지 이미지에서 추출한 글로벌 문서 피처를 추가합니다. 이때 가벼운 CNN 백본을 사용하며 파라미터가 0.5M 추가됩니다.

Class Docling F1 MuPDF-Layout F1 Δ
caption 0.8594 0.8613 +0.0019
footnote 0.4827 0.7584 +0.2757
formula 0.7416 0.7666 +0.0250
list-item 0.7955 0.8676 +0.0721
page-footer 0.7937 0.9277 +0.1340
page-header 0.8218 0.7953 -0.0265
picture 0.6314 0.2885 -0.3429
section-header 0.8732 0.8389 -0.0343
table 0.7977 0.7966 -0.0011
text 0.8146 0.8489 +0.0343
title 0.0000 0.7189 +0.7189
Overall 0.8102 0.8356 +0.0254

모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout(퓨전) 1.8M 파라미터

글로벌 컨텍스트 추가의 효과(원문 요약):

  • page-footer 성능이 크게 개선(+0.134)
  • table 성능 격차가 거의 사라짐(Δ -0.011 → -0.001)
  • picture는 여전히 약하지만, 하락 폭은 줄어듦(-0.385 → -0.343)
  • PDF-only 대비 전체 F1이 +0.025 상승

계산 효율

구현 방식파라미터 수F1 점수GPU 필요 여부

구현방식 파라미터 수 F1 점수 GPU 필요여부
Docling (RT-DETR) 2,000만 개 0.8102 필요
PyMuPDF-Layout (PDF features) 130만 개 0.8270 불필요
PyMuPDF-Layout (Fusion features) 180만 개 0.8356 불필요

PDF 피처 버전은 파라미터를 15.4배 줄이면서도 유사한 정확도를 달성했고, 퓨전 버전은 11.1배 적은 파라미터F1을 +2.5%p 개선했습니다. 두 버전 모두 GPU 가속 없이 동작합니다.


결과 해석 및 시사점

이 결과는 구조화된 PDF 피처로 학습한 레이아웃 탐지 모델이, 비전 기반 모델과 동급(performance parity) 수준의 성능을 내면서도 계산 비용을 크게 줄일 수 있음을 보여줍니다.

또한 이 접근은 강점과 한계가 비교적 명확합니다.

  • 강점: 구조화된 텍스트 요소, 문서 메타데이터
  • 한계: 시각적 요소(picture), 복잡한 테이블

퓨전 방식은 글로벌 컨텍스트 부족 문제를 일부 보완하면서도 효율성을 유지하지만, picture 분류는 PDF 기반 피처 추출의 구조적 한계로 남아 있다고 설명합니다.


PyMuPDF Pro 제품소개페이지 바로가기 >

출처: DocLayNet 기반 PyMuPDF-Layout 성능 분석 결과: 경쟁 제품과 비교 리포트로 한눈에 확인하세요. [(주)이파피루스 블로그:티스토리]

4개의 좋아요

좋은 글 감사합니다. 안 그래도, 한글파일이라던지, pdf 에서 이미지 가볍게 분석하고, 재구성하는 거 관련해서 제대로 못해서 답답할 때가 많았는데 잘 활용할 수 있을 거 같습니다. 한컴의 오픈소스 모델이라도 같이 한 번 봐야겠네요

안녕하세요, 석현님
이파피루스도 Github에서 오픈소스 라이브러리를 공개하고 있습니다. 글로벌 누적 6억 1천만회 다운로드를 돌파한 기술표준이라고 할 수 있죠. 사용해보시고 후기도 한 번 남겨주세요.

1개의 좋아요