안녕하세요! 파이토치로 Document AI 모델을 설계할 때 가장 고민되는 지점 중 하나가 바로 '레이아웃 분석(Layout Analysis)' 단계인 것 같습니다.
보통 표(Table), 제목, 본문 등을 구분하기 위해 LayoutLM이나 YOLO 같은 무거운 비전 모델을 GPU 위에서 돌리곤 하죠. 하지만 수백만 페이지의 문서를 전처리해야 할 때 그 비용과 시간은 무시할 수 없습니다.
최근 Artifex에서 공개한 DocLayNet(대규모 문서 레이아웃 데이터셋) 벤치마크 결과가 꽤 흥미로워 공유해 드립니다. GPU 없이 C 기반 엔진만으로 레이아웃을 분석했을 때 어느 정도의 성능이 나오는지 확인해 보세요!
핵심 벤치마크 요약 (vs DL 기반 모델)
- 처리 속도 (Speed):
- Deep Learning 방식: 페이지당 수 초(seconds) 소요 (GPU 자원 소모)
- PyMuPDF-Layout: 페이지당 평균 0.1초 내외 (CPU 기반)
- 결과적으로 약 10배 이상의 속도 향상을 보여줍니다.
- 정확도 (Accuracy):
- 복잡한 금융 보고서나 학술 논문을 포함한 DocLayNet 데이터셋에서 비전 모델에 근접한 mAP(Mean Average Precision)를 기록했습니다.
- 특히 디지털 PDF의 '텍스트 스트림' 정보를 직접 활용하기 때문에, 시각적 추론에만 의존하는 모델보다 텍스트 경계 인식에서 더 정교한 모습을 보입니다.
왜 이게 가능한가요?
딥러닝 모델이 픽셀 하나하나를 분석할 때, 이 방식은 PDF 내부의 폰트 메타데이터, 좌표 시스템, 그리고 휴리스틱 알고리즘을 결합해 구조를 파악합니다. 즉, "추론"이 아니라 "구조적 분석"을 하기 때문에 GPU 없이도 압도적인 속도가 나오는 것이죠.
이런 분들께 추천합니다
- 수천, 수만 권의 PDF 도서를 RAG용 데이터로 빠르게 변환해야 하시는 분
- 인퍼런스 서버 비용 때문에 GPU 사용을 최소화해야 하는 환경
- 텍스트와 표의 경계가 모호해 전처리 단계에서 고생하고 계신 분
단순히 "빠르다"는 주장을 넘어, 실제 오픈 데이터셋인 DocLayNet을 통해 검증된 수치라 더 신뢰가 가는 것 같습니다.
전처리 파이프라인 최적화에 진심인 분들이라면 아래 상세 벤치마크 리포트를 꼭 읽어보시길 권합니다!
실험방법:
데이터셋: DocLayNet (Pfitzmann et al., 2022)
- 학습(Training) 세트: 69,000 페이지
- 검증(Validation) 세트: 6,480 페이지
- 문서 카테고리: 재무 보고서, 과학 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서(tender documents)
- 어노테이션 스키마: 11개 클래스 라벨
(caption, footnote, formula, list-item, page-footer, page-header, picture, section-header, table, text, title)
베이스라인
- Docling v2 (RT-DETR 아키텍처)
평가 지표
- IoU 임계값 0.6에서 precision/recall로 계산한 F1 스코어
클래스 정합(Class harmonization)
Docling과 DocLayNet 사이에 분류 체계(택소노미) 차이가 있어서, 아래처럼 매핑을 적용했습니다.
- Docling의 document-index, form → DocLayNet의 table
- Docling의 key-value-region, code, checkbox-selected, checkbox-unselected → DocLayNet의 text
Note
Docling의 분류 체계에서는 모든 title 요소가 section-header로 매핑됩니다. 그 결과 DocLayNet의 title 클래스에 대해서는 커버리지가 0이 됩니다(= title을 못 잡는 것으로 계산됨).
실험 결과 :
실험 1: PDF-based features
첫 번째 모델 변형은 이미지 렌더링 없이, PDF 내부 정보(PDF internals)에서 추출한 피처만 사용합니다.
| Class | Docling F1 | PyMuPDF-Layout F1 | Δ |
|---|---|---|---|
| caption | 0.8594 | 0.8157 | -0.0437 |
| footnote | 0.4827 | 0.7217 | +0.2390 |
| formula | 0.7416 | 0.7370 | -0.0046 |
| list-item | 0.7955 | 0.8737 | +0.0782 |
| page-footer | 0.7937 | 0.7973 | +0.0036 |
| page-header | 0.8218 | 0.8387 | +0.0169 |
| picture | 0.6314 | 0.2462 | -0.3852 |
| section-header | 0.8732 | 0.7823 | -0.0909 |
| table | 0.7977 | 0.6886 | -0.1091 |
| text | 0.8146 | 0.8675 | +0.0529 |
| title | 0.0000 | 0.7672 | +0.7672 |
| Overall | 0.8102 | 0.8270 | +0.0168 |
모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout 1.3M 파라미터
관찰된 성능 패턴(원문 요약):
- 구조화된 요소에서 강함: footnotes(+0.239), list-items(+0.078), text blocks(+0.053)
- 시각적 요소에서 성능 저하: pictures(-0.385)
- 문서 전체 문맥이 필요한 요소에서 상대적으로 낮음: tables(-0.109), section-headers(-0.091)
- title 탐지에서 큰 개선(+0.767)
실험 2: Fusion features (PDF + global image context)
두 번째 모델 변형은 PDF 피처에 더해, 저해상도 페이지 이미지에서 추출한 글로벌 문서 피처를 추가합니다. 이때 가벼운 CNN 백본을 사용하며 파라미터가 0.5M 추가됩니다.
| Class | Docling F1 | MuPDF-Layout F1 | Δ |
|---|---|---|---|
| caption | 0.8594 | 0.8613 | +0.0019 |
| footnote | 0.4827 | 0.7584 | +0.2757 |
| formula | 0.7416 | 0.7666 | +0.0250 |
| list-item | 0.7955 | 0.8676 | +0.0721 |
| page-footer | 0.7937 | 0.9277 | +0.1340 |
| page-header | 0.8218 | 0.7953 | -0.0265 |
| picture | 0.6314 | 0.2885 | -0.3429 |
| section-header | 0.8732 | 0.8389 | -0.0343 |
| table | 0.7977 | 0.7966 | -0.0011 |
| text | 0.8146 | 0.8489 | +0.0343 |
| title | 0.0000 | 0.7189 | +0.7189 |
| Overall | 0.8102 | 0.8356 | +0.0254 |
모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout(퓨전) 1.8M 파라미터
글로벌 컨텍스트 추가의 효과(원문 요약):
- page-footer 성능이 크게 개선(+0.134)
- table 성능 격차가 거의 사라짐(Δ -0.011 → -0.001)
- picture는 여전히 약하지만, 하락 폭은 줄어듦(-0.385 → -0.343)
- PDF-only 대비 전체 F1이 +0.025 상승
계산 효율
구현 방식파라미터 수F1 점수GPU 필요 여부
| 구현방식 | 파라미터 수 | F1 점수 | GPU 필요여부 |
|---|---|---|---|
| Docling (RT-DETR) | 2,000만 개 | 0.8102 | 필요 |
| PyMuPDF-Layout (PDF features) | 130만 개 | 0.8270 | 불필요 |
| PyMuPDF-Layout (Fusion features) | 180만 개 | 0.8356 | 불필요 |
PDF 피처 버전은 파라미터를 15.4배 줄이면서도 유사한 정확도를 달성했고, 퓨전 버전은 11.1배 적은 파라미터로 F1을 +2.5%p 개선했습니다. 두 버전 모두 GPU 가속 없이 동작합니다.
결과 해석 및 시사점
이 결과는 구조화된 PDF 피처로 학습한 레이아웃 탐지 모델이, 비전 기반 모델과 동급(performance parity) 수준의 성능을 내면서도 계산 비용을 크게 줄일 수 있음을 보여줍니다.
또한 이 접근은 강점과 한계가 비교적 명확합니다.
- 강점: 구조화된 텍스트 요소, 문서 메타데이터
- 한계: 시각적 요소(picture), 복잡한 테이블
퓨전 방식은 글로벌 컨텍스트 부족 문제를 일부 보완하면서도 효율성을 유지하지만, picture 분류는 PDF 기반 피처 추출의 구조적 한계로 남아 있다고 설명합니다.
출처: DocLayNet 기반 PyMuPDF-Layout 성능 분석 결과: 경쟁 제품과 비교 리포트로 한눈에 확인하세요. [(주)이파피루스 블로그:티스토리]