LLM 데이터 엔지니어링 1탄 - GPU 없이 PDF 레이아웃을 분석한다고요? 10배 빠른 파싱 성능 벤치마크 공유

kyounghee.lee · 4월 20, 2026, 12:29오전

안녕하세요! 파이토치로 Document AI 모델을 설계할 때 가장 고민되는 지점 중 하나가 바로 '레이아웃 분석(Layout Analysis)' 단계인 것 같습니다.

보통 표(Table), 제목, 본문 등을 구분하기 위해 LayoutLM이나 YOLO 같은 무거운 비전 모델을 GPU 위에서 돌리곤 하죠. 하지만 수백만 페이지의 문서를 전처리해야 할 때 그 비용과 시간은 무시할 수 없습니다.

최근 Artifex에서 공개한 DocLayNet(대규모 문서 레이아웃 데이터셋) 벤치마크 결과가 꽤 흥미로워 공유해 드립니다. GPU 없이 C 기반 엔진만으로 레이아웃을 분석했을 때 어느 정도의 성능이 나오는지 확인해 보세요!

핵심 벤치마크 요약 (vs DL 기반 모델)

처리 속도 (Speed):

Deep Learning 방식: 페이지당 수 초(seconds) 소요 (GPU 자원 소모)
PyMuPDF-Layout: 페이지당 평균 0.1초 내외 (CPU 기반)
결과적으로 약 10배 이상의 속도 향상을 보여줍니다.

정확도 (Accuracy):

복잡한 금융 보고서나 학술 논문을 포함한 DocLayNet 데이터셋에서 비전 모델에 근접한 mAP(Mean Average Precision)를 기록했습니다.
특히 디지털 PDF의 '텍스트 스트림' 정보를 직접 활용하기 때문에, 시각적 추론에만 의존하는 모델보다 텍스트 경계 인식에서 더 정교한 모습을 보입니다.

왜 이게 가능한가요?

딥러닝 모델이 픽셀 하나하나를 분석할 때, 이 방식은 PDF 내부의 폰트 메타데이터, 좌표 시스템, 그리고 휴리스틱 알고리즘을 결합해 구조를 파악합니다. 즉, "추론"이 아니라 "구조적 분석"을 하기 때문에 GPU 없이도 압도적인 속도가 나오는 것이죠.

이런 분들께 추천합니다

수천, 수만 권의 PDF 도서를 RAG용 데이터로 빠르게 변환해야 하시는 분
인퍼런스 서버 비용 때문에 GPU 사용을 최소화해야 하는 환경
텍스트와 표의 경계가 모호해 전처리 단계에서 고생하고 계신 분

단순히 "빠르다"는 주장을 넘어, 실제 오픈 데이터셋인 DocLayNet을 통해 검증된 수치라 더 신뢰가 가는 것 같습니다.
전처리 파이프라인 최적화에 진심인 분들이라면 아래 상세 벤치마크 리포트를 꼭 읽어보시길 권합니다!

실험방법:

데이터셋: DocLayNet (Pfitzmann et al., 2022)

학습(Training) 세트: 69,000 페이지
검증(Validation) 세트: 6,480 페이지
문서 카테고리: 재무 보고서, 과학 논문, 특허, 매뉴얼, 법률 문서, 입찰 문서(tender documents)
어노테이션 스키마: 11개 클래스 라벨
(caption, footnote, formula, list-item, page-footer, page-header, picture, section-header, table, text, title)

베이스라인

Docling v2 (RT-DETR 아키텍처)

평가 지표

IoU 임계값 0.6에서 precision/recall로 계산한 F1 스코어

클래스 정합(Class harmonization)

Docling과 DocLayNet 사이에 분류 체계(택소노미) 차이가 있어서, 아래처럼 매핑을 적용했습니다.

Docling의 document-index, form → DocLayNet의 table
Docling의 key-value-region, code, checkbox-selected, checkbox-unselected → DocLayNet의 text

Note
Docling의 분류 체계에서는 모든 title 요소가 section-header로 매핑됩니다. 그 결과 DocLayNet의 title 클래스에 대해서는 커버리지가 0이 됩니다(= title을 못 잡는 것으로 계산됨).

실험 결과 :

실험 1: PDF-based features

첫 번째 모델 변형은 이미지 렌더링 없이, PDF 내부 정보(PDF internals)에서 추출한 피처만 사용합니다.

Class	Docling F1	PyMuPDF-Layout F1	Δ
caption	0.8594	0.8157	-0.0437
footnote	0.4827	0.7217	+0.2390
formula	0.7416	0.7370	-0.0046
list-item	0.7955	0.8737	+0.0782
page-footer	0.7937	0.7973	+0.0036
page-header	0.8218	0.8387	+0.0169
picture	0.6314	0.2462	-0.3852
section-header	0.8732	0.7823	-0.0909
table	0.7977	0.6886	-0.1091
text	0.8146	0.8675	+0.0529
title	0.0000	0.7672	+0.7672
Overall	0.8102	0.8270	+0.0168

모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout 1.3M 파라미터

관찰된 성능 패턴(원문 요약):

구조화된 요소에서 강함: footnotes(+0.239), list-items(+0.078), text blocks(+0.053)
시각적 요소에서 성능 저하: pictures(-0.385)
문서 전체 문맥이 필요한 요소에서 상대적으로 낮음: tables(-0.109), section-headers(-0.091)
title 탐지에서 큰 개선(+0.767)

실험 2: Fusion features (PDF + global image context)

두 번째 모델 변형은 PDF 피처에 더해, 저해상도 페이지 이미지에서 추출한 글로벌 문서 피처를 추가합니다. 이때 가벼운 CNN 백본을 사용하며 파라미터가 0.5M 추가됩니다.

Class	Docling F1	MuPDF-Layout F1	Δ
caption	0.8594	0.8613	+0.0019
footnote	0.4827	0.7584	+0.2757
formula	0.7416	0.7666	+0.0250
list-item	0.7955	0.8676	+0.0721
page-footer	0.7937	0.9277	+0.1340
page-header	0.8218	0.7953	-0.0265
picture	0.6314	0.2885	-0.3429
section-header	0.8732	0.8389	-0.0343
table	0.7977	0.7966	-0.0011
text	0.8146	0.8489	+0.0343
title	0.0000	0.7189	+0.7189
Overall	0.8102	0.8356	+0.0254

모델 특성: Docling(RT-DETR) 20M 파라미터 vs PyMuPDF-Layout(퓨전) 1.8M 파라미터

글로벌 컨텍스트 추가의 효과(원문 요약):

page-footer 성능이 크게 개선(+0.134)
table 성능 격차가 거의 사라짐(Δ -0.011 → -0.001)
picture는 여전히 약하지만, 하락 폭은 줄어듦(-0.385 → -0.343)
PDF-only 대비 전체 F1이 +0.025 상승

계산 효율

구현 방식파라미터 수F1 점수GPU 필요 여부

구현방식	파라미터 수	F1 점수	GPU 필요여부
Docling (RT-DETR)	2,000만 개	0.8102	필요
PyMuPDF-Layout (PDF features)	130만 개	0.8270	불필요
PyMuPDF-Layout (Fusion features)	180만 개	0.8356	불필요

PDF 피처 버전은 파라미터를 15.4배 줄이면서도 유사한 정확도를 달성했고, 퓨전 버전은 11.1배 적은 파라미터로 F1을 +2.5%p 개선했습니다. 두 버전 모두 GPU 가속 없이 동작합니다.

결과 해석 및 시사점

이 결과는 구조화된 PDF 피처로 학습한 레이아웃 탐지 모델이, 비전 기반 모델과 동급(performance parity) 수준의 성능을 내면서도 계산 비용을 크게 줄일 수 있음을 보여줍니다.

또한 이 접근은 강점과 한계가 비교적 명확합니다.

강점: 구조화된 텍스트 요소, 문서 메타데이터
한계: 시각적 요소(picture), 복잡한 테이블

퓨전 방식은 글로벌 컨텍스트 부족 문제를 일부 보완하면서도 효율성을 유지하지만, picture 분류는 PDF 기반 피처 추출의 구조적 한계로 남아 있다고 설명합니다.

PyMuPDF Pro 제품소개페이지 바로가기 >

출처: DocLayNet 기반 PyMuPDF-Layout 성능 분석 결과: 경쟁 제품과 비교 리포트로 한눈에 확인하세요. [(주)이파피루스 블로그:티스토리]

wsh096 · 4월 28, 2026, 2:20오전

좋은 글 감사합니다. 안 그래도, 한글파일이라던지, pdf 에서 이미지 가볍게 분석하고, 재구성하는 거 관련해서 제대로 못해서 답답할 때가 많았는데 잘 활용할 수 있을 거 같습니다. 한컴의 오픈소스 모델이라도 같이 한 번 봐야겠네요

kyounghee.lee · 4월 28, 2026, 4:25오전

안녕하세요, 석현님
이파피루스도 Github에서 오픈소스 라이브러리를 공개하고 있습니다. 글로벌 누적 6억 1천만회 다운로드를 돌파한 기술표준이라고 할 수 있죠. 사용해보시고 후기도 한 번 남겨주세요.