KO-VLM-Benchmark 소개
최근 인공지능 분야는 텍스트만을 처리하던 대규모 언어 모델(LLM)의 시대를 지나, 시각 정보와 텍스트를 동시에 이해하고 처리하는 시각 언어 모델(Vision Language Model, VLM)의 시대로 급격히 전환되고 있습니다. GPT-5나 Claude 4.5 Sonnet과 같은 최신 모델들은 이미지를 보고 상황을 묘사하거나 복잡한 차트를 해석하는 데 탁월한 능력을 보여줍니다. 그러나 이러한 글로벌 모델들이 과연 한국의 독자적인 문서 환경에서도 동일한 성능을 발휘할 수 있을지에 대한 의문은 여전히 남아 있었습니다. 한국의 문서는 한글이라는 고유한 문자의 특성뿐만 아니라, 복잡한 표와 서식이 혼재된 관공서 문서, 손글씨가 포함된 서류 등 독특한 특징을 가지고 있기 때문입니다.
이러한 배경에서 Marker AI 가 공개한 KO-VLM-Benchmark는 한국어 문서 이미지 이해 능력을 정량적으로 평가하기 위한 최초의 포괄적인 벤치마크 프로젝트로서 그 의미가 깊습니다. 이 프로젝트는 단순히 모델이 이미지 속의 글자를 읽어내는 광학 문자 인식(OCR) 성능을 테스트하는 것을 넘어섭니다. 모델이 문서의 레이아웃을 파악하고, 표 안의 수치 관계를 추론하며, 문서의 종류를 분류하고, 필요한 정보를 정확하게 추출해낼 수 있는지를 종합적으로 평가합니다. 이를 통해 연구자와 개발자들은 자신의 모델이 한국의 실무 비즈니스 환경이나 행정 처리 과정에서 얼마나 유용하게 쓰일 수 있는지 객관적인 지표를 확인할 수 있습니다.
KO-VLM-Benchmark는 한국어 문서 처리의 핵심 과제들을 포괄하기 위해 KO-VQA(질의응답), KO-VDC(문서 분류), KO-OCRAG(정보 추출 및 검색) 의 세 가지 주요 하위 작업(Sub Task)들로 구성되어 있습니다. 이 벤치마크는 공신력 있는 AI Hub의 데이터를 기반으로 재가공되었으며, 한국어 문서 인텔리전스(Document Intelligence) 연구의 표준을 제시하는 것을 목표로 합니다.
현재 학계와 산업계에서 널리 사용되는 VLM 벤치마크로는 MMMU, MathVista, DocVQA 등이 있습니다. 이들은 전 세계적인 모델들의 성능을 줄 세우는 데에는 유용하지만, 데이터셋의 대부분이 영어로 구성되어 있거나 서구권의 문서 양식을 따르고 있다는 한계가 명확합니다. 예를 들어, 영문 영수증과 한국의 신용카드 매출전표는 레이아웃과 정보의 밀도가 다르며, 서양의 차트와 한국 공공기관의 보고서에 등장하는 도표는 그 복잡성에서 차이가 납니다.
KO-VLM-Benchmark는 이러한 '데이터의 편향'을 해소하기 위해 철저하게 한국어 중심으로 설계되었습니다. 단순히 언어만 한국어인 것이 아니라, 국내에서 실제로 생산되고 유통되는 문서의 형식을 따르고 있습니다. 이는 모델이 한국어의 자모 결합 원리를 시각적으로 얼마나 잘 처리하는지, 그리고 한국 특유의 행정 서식에 대한 이해도가 있는지를 평가할 수 있게 해줍니다. 특히 글로벌 모델들이 한국어 데이터 학습 부족으로 인해 겪을 수 있는 한국어 환각(Hallucination) 현상이나 맥락 오해를 잡아내는 데 특화되어 있어, 국내 서비스를 준비하는 개발자들에게 실질적인 가이드라인을 제공합니다.
KO-VLM-Benchmark 벤치마크 구성 요소 상세 분석
KO-VLM-Benchmark는 모델의 다각적인 능력을 검증하기 위해 세밀하게 설계된 세 가지 하위 과제로 이루어져 있습니다. 각 과제는 실제 산업 현장에서 VLM이 해결해야 할 구체적인 문제 상황을 시뮬레이션합니다.
KO-VQA: 시각적 정보를 바탕으로 한 정교한 질의응답
KO-VQA (Korean Visual Question Answering) 는 모델이 단일 페이지의 문서 이미지를 보고 사용자의 자연어 질문에 얼마나 정확하게 답변할 수 있는지를 평가합니다. 이 과제는 AI Hub의 '시각정보기반 질의응답(Visual Q&A)' 데이터셋을 기반으로 구축되었습니다. 총 704장의 이미지와 이에 대응하는 1,518개의 질문-답변 쌍으로 구성되어 있어 모델의 추론 능력을 다각도로 시험합니다.
이 과제의 핵심은 단순한 텍스트 인식이 아닙니다. 모델은 문서 내에 존재하는 표(Table) 의 행과 열 구조를 이해해야만 답할 수 있는 질문, 혹은 정형화된 텍스트가 아닌 손글씨(Handwriting) 로 작성된 메모나 서명을 해독해야 하는 과제 등을 수행해야 합니다. 예를 들어, 복잡한 재무제표 이미지에서 "2023년 3분기 영업이익은 얼마인가?"라는 질문을 던졌을 때, 모델은 수많은 숫자 중에서 '2023년', '3분기', '영업이익'이라는 키워드가 교차하는 지점의 값을 정확히 찾아내야 합니다. 이는 OCR 기술과 자연어 처리 능력이 고도로 결합되어야만 해결할 수 있는 문제입니다.
자세한 KO-VQA에 대한 설명과 예제들은 KO-VQA README
참고해주세요!
KO-VDC: 문서 처리 자동화의 첫 단추, 문서 분류
KO-VDC (Korean Visual Document Classification) 는 입력된 이미지가 어떤 유형의 문서인지를 식별하는 분류 과제입니다. 이는 기업의 문서 처리 자동화(RPA) 시스템에서 가장 먼저 수행되어야 하는 전처리 단계이기도 합니다. 이 데이터셋은 AI Hub의 '문서 OCR' 데이터 등에서 선별된 1,326장의 이미지로 구성되어 있으며, 총 16개 이상의 다양한 문서 카테고리를 포함합니다.
평가 대상이 되는 문서의 종류는 매우 구체적이고 실무적입니다. 영수증, 신용카드 매출전표, 명함, 이력서, 특허 명세서, 진단서, 사업자등록증 등 일상과 비즈니스 환경에서 흔히 접하는 문서들이 포함됩니다. 모델은 텍스트의 내용을 읽는 것을 넘어, 문서의 전체적인 레이아웃(Layout), 로고의 위치, 폰트의 크기 및 배치 등 시각적 특징(Visual Features)을 종합적으로 분석하여 문서를 분류해야 합니다. 시각적으로 유사해 보이는 진단서와 처방전을 구분하거나, 서로 다른 양식의 영수증들을 하나의 카테고리로 묶어내는 능력이 요구됩니다.
자세한 KO-VDC에 대한 설명과 예제들은 KO-VDC README
참고해주세요!
KO-OCRAG: 정보 추출 및 검색 증강 생성 능력 검증
KO-OCRAG (Korean OCR-based Retrieval-Augmented Generation) 는 문서 내에서 특정 정보를 검색(Retrieval)하고 이를 바탕으로 생성(Generation)하는 능력을 평가하는, 가장 난이도가 높은 과제 중 하나입니다. AI Hub의 '표 정보 질의응답(Table QA)' 데이터를 활용하여 448장의 이미지와 1,482개의 질의응답 쌍으로 구성되었습니다.
이 과제는 흔히 KIE (Key Information Extraction) 라고 불리는 기술과 밀접한 관련이 있습니다. 사용자가 "이 계약서의 계약 기간은 언제부터 언제까지인가?"라고 물었을 때, 모델은 문서 전체를 다 읽어주는 것이 아니라 질문에 해당하는 구체적인 날짜 정보만을 정확히 추출하여 답변해야 합니다. 이 과정에서 모델은 불필요한 정보를 걸러내고(Filtering), 문서에 명시된 팩트(Fact)에만 기반하여 답변함으로써 환각 현상을 최소화해야 합니다. KO-OCRAG에서의 높은 점수는 해당 모델이 RAG 시스템의 검색 엔진이나 정보 추출 에이전트로 활용되기에 적합함을 의미합니다.
자세한 KO-OCRAG에 대한 설명과 예제들은 KO-OCRAG README
참고해주세요!
모델 성능 평가 및 시사점
Marker AI는 GitHub 저장소를 통해 GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro 등 글로벌 상용 모델과 HyperCLOVA X, Qwen-VL-Max 등의 모델을 해당 벤치마크로 평가한 결과를 공개하고 있습니다.
| Model | KO-VQA (Acc.) | KO-VDC (Acc.) | KO-OCRAG (Avg.) |
|---|---|---|---|
| Closed-model | ---- | ---- | ---- |
| Gemini-3-pro | 92.60 | 89.50 | 64.17 |
| Gemini-2.5-pro | 91.80 | 97.50 | 65.31 |
| Gemini-2.5-flash | 85.73 | 85.50 | 62.30 |
| Open-model | ---- | ---- | ---- |
| Qwen3-VL-30B-A3B-Instruct | 44.2 | OOM | OOM |
| Qwen3-VL-8B-Instruct | 53.87 | 68.50 | 56.26 |
| Qwen3-VL-4B-Instruct | 38.47 | 42.50 | 50.21 |
| Qwen2.5-VL-32B-Instruct | 61.80 | OOM | 33.36 |
| Qwen2.5-VL-7B-Instruct | 53.27 | 39.50 | 30.63 |
| Ovis2.5-9B | 33.27 | 52.50 | 41.23 |
| Ovis2.5-2B | 31.67 | 32.25 | 28.19 |
| Ovis2-34B | 32.60 | 22.50 | 22.75 |
| Ovis2-16B | 34.20 | 26.00 | 26.69 |
| Gemma-3-27b-it | 34.20 | 38.00 | 3.63 |
| Gemma-3-12b-it | 28.73 | 30.25 | 0.50 |
| Gukbap-Ovis2-16B | 34.80 | 23.50 | 26.35 |
| VARCO-VISION-2.0-14B-HF | 55.47 | 36.00 | 35.44 |
| VARCO-VISION-14B-HF | 43.67 | 4.00 | 14.66 |
| Bllossom-AICA-5B | 20.67 | 2.00 | 0.14 |
평가 결과, 일반적으로 GPT-4o와 Claude 3.5 Sonnet이 전반적으로 가장 우수한 성능을 보여주며 한국어 문서 이해에서도 최상위권의 능력을 입증했습니다. 특히 이들 모델은 복잡한 표 해석과 추론 능력에서 강점을 보였습니다. 주목할 만한 점은 네이버의 HyperCLOVA X와 같은 한국어 특화 모델의 성과입니다. HyperCLOVA X는 한국어 뉘앙스 파악이나 특정 포맷의 문서 처리에서 글로벌 모델들과 대등하거나 경쟁력 있는 모습을 보여주며, '한국형 AI'의 효용성을 증명했습니다. 반면, 오픈 소스 모델들은 상용 모델들에 비해 아직 성능 격차가 존재하지만, 이 벤치마크를 통해 구체적으로 어떤 부분(예: 작은 폰트 인식, 복잡한 레이아웃 등)이 부족한지 파악하고 개선할 수 있는 기회를 얻게 되었습니다.
Marker AI 홈페이지
https:// Markr.AI
KO-VLM-Benchmark 프로젝트 GitHub 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
