GDPval 소개
OpenAI는 인공지능이 인류 전체에 이롭게 작동하도록 한다는 목표를 가지고 있으며, 그 과정에서 모델들이 실제 사회와 경제에서 얼마나 효과적으로 기여할 수 있는지를 투명하게 공개하고자 합니다. 그 일환으로 발표된 GDPval은 AI 모델의 성능을 경제적으로 가치 있는 실무 과제를 중심으로 측정하는 새로운 평가 체계입니다.
GDPval이라는 이름은 국내총생산(GDP, Gross Domestic Product) 에서 영감을 받았습니다. GDP가 국가 경제 활동의 가치를 보여주는 지표이듯, GDPval은 경제적 가치를 창출하는 직업군에서 실제로 수행되는 업무를 기준으로 AI 성능을 평가합니다. 즉, 단순한 텍스트 답변이 아니라 법률 문서, 엔지니어링 도면, 고객 상담 기록, 간호 계획서와 같은 구체적 산출물을 대상으로 모델의 실질적인 기여 가능성을 검증합니다.
이는 AI의 잠재적 영향을 단순히 “미래에는 이럴 것이다”라는 추측에 머무르지 않고, 지금 당장 모델이 무엇을 잘할 수 있는가를 실증적으로 보여줍니다. 과거 인터넷이나 스마트폰 같은 혁신 기술이 대중적으로 확산되기까지 10년 이상의 시간이 필요했듯, GDPval은 AI가 사회와 산업에서 차지할 위치를 데이터로 추적하는 첫 시도라 할 수 있습니다.
기존의 AI 성능 평가는 주로 학문적 시험 문제나 제한된 범주의 과제에 국한되었습니다. 대표적으로 다음과 같은 벤치마크들을 주로 사용하였습니다:
- MMLU: 다양한 학문 분야의 시험 문제 풀이
- SWE-Bench: 소프트웨어 버그 수정 문제
- MLE-Bench: 머신러닝 엔지니어링 관련 분석 및 모델 학습 과제
- Paper-Bench: 연구 논문 비평 및 과학적 추론 평가
- SWE-Lancer: 실제 프리랜서 소프트웨어 엔지니어링 프로젝트 기반 평가
이러한 벤치마크들은 모델의 추론 능력을 크게 발전시키는 데 기여했지만, 여전히 현실의 직무 요구사항을 충분히 반영하지는 못했습니다.
반면 GDPval은 실제 전문가들이 작성하고 검증한 과제를 사용하며, 결과물 또한 단순 텍스트가 아니라 문서, 프레젠테이션, 스프레드시트, 다이어그램, 멀티미디어 파일까지 다양합니다. 이는 AI가 실무 생산성을 높일 수 있는지를 훨씬 더 정밀하게 평가할 수 있게 합니다.
GDPval이 측정하는 것
-
평가 범위: GDPval의 첫 번째 버전은 미국 GDP에 가장 크게 기여하는 9개 산업군에서 선별된 44개 직업군을 다룹니다. 이 평가 세트는 총 1,320개의 특화된 과제로 이루어져 있으며, 그중 220개는 오픈소스 골드 세트로 공개되어 누구나 활용할 수 있습니다. 모든 과제는 평균 14년 이상의 경력을 가진 전문가들이 직접 작성하고 검증했으며, 실제 직무에서 생산되는 결과물—예를 들어 법률 문서, 엔지니어링 도면, 고객 상담 대화, 간호 계획서—을 기반으로 합니다.
-
현실성과 다양성: GDPval의 특징은 평가 과제가 단순히 인위적으로 만들어진 문제가 아니라, 실제 업무 산출물을 기반으로 한다는 점입니다. 기존의 경제적 가치와 연결된 벤치마크들(예: SWE-Lancer)은 특정 도메인에 국한된 반면, GDPval은 훨씬 더 폭넓은 직종과 과제를 포함합니다. 또한 기존 벤치마크(MMLU, Humanity’s Last Exam 등)가 학문 시험 스타일의 합성 문제를 제공했다면, GDPval은 현실에서 실제로 존재하거나, 실제와 동일하게 구성된 작업 결과물을 활용합니다.
-
출력 형식의 다양성: 전통적인 벤치마크가 단순 텍스트 프롬프트 중심이었다면, GDPval은 훨씬 더 다양한 산출물을 요구합니다. 과제에는 참고 문서와 맥락 정보가 함께 제공되며, 결과물은 문서, 슬라이드, 다이어그램, 스프레드시트, 멀티미디어 파일까지 포함될 수 있습니다. 이러한 현실적 접근은 모델이 단순 답변 생성기를 넘어 실제 직업 현장에서 전문가를 보조할 수 있는지를 확인하는 데 적합합니다.
-
현재 한계와 향후 발전: GDPval은 여전히 초기 단계의 프레임워크입니다. 비록 44개 직업군과 수백 개 지식 노동 과제를 포함하지만, 현재는 원샷(one-shot) 평가만 가능하여, 반복적인 피드백 반영이나 다단계 맥락 구축 과정은 반영하지 못합니다. 그러나 OpenAI는 향후 버전에서 상호작용적 워크플로우와 맥락이 풍부한 과제를 도입해, 실제 직무의 복잡성과 현실성을 더욱 정밀하게 반영할 계획입니다.
GDPval에 포함된 직업군의 선정 방식
GDPval은 미국 경제에서 가장 중요한 산업과 직업을 기반으로 설계되었습니다. 초기 버전에서는 미국 GDP 기여도가 5% 이상인 상위 9개 산업을 우선 선정했습니다. 이는 세인트루이스 연방준비은행(Federal Reserve Bank of St. Louis) 의 데이터를 바탕으로 이루어졌습니다. 이렇게 선정된 산업들은 국가 경제에서 차지하는 비중이 크고, AI가 개입했을 때 잠재적으로 생산성 향상 효과가 클 가능성이 높은 분야입니다.
각 산업별로 임금 및 보상 기여도가 높은 상위 5개 직업을 선별했습니다. 이 과정에서는 2024년 5월 미국 노동통계국(Bureau of Labor Statistics, BLS) 이 발표한 고용 및 임금 데이터를 활용했습니다. 단순히 임금이 높은 직업이 아니라, 산업 내에서 차지하는 고용 규모와 보상 수준을 모두 고려해 경제적 영향력이 큰 직업군을 우선적으로 선택했습니다.
GDPval은 물리적 노동보다는 **지식 노동(knowledge work)**에 초점을 맞춥니다. 따라서 직업의 성격을 구분하기 위해 O*NET 직업 데이터베이스가 활용되었습니다. O*NET은 미국 노동부가 관리하는 직업별 세부 업무 데이터베이스로, 각 직무를 구성하는 과제가 지식 기반인지, 물리적/수작업 기반인지를 분류할 수 있습니다.
GDPval에서는 특정 직업의 과제 중 60% 이상이 지식 노동으로 분류되는 경우에만 “지식 노동 중심 직업”으로 간주했습니다. 이 60% 기준은 첫 버전에서 AI가 실제 생산성 향상에 가장 큰 영향을 줄 수 있는 직업군을 선별하기 위한 출발점(threshold) 으로 설정된 것입니다.
이러한 과정들을 거쳐 GDPval에는 9개의 섹터에서 총 44개 직업군이 포함되었습니다. 여기에는 소프트웨어 개발자, 변호사, 간호사, 기계 엔지니어 등 다양한 전문직이 포함되어 있으며, 각 직업군은 현실에서 AI가 유의미하게 기여할 수 있는 대표적인 지식 노동 직종을 반영합니다.
다음은 GDPval에 포함된 9개 섹터와 그 세부 직업군 44개의 목록입니다:
-
Real estate and rental and leasing (부동산 및 임대업):
- Concierges (컨시어지)
- Property, real estate, and community association managers (부동산 및 커뮤니티 관리 매니저)
- Real estate sales agents (부동산 중개인)
- Real estate brokers (부동산 브로커)
- Counter and rental clerks (임대 및 카운터 사무원)
-
Government (정부):
- Recreation workers (여가 활동 지도자)
- Compliance officers (준법감시관/규제 담당관)
- First-line supervisors of police and detectives (경찰 및 형사 1차 감독관)
- Administrative services managers (행정 서비스 매니저)
- Child, family, and school social workers (아동·가족·학교 사회복지사)
-
Manufacturing (제조업)
- Mechanical engineers (기계 엔지니어)
- Industrial engineers (산업 엔지니어)
- Buyers and purchasing agents (구매 및 조달 담당자)
- Shipping, receiving, and inventory clerks (물류 및 재고 관리 사무원)
- First-line supervisors of production and operating workers (생산 및 운영 1차 감독자)
-
Professional, scientific, and technical services (전문, 과학 및 기술 서비스업)
- Software developers (소프트웨어 개발자)
- Lawyers (변호사)
- Accountants and auditors (회계사 및 감사인)
- Computer and information systems managers (컴퓨터 및 정보 시스템 매니저)
- Project management specialists (프로젝트 매니지먼트 전문가)
-
Health care and social assistance (보건·사회복지 서비스업)
- Registered nurses (등록 간호사)
- Nurse practitioners (전문 간호사)
- Medical and health services managers (의료 및 보건 서비스 관리자)
- First-line supervisors of office and administrative support workers (사무 및 행정 지원 1차 감독자)
- Medical secretaries and administrative assistants (의료 비서 및 행정 보조원)
-
Finance and insurance (금융 및 보험업)
- Customer service representatives (고객 서비스 담당자)
- Financial and investment analysts (재무 및 투자 분석가)
- Financial managers (재무 관리자)
- Personal financial advisors (개인 재무 상담사)
- Securities, commodities and financial services sales agents (증권·상품·금융 서비스 판매원)
-
Retail trade (소매업)
- Pharmacists (약사)
- First-line supervisors of retail sales workers (소매 판매 직원 1차 감독자)
- General and operations managers (총괄 및 운영 관리자)
- Private detectives and investigators (사설 탐정 및 조사관)
-
Wholesale trade (도매업)
- Sales managers (영업 관리자)
- Order clerks (주문 처리 사무원)
- First-line supervisors of non-retail sales workers (비소매 영업 직원 1차 감독자)
- Sales representatives, wholesale and manufacturing, except technical and scientific products (비기술/비과학 제품 도매·제조 영업 사원)
- Sales representatives, wholesale and manufacturing, technical and scientific products (기술 및 과학 제품 도매·제조 영업 사원)
-
Information (정보 산업)
- Audio and video technicians (오디오·비디오 기술자)
- Producers and directors (프로듀서 및 감독)
- News analysts, reporters, and journalists (뉴스 분석가, 기자, 언론인)
- Film and video editors (영화·비디오 편집자)
- Editors (편집자)
GDPval 데이터셋 구축 과정
GDPval 데이터셋은 각 직업군의 실제 업무를 충실히 반영하기 위해 현업 전문가들과의 협업을 통해 제작되었습니다. 참여한 전문가들은 평균 14년 이상의 경력을 가지고 있으며, 업계 내에서 두드러진 성취를 이룬 인물들입니다. 예를 들어 법률 직종에서는 다양한 분야의 변호사와 규모가 다른 로펌 소속 변호사들을 함께 모집해, 특정 환경에 치우치지 않고 다양성을 보장했습니다.
각 직업군의 전문가들은 자신의 일상 업무를 기반으로 대표적인 과제를 작성했습니다. 이 과제들은 단순히 “시험 문제” 형태가 아니라 실제 직장에서 다루는 업무 산출물—법률 문서, 회계 보고서, 엔지니어링 설계도, 간호 계획서 등—에 근거하고 있습니다.
작성된 과제는 단순히 초안으로 끝나는 것이 아니라 다음과 같은 다단계 검증 프로세스를 거칩니다:
- 다른 과제 작성자(peer reviewer)에 의한 교차 검토
- 동일 직종의 추가 검토자(occupational reviewer)에 의한 적합성 검토
- 모델 기반 검증(model-based validation)을 통한 평가 가능성 확인
평균적으로 각 과제는 5단계 이상의 검증을 거쳐 최종 확정됩니다. 이를 통해 과제가 실제 업무를 충분히 대표하면서도 평가 목적에 적합하도록 설계되었습니다.
이러한 과정들을 통해 완성된 데이터셋은 각 직업군별로 30개의 검증된 과제(full set) 를 포함합니다. 또한 이 중 5개 과제는 오픈소스 골드 세트(gold set) 로 공개되어 연구자와 개발자들이 자유롭게 활용할 수 있습니다.
즉, 전체적으로 GDPval은 44개 직업군 × 30개 과제 = 1,320개 과제로 구성되어 있으며, 그중 220개는 누구나 접근 가능한 공개 리소스입니다. 이는 모델이 실제 지식 노동을 어떻게 수행할 수 있는지를 평가할 수 있는 튼튼한 기반 데이터셋을 제공합니다.
GDPval의 모델 성능 평가 방식
GDPval의 핵심은 전문가 평가자(graders) 를 통해 모델 성능을 측정하는 것입니다. 평가자들은 데이터셋에 포함된 직업군과 동일한 분야에서 활동하는 숙련된 전문가들로 구성됩니다. 이들은 AI 모델이 생성한 결과물과 사람이 작성한 결과물을 블라인드 방식으로 비교합니다. 즉, 어느 쪽이 AI의 결과물인지 모르는 상태에서 품질을 평가하고, 다음과 같은 방식으로 분류합니다:
- Better (더 낫다): AI 결과물이 사람보다 우수한 경우
- As good as (비슷하다): AI 결과물이 사람과 동등한 수준인 경우
- Worse than (못하다): AI 결과물이 사람보다 부족한 경우
또한 평가자들은 단순한 랭킹 제공에 그치지 않고 비평(critique) 을 함께 작성하여 결과물이 어떤 점에서 좋거나 부족했는지도 기록합니다.
각 직업군의 과제 작성자(task writer)들은 해당 직무 특성을 반영한 세부 평가 기준표(rubric) 를 함께 제작했습니다. 이 평가 기준은 결과물의 완성도, 정확성, 형식, 전문성 등을 항목별로 정의하여, 평가 과정이 더 일관성 있고 투명하게 진행되도록 합니다.
OpenAI는 전문가 평가를 보완하기 위해 자동 평가기(automated grader) 도 개발했습니다. 이는 AI가 전문가의 판단을 학습하여, 특정 결과물에 대해 인간 전문가들이 어떻게 평가할지를 예측하는 시스템입니다. 이를 통해 매번 전문가 집단의 심사를 받지 않고도 빠르게 성능을 추정할 수 있습니다.
다만, 자동 평가기는 아직 초기 단계로, 전문가 평가를 완전히 대체하기에는 신뢰성이 부족합니다. 따라서 현재는 연구 목적의 실험적 도구로만 제공되며, 공식적인 성능 비교에서는 여전히 전문가 블라인드 평가가 기준으로 사용됩니다.
GDPval 초기 결과
GDPval의 초기 실험은 최신 AI 모델들이 실제 전문가 수준의 업무 품질에 얼마나 근접했는지를 검증하는 데 초점을 맞췄습니다. 이를 위해 OpenAI는 블라인드 평가 방식을 적용했습니다. 업계 전문가들이 사람과 AI 모델이 작성한 결과물을 구분하지 못한 상태에서 비교·평가했으며, 더 낫다(better), 비슷하다(as good as), 못하다(worse than) 로 분류했습니다.
평가에는 GPT-4o, o4-mini, OpenAI o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 모델들이 참여했습니다. 총 220개 과제(골드 세트) 에 대해 모델 출력과 전문가 결과물을 비교한 결과, Claude Opus 4.1은 문서 포맷, 슬라이드 레이아웃 등 미적 요소(aesthetics) 에서 두각을 보였고, GPT-5는 전문 지식 기반 문제 해결과 같은 정확성(accuracy) 에서 강점을 보였습니다.
특히 성능 발전 추세가 뚜렷하게 나타났습니다. GPT-4o(2024년 봄 출시) 대비 GPT-5(2025년 여름 출시) 는 성능이 2배 이상 향상되었으며, 이는 선형적으로 꾸준히 개선되는 흐름을 보여줍니다.
또한 이러한 최신(Frontier) 모델들은 인간 전문가에 비해 GDPval 과제를 약 100배 더 빠르고, 100배 더 저렴하게 수행할 수 있는 것으로 나타났습니다. 다만 이 수치는 순수 모델 추론 시간과 API 호출 비용만을 반영한 것으로, 실제 업무에서는 인간의 감독, 반복 피드백, 결과물 통합 과정이 필수적입니다. 따라서 현실에서 곧바로 100배 효율성을 보장한다고 보기는 어렵습니다.
그럼에도 불구하고 특정 업무 범위에서는 AI 모델을 먼저 활용한 후 필요시 사람의 손을 거치는 방식이 시간과 비용을 크게 절약할 수 있을 것으로 기대됩니다. 이는 특히 반복적이고 명확하게 정의된 업무(task)에 적합하며, 전문가들이 더 창의적이고 고차원적인 문제 해결에 집중할 수 있도록 도와줍니다.
GDPval의 한계 및 향후 계획
GDPval은 초기 단계이므로 몇 가지 한계가 있습니다.
- 현재는 원샷(one-shot) 평가만 가능해 반복적 피드백이나 다단계 협업을 반영하지 못합니다.
- 실제 직무에서 발생하는 모호성, 고객과의 상호작용, 맥락 파악 같은 요소가 부족합니다.
- 직업군이 미국 중심이라 글로벌 시장 반영에는 한계가 있습니다.
OpenAI는 향후 더 많은 직업군과 산업군을 포함하고, 상호작용적인 평가 방식을 도입하여 현실성과 신뢰성을 높일 계획입니다.
GDPval은 실제 산업 현장의 직무를 기반으로 과제를 설계하기 때문에, 현업 전문가들의 참여가 필수적입니다. 만약 특정 산업이나 직업군에서 활동 중인 전문가라면, GDPval 과제 설계와 검증에 직접 기여할 수 있습니다. 관심이 있으시다면 알려주세요: https://openai.com/form/real-world-knowledge-work/
또한, OpenAI의 제품이나 API를 활용 중인 기업·조직 고객도 GDPval의 미래 라운드에 기여할 수 있습니다. 귀사의 실제 업무 맥락과 과제를 제공함으로써, AI 평가가 더 다양하고 현실적인 직무 시나리오를 포괄할 수 있도록 돕는 것입니다. 관심이 있으시다면 알려주세요: https://openai.com/form/gdpval-customer-contribution/
GDPval 공개 블로그
https://openai.com/index/gdpval/
GDPval 논문
GDPval 데이터셋 (중 220개 데이터셋) 다운로드
GDPval 자동 평가기(Automated Grader)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~