Nemotron-Personas-Korea: NVIDIA가 공개한 실제 인구 분포 기반의 최초 대규모 한국어 합성 페르소나 데이터셋

Nemotron-Personas-Korea 소개

AI 모델을 개발할 때, 학습 데이터에 편향이 있으면 모델의 응답 역시 특정 인구 집단에 편향되는 문제가 발생합니다. 특히 영어 중심의 기존 페르소나 데이터셋은 한국 사회의 다양한 연령대, 직업군, 지역적 특성을 충분히 반영하지 못해, 한국어 모델을 개발하는 연구자와 엔지니어들은 적합한 학습 데이터를 확보하는 데 어려움을 겪어 왔습니다. 고령층, 농촌 지역, 저학력 직군 같은 인구 집단은 기존 합성 데이터셋에서 심각하게 과소 표현되어 있었습니다.

NVIDIA Corporation이 2026년 4월에 공개한 Nemotron-Personas-Korea 는 이러한 문제를 해결하기 위해 설계된 최초의 대규모 한국어 합성 페르소나 데이터셋(CC BY 4.0)입니다. 이름, 성별, 나이, 혼인 상태, 교육 수준, 직업, 거주 지역 등 모든 속성을 실제 대한민국 통계청(KOSIS), 대법원, 국민건강보험공단, 농촌경제연구원, NAVER Cloud의 통계 자료에 기반하여 합성하였습니다. 단순히 임의로 생성한 데이터가 아니라, 우리나라 인구의 실제 분포를 통계적으로 재현한 것이 핵심입니다.

이 데이터셋은 대한민국 개발자들이 지역 고유의 인구통계학적 특성과 문화적 맥락을 반영한 소버린 AI(Sovereign AI) 시스템을 구축할 수 있도록 지원하는 것을 목표로 합니다. 합성 데이터의 다양성 확대, 모델 편향 완화, 응답 다양성 향상 등 한국어 AI 연구에서 실질적으로 중요한 여러 문제를 해결할 수 있는 기반 데이터셋으로 활용될 수 있습니다.

Nemotron-Personas-Korea의 데이터 구조 및 구성

데이터셋은 100만 건의 레코드와 총 700만 개의 페르소나 설명으로 이루어져 있으며, 전체 토큰 수는 약 17억 개(페르소나 텍스트만 10억 개)에 달합니다. 저장 용량은 2.0 GB입니다. 각 레코드는 26개의 필드로 구성됩니다.

7가지 페르소나 유형: 각 레코드에는 동일 인물에 대해 7가지 관점에서 작성된 페르소나 텍스트가 포함됩니다.

  • 직업(Professional): 직장 환경과 업무 방식을 중심으로 서술한 페르소나
  • 스포츠(Sports): 운동 습관과 신체 활동 패턴을 담은 페르소나
  • 예술(Arts): 취미, 문화 소비, 창작 활동을 중심으로 한 페르소나
  • 여행(Travel): 여행 스타일과 선호 목적지를 담은 페르소나
  • 음식(Culinary): 식습관, 음식 취향, 외식 패턴을 서술한 페르소나
  • 가족(Family): 가족 관계와 생활 방식을 중심으로 한 페르소나
  • 요약(Concise): 위 6가지를 통합하여 간결하게 정리한 페르소나

6가지 페르소나 속성 필드: 문화적 배경(cultural background), 기술 및 전문성(skills & expertise), 기술 목록(skills list), 취미 및 관심사(hobbies & interests), 취미 목록(hobbies list), 경력 목표 및 포부(career goals & ambitions)가 포함됩니다.

12가지 인구통계·지리 컨텍스트 필드: 성별, 나이, 혼인 상태, 병역 상태, 가구 종류, 주거 형태, 학력 수준, 전공 분야, 직업, 시군구, 시도, 국가가 포함됩니다.

Nemotron-Personas-Korea의 생성 파이프라인

본 데이터셋은 NVIDIA의 엔터프라이즈급 합성 데이터 생성 플랫폼인 NeMo Data Designer를 활용하여 제작되었습니다. NeMo Data Designer는 확률적 그래프 모델(Probabilistic Graphical Model, PGM)을 핵심 구조로 사용하며, 각 인구통계 변수 간의 통계적 관계를 모델링하여 현실적인 인물 분포를 재현합니다.

통계 원천 데이터 (KOSIS, 대법원, NHIS, KREI, NAVER Cloud)
       ↓
확률적 그래프 모델 (PGM) — 인구통계 변수 간 분포 추출
       ↓
인구통계 속성 샘플링 (성별·나이·직업·지역·학력 등)
       ↓
google/gemma-4-31B-it — 7가지 페르소나 텍스트 생성
       ↓
NeMo Data Designer 내 검증 및 품질 평가
       ↓
Nemotron-Personas-Korea (1M 레코드, 7M 페르소나)

페르소나 텍스트 생성에는 Apache-2.0 라이선스의 google/gemma-4-31B-it 모델을 사용하였으며, Data Designer에 포함된 자동화된 검증 및 평가 파이프라인을 통해 품질을 보증하였습니다. NAVER Cloud는 설계 단계에서 초기 시드 데이터와 도메인 전문 지식을 제공하였습니다.

Nemotron-Personas-Korea의 인구통계 분석

실제 대한민국 인구 구조를 얼마나 충실히 반영하는지 아래의 분석 결과에서 확인할 수 있습니다.

연령 분포

저출산·고령화가 동시에 진행되는 대한민국의 인구 구조를 그대로 반영합니다. 가장 두꺼운 구간은 50~64세(1960~70년대 베이비붐 세대)이며, 아래쪽으로 갈수록 좁아지는 항아리형 구조를 보입니다. 70세 이상 고령층에서는 기대수명이 더 긴 여성의 비중이 뚜렷하게 높아, 80~89세 구간에서는 여성 비율이 남성의 약 1.52배에 달합니다.

이름 분포

대한민국 대법원의 실제 출생신고 데이터를 기반으로, 118가지 성씨와 21,400가지 이름을 사용하였습니다. 김(21.5%), 이(14.7%), 박(8.5%), 정(4.8%), 최(4.7%) 등 상위 5개 성씨가 전체의 약 54%를 차지하며, 이름은 성별과 출생 연도에 따른 세대별 작명 경향을 반영합니다. 전체 이름(성+이름) 기준으로는 209,167개의 고유 조합이 생성되었으며, 가장 빈번한 이름은 실제 우리나라 조사 결과와 동일하게 '김영숙'입니다.

지역별 학력 수준

전국 17개 시도, 252개 시군구를 포괄적으로 커버합니다. 전국 대학 학력 이상 보유 비율 평균은 32.9%이며, 세종특별자치시(49.0%)가 가장 높고, 서울(45.1%), 대전(39.7%), 광주(36.2%), 경기(34.8%) 순입니다. 세종시의 높은 고학력 비율은 정부세종청사 이전에 따른 공무원·연구직 인구 유입을 반영한 결과입니다.

직업 분포

전문가와 사무직이 가장 큰 비중을 차지하며, 우리나라 서비스·지식 기반 경제 구조를 반영합니다. 판매직에서는 온라인 쇼핑 판매원(19.8%)이 1위를 차지해 높은 전자상거래 비중을 보여주며, 단순노무직에서는 건물 경비원(21.3%)과 건물 청소원(16.0%) 등 특정 직종에 집중도가 높습니다.

데이터셋 사용 방법

Hugging Face datasets 라이브러리로 간단하게 로드할 수 있습니다.

from datasets import load_dataset

# 한국어 페르소나 데이터셋 로드
nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Korea")

# 첫 번째 레코드 확인
sample = nemotron_personas["train"][0]
print(sample["persona"])           # 요약 페르소나
print(sample["professional_persona"])  # 직업 페르소나
print(sample["age"], sample["occupation"], sample["district"])

각 레코드에는 한 인물에 대한 7가지 관점의 페르소나 텍스트와 함께, 성별·나이·직업·거주 지역·학력·혼인 상태 등의 인구통계 정보가 구조화된 형태로 포함되어 있습니다. 연구자는 이 컨텍스트 속성을 조건으로 특정 인구 집단의 페르소나를 정밀하게 타겟팅할 수 있습니다. 본 데이터셋은 만 19세 이상(대한민국 법령상 성인)의 페르소나만 포함합니다.

라이선스

Nemotron-Personas-Korea는 CC BY 4.0 (크리에이티브 커먼즈 저작자표시 4.0 국제) 라이선스로 공개되어 있어, 상업적 목적을 포함한 모든 용도로 자유롭게 사용·재배포·수정할 수 있습니다. 단, 출처 표기(저작자표시)가 필요합니다.

:hugs: Nemotron-Personas-Korea 데이터셋 다운로드

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요