공공데이터의 인공지능 친화적 관리 가이드라인 v1.0
- 발행 기관: 행정안전부, 한국지능정보사회진흥원(NIA)
- 발간일/공개일: 2026년 3월 31일 / 2026년 4월 24일
- 가이드라인 다운로드: 자료실 페이지, [PDF / Markdown]
단순 개방을 넘어 AI 학습에 적합한 공공데이터 관리의 새 기준
대규모 언어모델(LLM)과 생성형 AI의 확산으로 데이터는 국가 경쟁력을 좌우하는 핵심 인프라로 자리 잡았습니다. 민원 응대, 정책 설명, 법령 질의응답, 행정문서 초안 작성 등 공공 분야에서도 AI 활용 사례가 빠르게 늘어나고 있으며, 이에 따라 공공데이터 역시 단순한 CSV 파일 개방 수준을 넘어 AI 모델이 직접 학습하고 추론할 수 있는 형태로 관리되어야 한다는 요구가 커지고 있습니다. 그러나 기관마다 데이터 관리 체계, 품질 지표, 메타데이터 수준이 제각각이어서 AI 개발자들은 데이터 전처리에 막대한 비용과 시간을 소모해야 했습니다.
이러한 배경에서 행정안전부와 한국지능정보사회진흥원(NIA)은 2026년 3월, 공공데이터를 AI 활용에 적합한 형태로 관리하기 위한 범정부 차원의 공통 기준인 공공데이터의 인공지능 친화적 관리 가이드라인 V1.0을 제정하고 공공데이터포털을 통해 공개했습니다. 이 가이드라인은 「공공데이터의 제공 및 이용 활성화에 관한 법률」(공공데이터법) 상 공공기관 데이터를 생산, 관리, 제공하는 담당자를 대상으로 하며, 데이터 구조, 메타데이터, 문서화, 품질관리, 접근 방식, 책임성과 윤리 등 AI 활용에 필요한 전반적인 관리 요소를 체계적으로 제시하고 있습니다.
한편, 국제적으로도 미국 상무부(DoC)의 Generative AI and Open Data Guidelines, 영국 정부의 AI Opportunities Action Plan, Open Data Institute(ODI)의 AI-Ready Data Framework, OECD의 디지털 정부 가이드라인 등 각국이 공공데이터의 AI 활용 기반 마련에 속도를 내고 있습니다. 이번 가이드라인은 이러한 국제 동향과의 정합성을 확보하면서도, 국내 공공데이터 법령과 지침 체계에 맞추어 실무자가 바로 적용할 수 있도록 구성되어 있다는 점에서 의미가 있습니다. 특히 DCAT(Data Catalog Vocabulary), Dublin Core, Croissant 등 국제 표준 메타데이터 규격을 준용하여 글로벌 상호운용성을 확보한 것이 특징입니다.
인공지능 친화적 공공데이터의 개념: 기존 개방 데이터와 무엇이 다른가
가이드라인에서 정의하는 인공지능 친화적 공공데이터(AI-Ready Public Data) 란, AI 모델의 학습, 추론, 평가에 쉽게 활용될 수 있도록 위험 최소화 및 기본권 보호를 전제로 기계 이해성과 품질이 확보된 수준의 공공데이터를 의미합니다. 이는 기존의 공공데이터 개방 정책이 CSV, XML 등 기계 판독 가능한 포맷으로 파일을 공개하는 데 초점을 맞추었다면, 인공지능 친화적 데이터는 여기서 한 단계 더 나아가 AI 모델이 별도의 정제, 가공 없이 즉시 활용할 수 있는 상태를 목표로 한다는 점에서 차이가 있습니다.
가이드라인은 인공지능 친화적 공공데이터의 핵심 특성을 네 가지로 정리합니다.
기계가공 및 상호운용 가능 기술 구조: Apache Parquet이나 JSON, GeoJSON 등 오픈 포맷으로 제공하고, 명시적 스키마(필드 정의, 단위, 코드값)를 함께 제공해야 합니다. API를 통해 대용량 데이터에 안정적으로 접근할 수 있는 체계를 확보하고, 버전 및 배포 정보와 영구 식별자(PID, URI 등)를 부여하여 데이터의 연속성과 상호운용성을 보장합니다.
메타데이터와 문서화: 데이터셋 및 속성 단위의 상세 설명, 생성, 수집, 정제, 가공 과정, 어노테이션 기준, 품질 진단 방법과 지표를 메타데이터 및 부속 문서로 제공해야 합니다. AI 시스템 개발 시 해당 데이터의 적합성을 사전에 진단할 수 있도록 활용 목적, 기술적 제한사항, 권장 및 비권장 활용 사례를 명시합니다.
내용 품질과 대표성: 정책이나 서비스에서 대상이 되는 인구, 지역, 현상을 균형 있게 반영하여 데이터의 대표성을 확보하고, 원천 데이터와의 정보 일치성 및 데이터의 최신성, 무결성을 확보해야 합니다. 데이터의 한계, 불균형, 잠재적 편향을 메타데이터와 문서에 명시하여 AI 모델의 편향, 차별, 유해 결과를 최소화합니다.
권리, 윤리, 보안, 책임 거버넌스: 라이선스, 저작권, 개인정보 및 민감정보 처리, 재사용 조건 등을 명확히 표시하고, 관련 법령 및 AI 윤리 원칙에 부합하도록 설계해야 합니다. 데이터 변경 이력과 책임 주체의 추적 가능성을 확보하고, 데이터 오남용 및 위험 발생 시 대응 절차와 연락 창구를 지정합니다.
기존 공공데이터 관리 기준과의 비교
기존 공공데이터 관리 기준과 비교하면 변화의 폭이 상당합니다. 아래 표는 가이드라인이 제시하는 기존 기준 대비 확장 사항을 정리한 것입니다.
| 구분 | 기존 공공데이터 관리 기준 | AI 친화적 확장 기준 |
|---|---|---|
| 공개 목적 | CSV, XML 등 기계 판독 가능 포맷으로 원천 데이터 공개 | AI 모델의 학습, 추론, 평가에 활용 가능한 상태의 데이터 제공 |
| 데이터 품질 | 오류 감소, 최신성 및 완결성 관리 | 대표성, 편향성, 일관성, 유효성 확보로 심화 |
| 데이터 구조 | CSV, XML 등 기계 판독 가능 포맷 중심 | Parquet, GeoJSON 등 AI 학습에 적합한 구조로 설계 |
| 접근 방식 | 대량 다운로드 및 API 제공 | API 기반 실시간 제공, 비정형 객체 검색으로 확대 |
| 메타데이터 | 데이터 설명, 발간일, 제공 기관 등 기본 정보 | 원본 수집, 정제, 가공 이력, 품질 점검 결과까지 포함 |
| 권리/라이선스 | 공공누리 등 오픈 라이선스 범위 간단히 표시 | 기계 해석 가능한 형식으로 명시, AI 활용 범위 권리 체계 제공 |
| 위험/윤리 관리 | 개인정보 비식별 처리 중심 | AI 편향, 차별 방지 등 포괄적 위험 관리 체계 |
가이드라인 구성
데이터 구조와 접근 체계: 오픈 포맷에서 API 기반 실시간 접근까지
가이드라인의 첫 번째 세부 기준은 데이터의 구조와 접근 방식에 관한 것입니다. 핵심 원칙은 두 가지로, 비독점적 오픈 포맷과 기계 이해 가능한 구조를 갖추어야 한다는 것, 그리고 부분 조회 및 적시 접근 방식을 제공해야 한다는 것입니다.
권장 오픈 포맷과 비권장 포맷
오픈 포맷(Open Format) 이란 기술 명세가 공개된 비독점적 포맷을 말합니다. 가이드라인은 데이터 유형별로 권장 포맷과 비권장 포맷을 구분하여 제시합니다.
| 구분 | 유형 | 포맷 |
|---|---|---|
| 권장 포맷 (오픈 포맷) | 텍스트 | ODT, CSV, JSON, XML, Apache Parquet, Apache ORC |
| 지리정보 | GeoJSON, GeoPackage, GeoTIFF | |
| 이미지 | PNG, JPG, JPEG, TIF, TIFF, SVG | |
| 건설/건축 | IFC, OBJ, GLTF, GLB | |
| 비권장 포맷 (벤더 종속) | 텍스트 | HWP, HWPX, DOC, DOCX, XLS, XLSX, PPT, PPTX |
| 이미지 | AI, PSD |
비권장 포맷은 AI 활용을 위한 1차 제공 형식으로 적합하지 않음을 의미하며, 원본 보존 또는 내부 행정 목적의 사용까지 제한하는 것은 아닙니다. 다만 HWP, XLSX 등 벤더 종속 포맷은 클라우드나 리눅스 기반 GPU 서버에서 자동화된 처리가 어렵거나 별도의 변환 비용이 발생하기 때문에 AI 파이프라인에 적합하지 않습니다.
Parquet: 고성능 AI 분석을 위한 컬럼형 저장 포맷
특히 Parquet 포맷에 대한 상세한 설명이 눈에 띕니다. Apache Parquet은 컬럼형 저장(Columnar Storage) 방식으로, AI/ML 모델이 학습 과정에서 데이터의 모든 행(Row)을 읽을 필요 없이 특정 피처(Features)에 해당하는 열(Column)만 선택적으로 접근할 수 있어 I/O 작업을 줄이고 클라우드 환경에서의 학습 효율성을 극대화합니다. 메타데이터 첨부, 다양한 데이터 타입(벡터 데이터 포함) 지원, 고유한 압축 기능도 갖추고 있습니다. 가이드라인은 대규모 AI 작업용 데이터를 제공할 때 Parquet 등 컬럼 지향 저장 포맷을 적극 활용할 것을 권장합니다.
계층형 구조와 플랫형 구조
데이터 구조 설계에 있어 가이드라인은 지리정보, 관계형 데이터, 그래프 구조 데이터 등 구조적 의미 보존을 위해 계층형(Hierarchical) 구조를 유지하되, AI 활용을 위한 별도의 분석용 파생 데이터셋은 플랫형(Flat) 구조로 제공하는 것도 권장합니다. 플랫형 구조에서는 각 행이 하나의 고유한 관측값을, 각 열이 하나의 고유한 속성을 나타내며, 리스트나 배열 같은 복합 구조를 가지지 않습니다. 명확한 스키마 검증과 AI 모델의 데이터 해석 효율성 극대화를 위해 속성 간 관계를 단순화한 2차원 구조로 구성하는 것입니다.
RESTful API를 통한 실시간 접근
데이터 접근 방식으로는 RESTful API를 통한 실시간 제공을 권고합니다. RESTful 방식은 모든 개체를 자원(Resource)으로 정의하여 URL로 식별하고, 조회, 등록, 수정, 삭제 등의 행위는 HTTP 메서드로 표현하는 방식입니다. 예를 들어, 특정 데이터셋의 메타데이터를 조회할 때는 GET https://api.example.go.kr/datasets/traffic_001/metadata와 같이 자원 경로와 메서드를 결합하여 호출합니다.
API 설계 시 데이터뿐만 아니라 스키마, 필드 정의, 의미 설명 등 메타데이터를 함께 제공하여 데이터 구조와 의미를 즉시 이해할 수 있도록 해야 합니다. 높은 요청 한도와 스트리밍 등 대량 데이터 전송 방식을 지원하여 대용량 데이터 처리 과정의 병목 현상을 방지하는 것도 중요한 요건입니다.
데이터 값 형식의 국제 표준
날짜, 숫자, 단위 등 데이터 값의 형식에 대해서도 구체적인 국제 표준을 제시합니다. 동일한 속성의 데이터는 전 범위에서 동일한 포맷을 유지하고, 텍스트 형태의 값 대신 표준화된 코드 체계를 우선 적용해야 합니다.
| 구분 | 국제 표준 | 형식 예시 |
|---|---|---|
| 날짜 및 시간 | ISO 8601 | YYYY-MM-DD (예: 2025-12-18) |
| 국가 코드 | ISO 3166-1 | Alpha-2 (예: KR) 또는 Alpha-3 (예: KOR) |
| 통화 코드 | ISO 4217 | 알파벳 3자리 (예: 원화 KRW, 달러 USD) |
| 언어 코드 | ISO 639-1 | 알파벳 2자리 (예: 한국어 ko, 영어 en) |
| 지리 위치 | WGS84 / ISO 6709 | 십진수 도 방식 (예: 위도 37.1234, 경도 127.5678) |
| 측정 단위 | SI | m(미터), kg(킬로그램), s(초) 등 |
결측치도 NULL, N/A 등 표준화된 방식으로 일관되게 표기하여, 데이터 공백 발생 시 오류가 아닌 결측치로 정확히 이해할 수 있도록 해야 합니다.
메타데이터 체계: DCAT, Dublin Core, Croissant 기반의 포괄적 속성정보
가이드라인에서 가장 많은 분량을 할당하고 있는 부분이 바로 메타데이터 체계입니다. 메타데이터는 데이터의 구조, 설명, 출처, 생성, 수집 방식, 제약 사항 등을 구조화하여 기계가 자동으로 해석, 처리할 수 있도록 하는 정보입니다. 가이드라인은 기존 공공데이터법 시행규칙의 메타데이터 항목을 기반으로 AI 활용에 필요한 확장 메타데이터를 체계적으로 정의합니다.
메타데이터는 크게 네 가지 영역으로 구성됩니다.
데이터 관리 메타데이터(Data Management Metadata): 데이터의 식별, 검색, 접근성 확보를 위한 핵심 속성입니다. 데이터명, 설명, 관련법령, 소관기관, 제공기관, 갱신주기, 키워드 등 기존 항목에 더해, 고유식별자(PID), 담당자 연락처, 언어, 배포본, 접속 URL, 데이터 용량, 데이터셋 유형 등이 필수 항목으로 추가됩니다. 고유식별자는 파일 이름이나 위치가 변경되더라도 동일한 데이터를 식별할 수 있는 영구 식별자로, 버전 추적과 재현성 확보에 핵심적입니다.
데이터 계보 메타데이터(Data Lineage Metadata): 데이터셋의 변경 이력과 최신성을 관리하기 위한 속성입니다. 버전(owl:versionInfo), 등록일시(dct:issued), 수정일시(dct:modified), 버전 노트(adms:versionNotes)가 모두 필수 항목입니다. 특히 버전 노트에는 이전 버전 대비 구체적인 변경 사항을 기록하여 AI 모델 개발자가 데이터 변경의 영향을 파악할 수 있도록 합니다.
데이터 이용 메타데이터(Data Usage Metadata): 라이선스(dct:license)와 저작권(dct:rights) 정보를 명확히 표기하여 법적 불확실성을 해소합니다. 특히 AI 모델 학습 목적의 이용 가능 여부를 라이선스에 명시해야 하며, Creative Commons 계열이나 공공누리 라이선스를 표준으로 사용하도록 권고합니다.
데이터 품질 메타데이터(Data Quality Metadata): 데이터의 편향성(rai:dataBiases), 품질 검증 정보(dqv:hasQualityAnnotation), 데이터 한계(rai:knownLimitations), 결측치 정보(rai:dataCollectionMissingData)를 기록합니다. 예를 들어, "도시 지역에 측정소가 집중되어 농촌 지역의 대표성이 낮음"과 같은 편향 정보를 사전에 명시하여 AI 모델 개발자가 데이터의 적합성을 판단할 수 있도록 합니다.
이에 더해 수치, 이미지, 음성, 영상 등 데이터 타입별 메타데이터 도 정의합니다. 수치 데이터는 Croissant 규격의 레코드셋 ID, 컬럼 식별자, 컬럼 설명, 데이터 타입을 기록하고, 이미지 데이터는 가로/세로 크기와 스캔 장비 정보를, 음성 데이터는 재생시간, 샘플레이트, 채널 수를, 영상 데이터는 해상도, 재생시간, 프레임 수, 코덱 정보를 기록합니다.
메타데이터 구성 요소는 필수, 권장, 선택의 3단계로 등급화되어, 기관의 역량과 여건에 따라 단계적으로 적용할 수 있도록 설계되었습니다. 글로벌 정합성 확보를 위해 W3C의 DCAT v3, DCMI의 Dublin Core Terms, MLCommons의 Croissant Specification 등 국제 표준을 준용합니다. 미국의 경우에도 DCAT-US v3.0을 통해 생성형 AI 대응을 위한 메타데이터 구조를 강화한 바 있어, 이러한 국제적 흐름과 궤를 같이합니다.
메타데이터 작성 예시: JSON 형태의 구조화된 속성정보
가이드라인은 메타데이터가 기계 이해 가능한 형태로 제공되어야 함을 강조하며, 구체적인 JSON 형식의 작성 예시를 함께 제시합니다. 예를 들어, "2025 서울시 연령별 인구통계 정보" 데이터셋의 메타데이터는 다음과 같이 구성합니다:
{
"dct:title": "2025 서울시 연령별 인구통계 정보",
"dct:description": "서울시 거주 인구를 연령대별·구별로 분류하여 인구구조 분석, 정책 수립 및 행정 서비스 개선을 위해 제공되는 통계 데이터.",
"dct:creator": "서울특별시 빅데이터담당관",
"dct:publisher": "서울특별시",
"dct:identifier": "seoul-pop-age-2025",
"dcat:accessURL": "https://data.seoul.go.kr/datafile/POP_2025_AGE.csv",
"dct:accrualPeriodicity": "http://purl.org/cld/freq/annual",
"dcat:keyword": ["인구", "연령별", "서울시", "2025", "인구통계"],
"dct:language": "http://id.loc.gov/vocabulary/iso639-1/ko",
"dcat:mediaType": "text/csv",
"dcat:byteSize": "2400000",
"dcat:contactPoint": {
"fn": "서울특별시 빅데이터담당관 인구통계 담당자",
"hasEmail": "mailto:data@seoul.go.kr"
},
"dct:temporal": {
"time:hasBeginning": "2025-01-01",
"time:hasEnd": "2025-12-31"
}
}
이처럼 메타데이터를 표준 속성명(DCAT, Dublin Core 네임스페이스)과 함께 JSON 형태로 구조화하면, AI 시스템이 데이터의 주제, 범위, 접근 경로, 갱신 주기 등을 자동으로 파악하여 적합한 데이터셋을 검색하고 선별할 수 있게 됩니다.
문서화 체계: 데이터 카드에서 품질 진단 보고서까지
메타데이터가 기계를 위한 구조화된 속성정보라면, 문서화는 AI 모델 개발자가 데이터의 맥락을 완전히 이해할 수 있도록 하는 인간 친화적인 기술 문서 체계입니다. 가이드라인은 7가지 문서를 체계적으로 포함하여 제공할 것을 권고합니다.
기본 명세로는 데이터 카드(Data Card) 가 있습니다. Hugging Face의 Dataset Cards 형식을 참고한 이 문서는 데이터셋 개요, 구조, 생성 과정, 사용 시 고려사항, 라이선스, 기술적 사양을 한눈에 파악할 수 있도록 정리합니다. 가이드라인은 "도시 공원 유동인구 분석 데이터"를 예시로 들어, 데이터 인스턴스 샘플, 필드 정의 표, 분할 정보(학습 70%, 검증 15%, 평가 15%), 구축 배경, 편향성 및 한계, 기술적 재현성 정보까지 구체적인 작성 예시를 제공합니다.
기술 규격 문서로는 스키마 정의서(데이터 사전), 메타데이터 명세서, API/Access 문서가 있고, 신뢰 보증 문서로는 품질 진단 보고서와 개인정보/법적 리스크 분석이, 이력 관리 문서로는 계보 및 출처 문서와 버전 관리/변경 이력 문서가 포함됩니다. 데이터와 문서 간 정합성을 유지하기 위해 데이터 변경 시 문서 정보를 즉각적으로 현행화하고 변경 로그를 작성해야 합니다.
데이터 카드 작성 예시: 도시 공원 유동인구 분석 데이터
가이드라인은 데이터 카드의 구체적인 작성 방법을 "도시 공원 유동인구 분석 데이터"를 예시로 들어 상세히 안내합니다. 이 예시에서 데이터셋 개요는 서울시 주요 공원 10개소의 실시간 인파 밀집도, 체류 시간 및 이동 방향 정보를 제공하며, 시계열 유동인구 예측, 구역별 혼잡도 분류, 방문 패턴 클러스터링 등의 활용 사례를 명시합니다.
데이터 인스턴스 샘플은 JSON 형식으로 제공됩니다:
{
"timestamp": "2023-10-01 14:00:00",
"park_id": "PK_SEOUL_001",
"visitor_count": 142,
"avg_stay_min": 15.5,
"weather": "Sunny"
}
필드 정의 표에는 각 필드의 타입과 설명이 포함됩니다. 예를 들어 timestamp은 Datetime 타입으로 수집 일시(YYYY-MM-DD HH:MM:SS)를, park_id는 String 타입으로 공원 고유 식별 코드를, visitor_count는 Int 타입으로 시간대별 진입 인원 수(단위: 명)를 나타냅니다.
분할 정보(Splits)도 중요합니다. 이 예시에서는 학습용(Train) 70%, 검증용(Validation) 15%, 평가용(Test) 15%로 날짜 기준 순차 분할을 수행하며, 데이터 소스로는 서울시 IoT 도시데이터 센서(S-DoT) API 및 지능형 CCTV 카운팅 로그를 활용합니다. 사용 시 고려사항으로 스마트 기기 미보유자(유아, 고령층 등) 수치의 과소 측정 가능성, 폭우 등 기상 악화 시 센서 오차(약 5%) 발생 가능성이 명시되어 있습니다.
기술적 사양에는 재현성 확보를 위한 전처리 스크립트(preprocess.py), 환경 설정(Python 3.9+, Pandas 1.5.2, Scikit-learn 1.1.3), 주요 매개변수(이상치 제거 임계값 z-score 3.0, 데이터 평활화 시간 단위 15분, 무작위성 고정 시드 42) 등이 포함되어, 동일 조건에서 동일 결과를 재현할 수 있도록 설계됩니다.
AI 학습을 위한 6대 품질 지표: 구조적 정합성에서 의미적 완결성으로
가이드라인이 제시하는 품질 지표 체계는 기존 공공데이터 품질관리가 구조적 정합성(데이터 타입, 길이, 제약 조건 등 스키마 준수 여부)에 중점을 두었다면, AI 친화적 품질은 의미적 완결성 을 목표로 한다는 점에서 근본적으로 다릅니다. 별도의 정제, 가공 없이 AI 모델에 즉시 투입 가능한 실효적 품질 구현이 핵심입니다.
완전성(Completeness): 데이터 누락 방지와 대표성 확보
완전성은 AI 모델이 학습과 추론에 필요한 데이터, 지식, 시나리오의 누락 여부를 평가합니다. 충분성 측면에서는 필수 속성의 결측(Null) 비율을 측정하고, 시나리오 기반으로 AI 서비스 구현에 필요한 변수가 스키마에 확보되어 있는지 점검합니다. 대표성, 균형성 측면에서는 데이터가 특정 조건에 편중되지 않고 다양한 속성을 포괄하는지, 학습/검증/평가 데이터셋 간 통계적 분포가 유사한지를 카이제곱 검증이나 KS 테스트로 진단합니다. 라벨 다양성도 중요한데, 최다 빈도 클래스와 최소 빈도 클래스 간의 불균형 비율이 과도하면 소수 범주에 대한 성능 저하가 발생할 수 있습니다.
일관성(Consistency): 의미적 충돌 방지와 참조 무결성
일관성은 동일 개체, 코드, 속성값이 데이터셋 전반에서 논리적 모순 없이 적용되는지를 평가합니다. 관계 일관성은 "종료일이 시작일보다 빠를 수 없음"과 같은 시간 규칙, 상태 규칙, 수치 규칙의 위배 여부를 점검합니다. 기준 정보 일관성은 동일 사업자번호를 가진 기업이 테이블 A에서는 "(주)한국AI", 테이블 B에서는 "한국에이아이 주식회사"로 표기되는 불일치를 감지합니다. 참조 무결성 은 데이터에 사용된 행정동 코드 등이 실제 표준 코드 테이블에 존재하는 유효한 값인지를 검증합니다.
정확성(Accuracy): 라벨 정확성과 출처 신뢰성
정확성은 내용 정확성과 데이터 신뢰성의 두 축으로 구성됩니다. 기준 정합성 은 데이터 값이 법령, 고시, 표준 코드표 등 공신력 있는 기준과 일치하는지를, 규칙 정확성 은 업무 로직에 따른 판단 결과의 정합성을 검증합니다. 라벨 정확성 은 지도학습의 정답지 역할을 하는 라벨이 실제 정답(Ground Truth)과 일치하는지를 전문가 교차 검증이나 골드 스탠다드 데이터셋 대조를 통해 측정합니다. 출처 신뢰성 은 데이터의 발행 기관이 해당 도메인 데이터 생산에 대한 공식적 권한을 보유하는지를 확인합니다.
적시성(Timeliness): 최신성 유지와 개념 변화 관리
적시성은 데이터가 갱신 주기에 맞추어 최신 상태로 유지되는지, 그리고 시간 경과에 따른 데이터 분포와 개념의 변화를 체계적으로 관리하는지를 평가합니다. 특히 데이터 연속성 지표는 행정구역 개편이나 분류체계 변경 시 과거 코드와 신규 코드 간 매핑 정보를 제공하여 시계열 학습의 연속성을 보장하도록 합니다. 예를 들어, "A동"이 "B동"으로 통합되었을 때 연결 고리가 없으면 AI는 "A동"이 소멸하고 "B동"이 신설된 것으로 오인할 수 있습니다.
유효성(Validity): 구조, 형식 준수와 값 범위 검증
유효성은 데이터가 정의된 스키마, 데이터 유형, 허용 범위를 준수하여 AI 처리 파이프라인에서 오류 발생을 최소화하는지를 평가합니다. 형식 유효성 은 날짜 필드에 "2024-13-40"과 같은 형식 불일치가 없는지, 나이 필드에 "Unknown"이나 공란 등 문자열이 포함되지 않았는지를 점검합니다. 기술적 유효성 은 이미지, 음성, 영상 등 비정형 파일의 손상 여부와 최소 기술 사양 충족 여부를 진단합니다. 수치 범위 유효성 과 통계적 타당성 은 물리적으로 불가능한 값(예: 음수 나이)이나 999999 같은 더미값의 포함 여부를 점검합니다.
유일성(Uniqueness): 중복 제거를 통한 과적합 방지
유일성은 데이터셋 내 불필요한 중복이 존재하지 않아 과적합(Overfitting) 위험을 최소화하고, 학습/검증/평가 데이터셋 간 중복을 제거하여 데이터 누수(Data Leakage) 를 방지했는지를 평가합니다. 유사 중복 제어 도 중요한데, "길가 차 정차"와 "길가에 차가 계속 서 있어요"처럼 표현은 다르지만 의미가 동일한 데이터가 대량 포함되면 특정 표현에 편향된 학습이 이루어질 수 있습니다. 텍스트의 경우 임베딩 유사도 분석으로, 이미지의 경우 퍼셉추얼 해시(Perceptual Hash) 비교로 유사 중복을 탐지합니다.
AI 모델 기반 데이터 품질 평가
가이드라인은 전통적인 규칙 기반 품질 진단에 더해, AI 모델의 추론 결과와 성능 지표를 분석하여 데이터 품질을 동적으로 평가하는 방식도 제시합니다. 예를 들어 검색 기반 생성(RAG) 시스템에서 사용자 질문에 대한 근거 문서가 검색되지 않으면 지식베이스에 정보 공백이 존재한다고 판단하고, LLM 응답에서 사실과 다른 내용이 생성되는 환각(Hallucination) 현상이 나타나면 데이터 또는 지식베이스의 신뢰성 부족을 간접적으로 점검합니다.
표준 코드: 기관 간 데이터 연계의 핵심 인프라
표준 코드는 기관, 시스템 간 데이터 연계 시 표기 다양성에 따른 모호성과 오류를 제거하는 핵심 요소입니다. 가이드라인은 행정표준코드관리시스템(code.go.kr)의 표준코드를 우선 적용하고, 국제 표준코드가 있는 경우 국제 기준 사용을 권장합니다. 행정구역 명칭이 변경되더라도 코드는 유지되므로 과거, 현재 데이터 간 시간적 일관성을 확보할 수 있고, 국제적으로 통용되는 코드 사용 시 추가 전처리 없이 국가 간 데이터 연계가 가능합니다. 표준코드의 기준과 출처는 메타데이터와 문서에 명확히 표기해야 합니다.
관리원칙: 책임 주체 지정에서 법적 충돌 해소까지
가이드라인의 CHAPTER 03은 기술적 기준을 넘어 공공데이터의 관리 체계와 거버넌스를 다룹니다. 크게 여섯 가지 관리원칙을 제시합니다.
데이터 책임 주체 및 관리체계
데이터의 품질, 보안, 윤리, 업데이트에 대한 최종 책임 주체를 명확히 정의하고, 문제 발생 시 빠르게 조치할 수 있는 체계를 마련해야 합니다. 품질 지표를 정량적으로 관리하는 핵심 품질 KPI를 정의하고, 실시간 모니터링을 위한 공개 대시보드를 구축하도록 합니다. 데이터 갱신 시 스키마 준수 여부와 이상치 비율 등을 자동 점검하는 품질 게이트(Quality Gate) 를 데이터 파이프라인에 적용하여 품질 기준 미달 시 자동으로 공개를 보류하는 것도 권고합니다.
데이터 공유 시에는 아래 4가지 최소 요건을 모두 충족해야 합니다.
| 공유 품질 요건 | 기준 |
|---|---|
| 내용 완전성 | 데이터셋 내 결측치 비율 20% 미만, 핵심 정보 누락 없을 것 |
| 메타데이터 충실성 | 표준 메타데이터 필수 항목(관리 기관, 생산 주기, 최근 갱신일, 데이터 기간, 레코드 수, 컬럼 수 및 설명, 데이터 등급, 비식별 처리 여부, 활용 허용 범위, 관련 법령, 담당자 연락처) 전체 기재 |
| 최신성 유지 | 최근 갱신일로부터 갱신 주기가 2회 이상 경과하지 않을 것 |
| 기술 표준 준수 | 플랫폼 표준 포맷(CSV, JSON, XML, Parquet 등) 중 하나를 준수 |
데이터 등급 분류와 접근 권한 체계
가이드라인은 데이터의 민감도에 따라 3단계 등급을 분류하고, 등급에 따라 접근 권한을 차등 관리합니다. 1등급(공개공유)은 개인정보 및 보안상 문제가 없는 데이터로 모든 기관 및 공공데이터포털에 공유됩니다. 2등급(제한공유)은 비식별 처리를 통해 안전성이 확보된 데이터로 제한된 대상과 조건 하에서 공유됩니다. 3등급(내부전용)은 비식별 처리 후에도 보안상 외부 공유가 부적절한 데이터로 내부 기관 내 활용만 허용됩니다.
접근 유형도 기관 유형에 따라 4단계로 나뉩니다. 국가공유데이터 플랫폼 관리 기관은 1,2등급 전체에 접근 가능하고, 중앙행정기관과 광역지자체는 1등급 전체와 2등급 신청 후 접근이 가능합니다. 기초지자체와 소규모 공공기관은 1등급에 한정되며 2등급은 별도 심사를 거칩니다. 민간 이용자는 공공데이터포털을 통해 1등급 중 개방 승인 데이터에만 접근할 수 있습니다.
데이터 활용 유형도 열람(플랫폼 내 조회 및 시각화), 분석(다운로드 후 통계 및 정책 분석), 결합(타 기관 데이터와 연계 및 결합), AI 학습(기계학습 모델 훈련 데이터로 활용)의 4가지로 구분되며, AI 학습 목적 활용은 데이터 오너 기관의 명시적 동의와 행정안전부의 승인을 조건으로 합니다.
데이터 생애주기와 버전 관리
데이터 보존 기간을 유형별로 차등 설정하며(정책 분석용 5년, 행정 업무용 3년, 시범/실험성 1년), 보존 만료 시 연장, 이관, 삭제 중 하나를 선택하는 의사결정 절차를 둡니다. 버전 부여 시 기존 데이터를 유지하면서 고유한 버전 번호(V1.0, V2.0 등)를 부과하여 별도 보존하고, 활용 기관은 특정 버전을 고정하여 분석 재현성을 확보할 수 있습니다.
데이터 접근 권한과 활용 체계
데이터 등급(1등급 공개공유, 2등급 제한공유, 3등급 내부전용)에 따라 접근 권한을 차등 관리합니다. 데이터 활용 유형도 열람, 분석, 결합, AI 학습의 4가지로 구분하며, AI 학습 목적 활용은 데이터 오너 기관의 명시적 동의와 행정안전부의 승인을 조건으로 합니다. 2개 이상 기관의 데이터 결합은 외부 유출이 차단된 샌드박스(Sandbox) 에서 수행하고, 반출 전 개인 식별 가능성을 검토하는 최종 재심사를 거칩니다.
법적 충돌 해소와 데이터 보호
「데이터기반행정법」과 개인정보 보호법, 통계법, 신용정보법 등 개별 법령 간 상충 가능성에 대한 조정 체계를 마련합니다. 개인정보보호위원회의 「가명정보 처리 가이드라인」에 따른 비식별 처리 절차(사전준비, 위험성 검토, 가명처리, 적정성 검토, 안전한 관리)를 준수해야 하며, 데이터 축약 및 범주화, 부분 삭제 처리, 식별 요소 숨김 처리 등의 비식별화 방법을 적용합니다.
라이선스 표기와 관련하여, 가이드라인은 기존 공공누리 유형에 더해 AI유형(인공지능학습용) 이라는 새로운 라이선스 유형을 제시합니다. 아래 표는 공공누리 라이선스 유형별 이용 허락 범위를 정리한 것입니다.
| 유형 | 출처표시 | 상업적 이용 | 2차적 저작물 작성 |
|---|---|---|---|
| 제0유형 자유이용 | 조건 없음 | 가능 | 가능 |
| 제1유형 출처표시 | 필수 | 가능 | 가능 |
| 제2유형 출처표시 + 상업적 이용금지 | 필수 | 불가 | 가능 |
| 제3유형 출처표시 + 변경금지 | 필수 | 가능 | 불가 |
| 제4유형 출처표시 + 상업적 이용금지 + 변경금지 | 필수 | 불가 | 불가 |
| AI유형 인공지능학습용 | 조건 없음 | 가능 | 가능 |
AI유형은 제0유형과 마찬가지로 출처표시 조건 없이 상업적, 비상업적 이용과 2차적 저작물 작성이 모두 가능하여 AI 모델 학습에 최적화되어 있습니다. AI 모델 학습 과정에서 수천, 수만 건의 데이터를 자동으로 처리할 때 개별 출처표시가 현실적으로 어려운 점을 고려한 설계입니다. 라이선스 이름에는 Creative Commons CC 계열, Open Data Commons와 공공누리 라이선스를 표기하여 이용자 혼란을 줄이고, 메타데이터의 license 필드에 포함하여 기계가 읽을 수 있도록 정보를 제공해야 합니다.
12대 인공지능 친화적 공공데이터 관리 원칙
가이드라인은 부록에서 전체 내용을 관통하는 12대 관리 원칙을 제시합니다.
- 원칙 01: 데이터는 개방형 방식으로 제공되어야 하며, 기계 이해가 가능한 형식으로 구조화되어야 합니다.
- 원칙 02: 데이터는 부분 조회가 가능하여야 하며, 실시간 또는 준실시간 접근 및 활용을 지원하여야 합니다.
- 원칙 03: 데이터의 구조와 의미를 설명하는 포괄적이고 기계가 이해 가능한 메타데이터를 제공하여야 합니다.
- 원칙 04: 데이터 구조, 활용 목적, 편향성 및 한계점, 버전 및 변경 이력을 투명하게 문서화하고 공개하여야 합니다.
- 원칙 05: 인공지능 활용에 적합한 공공데이터 품질을 지속적으로 점검하고 개선하여야 합니다.
- 원칙 06: 기관 간 데이터 연계성과 상호운용성을 확보하기 위하여 표준 코드를 일관되게 적용하여야 합니다.
- 원칙 07: 데이터 품질, 보안, 윤리, 업데이트에 대한 책임 주체와 관리 체계를 명확히 지정하여야 합니다.
- 원칙 08: 사용자 중심의 데이터 인프라를 구축, 운영하여 데이터에 대한 접근성을 강화하여야 합니다.
- 원칙 09: 사용자 평가 및 피드백 체계를 운영하고, 그 결과를 데이터 품질 개선 과정에 반영하여야 합니다.
- 원칙 10: 데이터 접근 권한을 차등 관리하고, 데이터에 대한 보안을 강화하여야 합니다.
- 원칙 11: 데이터의 생산부터 활용까지 전 주기에 대한 책임 소재를 명확히 하여야 합니다.
- 원칙 12: 데이터 생애주기 전반에 윤리적, 법적 기준을 준수하고, 데이터 무결성과 신뢰성을 확보하여 공공의 이익을 보호하여야 합니다.
국제 동향: 각국의 AI 친화적 공공데이터 정책
이번 가이드라인은 독자적으로 개발된 것이 아니라 글로벌 흐름과의 정합성을 확보하면서 국내 실정에 맞게 구성되었습니다. 가이드라인에서 참조한 주요 국제 정책과 가이드라인은 다음과 같습니다.
| 기관/국가 | 문서명 | 핵심 내용 |
|---|---|---|
| 미국 상무부(DoC) | Generative AI and Open Data: Guidelines and Best Practices (2025) | AI에 최적화된 개방형 데이터 게시를 위한 구체적 가이드라인(문서화, 메타데이터, 저장 및 배포, 라이선스, 품질 및 무결성 등) 제시 |
| 영국 정부 | AI Opportunities Action Plan (2025) | 정부 데이터가 AI 발전의 핵심 자원이며, 데이터의 수집, 구조, 품질을 AI 활용에 적합하도록 고도화해야 할 필요성 시사 |
| ODI | A Framework for AI-Ready Data (2025) | 인공지능 친화적 데이터의 정의, 요건 및 점검 프레임워크 제시 |
| OECD | Government at a Glance 2025 (2025) | 개방형 데이터 관리에서 AI를 통합적으로 관리하고 AI 활용용 데이터 공개 및 공유 원칙을 고도화 |
| Open Data Policy Lab | A Blueprint to Unlock New Data Commons for AI (2025) | 공공 목적 AI 발전을 위한 새로운 데이터 커먼즈 구축 청사진 제시 |
특히 미국 상무부는 DCAT-US v3.0을 통해 생성형 AI 대응을 위한 메타데이터 구조를 강화하였고, 이번 가이드라인의 메타데이터 체계도 이러한 국제적 흐름과 궤를 같이합니다.
부록: 인공지능 친화적 공공데이터 관리 체크리스트 요약
가이드라인은 부록으로 기관별 인공지능 친화적 수준을 자체 점검할 수 있는 체크리스트를 제공합니다. 공통 점검 항목과 유형별 추가 점검 항목으로 구성되어 있으며, 각 항목은 필수와 권장으로 구분됩니다. 주요 점검 항목을 영역별로 요약하면 다음과 같습니다.
형식 및 구조 (필수)
- 특정 소프트웨어에 종속되지 않는 개방형 표준 포맷으로 데이터를 제공하고 있는가
- 기계 이해 및 자동 처리가 가능하도록 구조화된 형태로 제공하고 있는가
- DCAT 등 표준 스키마에 따라 기계 이해 가능한 메타데이터를 제공하고 있는가
- 메타데이터 필수 항목을 누락 없이 제공하고 있는가
의미 및 표준 (필수)
- 변수별 정의, 단위, 산정기준, 코드값 의미를 포함하는 데이터 사전을 제공하고 있는가
- 날짜, 시간, 코드 등 주요 값의 표기 형식은 표준 포맷에 따라 일관되게 적용되고 있는가
- 동일한 개념은 동일한 라벨과 용어로 일관되게 사용하고 있는가
품질 및 이력 (필수)
- 결측값 및 특수값 표기 규칙을 통일하여 일관되게 적용하고 있는가
- 데이터 품질평가의 수행 여부 및 결과 내용을 메타데이터에 명시하고 있는가
- 인공적으로 생성된 합성 데이터나 기계가 자동으로 단 주석이 포함된 경우 이를 명확히 구분하여 표기했는가
관리 및 보안 (필수)
- 개인정보가 포함된 경우 관련 법령에 따라 비식별/가명 처리 등 보호조치를 적용하고 있는가
- 이용허락 범위(재사용, 재배포, 상업적 이용 등)를 라이선스로 명확히 표시하고 메타데이터로 제공하고 있는가
관리 유지 (필수)
- 품질, 보안, 윤리, 업데이트에 대한 책임 주체를 명확히 하고 이용자 문의/오류 신고 연락 창구를 운영하는가
- 이용자 오류 신고 및 개선 요청을 접수하고 처리할 수 있는 절차와 피드백 체계를 운영하고 있는가
이미지/영상 등 유형별 추가 점검 항목으로는 수집 환경(장비, 센서, 조건) 메타정보 제공 여부, 라벨링 가이드라인 및 검증 절차 정보 제공 여부, 얼굴이나 차량번호 등 민감 정보의 마스킹/익명화 처리 완료 및 재식별 위험성 평가 여부 등이 있습니다.
시사점: AI 시대 공공데이터 관리의 전환점
이번 가이드라인은 공공데이터 정책이 "개방"에서 "AI 활용 가능한 상태의 관리"로 패러다임을 전환하는 중요한 이정표입니다. 데이터 구조와 포맷 뿐 아니라 메타데이터, 문서화, 품질 지표, 거버넌스, 윤리까지 포괄하는 체계적인 프레임워크를 제시하고, 실무자가 바로 적용할 수 있는 구체적인 예시와 체크리스트를 부록으로 제공합니다.
특히 AI 모델 개발자의 관점에서는 Hugging Face나 Kaggle 같은 글로벌 데이터 플랫폼에서 통용되는 데이터 카드 형식, Croissant 메타데이터 규격, 편향성 및 한계 명시 관행이 공공데이터 영역에도 도입된다는 점이 주목할 만합니다. PyTorch나 TensorFlow 등 프레임워크를 활용하여 공공데이터 기반 AI 모델을 개발하는 연구자와 개발자에게는, 데이터 전처리 비용 절감과 품질 투명성 확보라는 실질적인 혜택이 기대됩니다.
다만 가이드라인 스스로 밝히고 있듯이, 이 기준이 모든 데이터의 즉각적인 AI 활용을 보장하지는 않습니다. 비정형 데이터의 구조화, 텍스트화, 의미 단위 분해 등에 대한 기준은 아직 충분히 포함되어 있지 않으며, 법령이나 별도 규정에 따른 의무사항이 아닌 참고 기준이라는 한계도 있습니다. 그럼에도 불구하고, AI 기술의 발전 속도에 맞추어 지속적으로 보완, 개정해 나갈 계획이라는 점에서 향후 발전이 기대됩니다.
공공데이터포털 홈페이지
공공데이터의 인공지능 친화적 관리 가이드라인 배포 페이지 (자료실)
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()


