legalize-kr: 대한민국의 법령과 판례 등의 정보를 Git 기반으로 정리하는 프로젝트

legalize.kr 소개

인공지능(AI)과 대형 언어 모델(LLM)이 발전하면서 법률 분야에서도 데이터를 AI 친화적인 형태로 구축하려는 수요가 급증하고 있습니다. 법률 데이터는 텍스트가 방대하고 조문 간의 상호 참조가 복잡하여, 기존처럼 웹페이지나 복잡한 XML 형태로 제공되는 데이터를 AI에 바로 학습시키거나 RAG(검색 증강 생성) 파이프라인에 투입하기에는 파싱 비용과 난이도가 매우 높았습니다.

legalize.kr 은 이러한 문제를 해결하는 것을 목표로 하는 프로젝트입니다. 대한민국의 현행 법령 및 개정 내역을 소프트웨어 엔지니어들에게 가장 친숙한 버전 관리 시스템인 Git 저장소에 담아낸 프로젝트입니다. 국가법령정보센터에서 제공하는 방대한 법령을 일괄 수집하여, 각 법령을 AI가 읽기 쉬운 순수 텍스트 기반의 마크다운(Markdown) 포맷으로 변환합니다.

legalize.kr 프로젝트의 주요한 특징은 법령의 제정과 개정 등 모든 변경 역사를 실제 법령 공포 일자를 기준으로 한 Git 커밋(Commit) 으로 기록했다는 점입니다. 개발자는 별도의 복잡한 크롤러나 데이터베이스 구축 없이도 git clone 명령어 하나로 전체 법령 데이터를 내려받을 수 있으며, 구조화된 마크다운 텍스트를 통해 AI 모델 학습, 법률 검색 서비스, 챗봇 에이전트 등을 매우 손쉽게 개발할 수 있는 강력한 데이터 인프라를 확보하게 됩니다.

legalize.kr 핵심 아키텍처 및 데이터 구조

직관적인 디렉토리 구조 및 마크다운 파일화

모든 법령 데이터는 최상위 kr/ 디렉토리 하위에 법령명의 띄어쓰기를 제거한 폴더명(예: kr/민법/)으로 구조화되어 있습니다.
하나의 법령 폴더 내부에는 상위 법률인 법률.md를 중심으로, 이에 위임되는 대통령령인 시행령.md와 부령인 시행규칙.md가 함께 묶여 저장됩니다. 상하위 법령이 물리적으로 동일한 디렉토리에 위치하기 때문에 조문의 위임 관계를 파악하기가 매우 용이하며, HTML/XML 태그가 없는 순수 마크다운 포맷이라 LLM의 토큰을 절약하고 노이즈를 최소화할 수 있습니다.

실제 공포일 기반의 Git 커밋 전략

단순히 최신 법령만 저장하는 것이 아니라 법령의 '시간적 흐름'을 저장소에 구현했습니다. 각 법령이 개정될 때마다 발생하는 변경 사항은 Git 커밋으로 기록되며, 이때 Git의 작성 일자(Author Date) 및 커밋 일자(Committer Date)를 해당 법령의 실제 공포 일자로 설정합니다. 커밋 메시지에는 개정된 법률명, 원본 링크, 공포 번호 등의 맥락이 상세히 기록되어 있어 Git 타임라인 자체가 곧 대한민국 법령의 역사가 됩니다.

판례 데이터 저장소: Precedent-kr

GitHub의 legalize-kr 조직(Organization)에서는 법령(법률, 시행령 등) 원문뿐만 아니라 법리 해석의 기준이 되는 판례(Precedents)를 다루는 precedent-kr 저장소도 별도로 운영하고 있습니다. 판례 역시 마크다운 등 코드 친화적인 텍스트 형태로 구조화하여 관리함으로써, AI가 법령 조문 원문과 더불어 실제 대법원의 판례까지 함께 참조하여 더욱 정확도 높고 할루시네이션(환각)이 적은 법률 답변을 생성할 수 있도록 생태계를 확장하고 있습니다.

라이선스

legalize-kr 프로젝트의 모든 소스 코드는 MIT License로 공개 및 배포되고 있습니다. 단, 데이터에 포함된 대한민국 법령 및 판례 원문 자체는 대한민국 정부의 공공저작물로서 저작권법 제7조에 따라 자유롭게 이용이 가능합니다.

:house: Legalize.kr 공식 홈페이지

:github: legalize-kr의 한국 법령 저장소 (legalize-kr/legalize-kr)

:github: legalize-kr의 한국 판례 저장소 (legalize-kr/precedent-kr)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

6개의 좋아요

제 개인 프로젝트를 소개하려니 쑥스럽지만... 혹시나 관심있으실 분도 계실 것 같아 공유드립니다. :sweat_smile:
아직 법령 내 이미지 처리나 부처 이름 변경 내역 등이 반영되지 않는 등의 문제가 있어 꾸준히 관리해나가려고 합니다. :man_bowing:

5개의 좋아요

이거 보고 처음 가입해서 댓글쓰는데, 대단하시네요..! 전 아직 배운게 많이 없어서 저는 Gemini Gems로 RAG 항시가동하게 만든 법률 자문 챗봇을 만든게 다인데, 전문가는 역시 다른.. ㄷㄷ

1개의 좋아요

우왓, 가입해주시고 댓글까지...!! 감사합니다!! :bow:
(감동의 눈물이 똥배를 타고... :sob:)

저도 법률쪽은 용어도 생소하고, 잘 모르겠어서 헤매고 있는 중입니다. ^^;
사실 기술적으로는 크게 다른 점이 없긴한데, legalize-dev 프로젝트를 보고 한국 법은 왜 없지? 라고 생각해서 시작했던건데 기대치않게 관심을 많이 가져주셔서 감사합니다. :person_bowing:

주변에 계신 분들께서 개발자가 아니더라도 좀 더 쉽게 사용할 수 있는 방법이 있으면 좋겠다고 해서 (서비스를 돌릴만한 리소스를 포함하여) 여러가지로 고민 중에 있는데요, 향후에 진행이 되면 관심가지고 지켜봐주시면 (& 여유가 되시면 기여도 해주시면 :sweat_smile:) 좋을 것 같습니다.

다시 한 번 댓글 감사합니다!!

1개의 좋아요

엇 저도 이미 사이드 프로젝트로 RAG 활용해서 관련 작업을 한번 진행했었습니다.(사실 아직도 진행중입니다 :slight_smile: )

워낙 방대해서 특정 키워드들에 대한 부분적인 판례에 대해 작업을 했었었고, PDF같은 자료들에 대해서는 pdf 파싱 라이브러리 이용해서 작업을 진행했었습니다.

다만 판결에 대해 승소, 패소 유뮤가 없는 경우도 많고 해서 다른 방법을 생각해보던 차에 이런 프로젝트를 진행하고계시다니 응원하게 되네요!!

와, 여기서 출발 할 수 있는 것들이 너무 많을 것 같아요! 감사합니다!!