MultiLegalPile: 689GB 분량의 다국어 법률 말뭉치(corpus)🗄

TLDR 뉴스레터에서 소개된 MultiLegalPile이 궁금해서 잠시 봤는데요, 혹시나 했었는데 역시나 한국어는 없더군요 ㅎㅎ


영어 + 유럽쪽의 24개 언어들로 구성되어 있으며, 구성비는 아래 표와 같다고 합니다. (Y축이 log스케일입니다)

언어명(한국어) 언어명(영어) 코드 데이터양
영어 English en 44.67B
포르투갈어 Portuguese pt 13.76B
독일어 German de 5.43B
스페인어 Spanish es 5.26B
프랑스어 French fr 2.87B
이탈리아어 Italian it 2.52B
체코어 Czech cs 1.85B
폴란드어 Polish pI 1.56B
루마니아어 Romanian ro 0.98B
덴마크어 Danish da 0.91B
네덜란드어 Dutch nl 0.81B
그리스어 Greek el 0.70B
스웨덴어 Swedish sv 0.66B
슬로바키아어 Slovak sk 0.59B
슬로베니아어 Slovenian si 0.56B
헝가리어 Hungarian hu 0.53B
불가리아어 Bulgarian bg 0.45В
핀란드어 Finnish fi 0.44В
에스토니아어 Estonian et 0.38B
몰타어 Maltese mt 0.37B
리투아니아어 Lithuanian It 0.37B
라트비아어 Latvian Iv 0.36B
크로아티아어 Croatian hr 0.26B
아일랜드어 Irish ga 0.07B


MultiLegalPile을 구성하는 각 데이터셋들의 언어와 구성들, 그리고 라이선스 정보는 아래와 같습니다.


더 자세한 내용은 아래 링크의 논문을 참고하시면 될 것 같습니다.