TLDR 뉴스레터에서 소개된 MultiLegalPile이 궁금해서 잠시 봤는데요, 혹시나 했었는데 역시나 한국어는 없더군요 ㅎㅎ
영어 + 유럽쪽의 24개 언어들로 구성되어 있으며, 구성비는 아래 표와 같다고 합니다. (Y축이 log스케일입니다)
언어명(한국어) | 언어명(영어) | 코드 | 데이터양 |
---|---|---|---|
영어 | English | en | 44.67B |
포르투갈어 | Portuguese | pt | 13.76B |
독일어 | German | de | 5.43B |
스페인어 | Spanish | es | 5.26B |
프랑스어 | French | fr | 2.87B |
이탈리아어 | Italian | it | 2.52B |
체코어 | Czech | cs | 1.85B |
폴란드어 | Polish | pI | 1.56B |
루마니아어 | Romanian | ro | 0.98B |
덴마크어 | Danish | da | 0.91B |
네덜란드어 | Dutch | nl | 0.81B |
그리스어 | Greek | el | 0.70B |
스웨덴어 | Swedish | sv | 0.66B |
슬로바키아어 | Slovak | sk | 0.59B |
슬로베니아어 | Slovenian | si | 0.56B |
헝가리어 | Hungarian | hu | 0.53B |
불가리아어 | Bulgarian | bg | 0.45В |
핀란드어 | Finnish | fi | 0.44В |
에스토니아어 | Estonian | et | 0.38B |
몰타어 | Maltese | mt | 0.37B |
리투아니아어 | Lithuanian | It | 0.37B |
라트비아어 | Latvian | Iv | 0.36B |
크로아티아어 | Croatian | hr | 0.26B |
아일랜드어 | Irish | ga | 0.07B |
MultiLegalPile을 구성하는 각 데이터셋들의 언어와 구성들, 그리고 라이선스 정보는 아래와 같습니다.
더 자세한 내용은 아래 링크의 논문을 참고하시면 될 것 같습니다.