[GN] TabLib - 867B Tabluar Token 데이터셋

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개


  • LLM 훈련을 위한 627M(6.27억)개의 테이블과 867B(8670억)개 토큰 데이터셋
    • 웹페이지, Excel, CSV, SQLite 등에서 추출된 테이블을 포함
    • 파일 이름, 소스 URL, 각 테이블 주변 텍스트 등 풍부한 상황별 데이터
  • 표 형식 데이터 작업에 대한 더 나은 이해와 기술 구축에 도움이 되기를 바람
  • 6500억개의 행과 최대 80억개의 열
  • 가장 큰 테이블은 3200만개의 행
  • 가장 넓은 테이블은 3백만개의 열

원문

소개 블로그

:hugs:허깅페이스

데이터 샘플

전체 데이터

논문

출처 / GeekNews