WARC-GPT: AI를 활용한 Web Archive 탐색 도구 (feat. Harvard Library Innovation Lab)

WARC-GPT: AI를 활용한 Web Archive 탐색 도구 (feat. Harvard Library Innovation Lab)

WARC-GPT 소개

Harvard Library Innovation Lab (이하 Harvard LIL)에서 WARC-GPT라는 이름의 오픈소스 도구를 (지난 2월 중순에) 출시했습니다. WARC-GPT는 RAG(Retrieval-Augmented Generation) 기술을 사용하여 Web Archive 파일을 처리하고, 이를 기반으로 사용자의 질문에 대한 답변을 생성합니다.

WARC-GPT는 다양한 사용자 정의 / 맞춤화(Highly-Customizable)가 가능하여 개인 문서나 기존의 LLM 학습 데이터에 포함되지 않은 파일을 탐색하는 등에 유용하게 활용할 수 있습니다.

주요 기능

  • 텍스트 추출 및 청크화: WARC 파일에서 텍스트를 추출하고 청크로 나눕니다.

  • 임베딩 생성: 청크별 임베딩을 생성하여 벡터 스토어에 저장합니다.

  • 질문 응답: 벡터 스토어에서 관련 텍스트를 검색하여 질문에 답변을 생성합니다.

  • 커스터마이즈 가능: 다양한 설정, 모델, 프롬프트를 교체하여 실험 가능합니다.

WARC-GPT의 작동 원리

WARC-GPT는 Retrieval Augmented Generation 파이프라인에 기반하여, .WARC 파일 모음을 사용하여 지식 기반을 생성하고 사용자가 선택한 대형 언어 모델(LLM)에 질문을 할 때 이 지식 기반을 활용합니다. 지식 기반은 사전에 WARC-GPT의 ingest 명령을 사용하여 생성됩니다.

각 WARC 파일에 대해 파이프라인은 다음 작업을 수행합니다:

  • 텍스트 추출
  • 텍스트를 청크로 분할
  • 청크에 대한 임베딩 생성
  • 벡터 저장소에 임베딩 저장

사용 방법

  1. 설치: GitHub에서 설치 지침을 참고하여 설치합니다.
  2. 텍스트 추출: ingest 명령을 사용해 WARC 파일에서 텍스트를 추출하고 임베딩을 생성합니다.
  3. 질문 응답: REST API 및 웹 UI를 통해 질문을 입력하고 답변을 확인합니다.

라이선스

이 프로젝트는 MIT License로 공개 및 배포되고 있습니다.

LIL(Library Innovation Lab) 소개

Harvard Library Innovation Lab(LIL)은 도서관 원칙을 기술 최전선에 적용하여 지식과 커뮤니티를 성장시키는 것을 목표로 하는 그룹입니다. LIL은 오픈 소스 도구와 서비스를 구축하여 정보를 모두가 접근할 수 있게 하고 공공의 이익을 위해 사용될 수 있도록 합니다. 주요 프로젝트로는 법원 판결을 무료로 공개하는 Caselaw Access Project, 학습 자료를 공유하는 H2O Open Casebook, 링크 고착 문제를 해결하는 Perma.cc 등이 있습니다​. Harvard LIL은 (Harvard Law School) 내에 위치해 있으며, 직원들은 주로 하이브리드 근무를 한다고 합니다. :star_struck:

:github: WARC-GPT GitHub 저장소

https://github.com/harvard-lil/warc-gpt

WARC-GPT 소개 글

:hugs: WARC-GPT Case Study 데이터




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

Library Innovation Lab이라는 곳은 처음 들어봤는데, 흥미로운 프로젝트를 많이 하는 것 같습니다. 글에서도 소개했듯이, Law School 산하에 있어서 그런지(?) 판례 검색 프로젝트(Cawlaw Access Project) https://case.law/ 같은 것도 있고, RAG 기법을 활용하여 법률이나 공공 영역에서 다양한 시도들을 하는 것 같습니다.

아래 링크에서 LIL에서 하고 있는 프로젝트들을 보실 수 있습니다. 생각날 때마다 (or 글감이 떨어질 때마다) 하나씩 정리해서 소개해보겠습니다. :smiley: