[GN] 2023년은 오픈 LLM의 해

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • 대규모 언어 모델(LLM)에 대한 대중의 관심이 증가하고, 오픈 소스와 비공개 소스에 대한 논의가 확산됨

Pretrained LLM을 위한 레시피

  • 모델 아키텍처: 특정 구현과 수학적 형태를 설명
  • 훈련 데이터셋: 모델이 학습하는 예시와 문서를 포함
  • 토크나이저: 텍스트를 숫자로 변환하는 방법 정의
  • 훈련 하이퍼파라미터: 모델 훈련 방법 정의
  • 컴퓨팅 파워와 전문가의 모니터링 필요
  • 사전 훈련된 모델의 가중치는 추론에 사용됨

2022년, 크기 경쟁에서 데이터 경쟁으로

  • 2022년초까지는 모델 크기가 성능에 중요한 요소
  • BLOOM, OPT, GLM-130B 등의 모델 출시
  • DeepMind의 새로운 연구로 데이터 크기의 중요성이 강조 되며 패러다임 전환

2023년, 오픈 릴리스의 해

  • 작은 LLM의 부상 : 2월에는 LLaMA(Meta), 4월에는 Pythia(Eleuther AI), 5월에는 MPT(MosaicML) , 6월에는 X-GEN(Salesforce), Falcon(TIIUAE), 7월에는 Llama 2(Meta)가 출시되었습니다. 9월에는 Qwen(Alibaba) 및 Mistral(Mistral.AI), 11월에는 Yi(01-ai), 12월에는 DeciLM(Deci), Phi-2(Microsoft) 및 SOLAR(Upstage) 출시
  • 모델 가중치가 포함됭고 있고, 작은측 모델에서 좋은 성능을 보여서 커뮤니티에서 빠르게 채택
  • 핵심 차이점은 훈련 데이터와 모델 라이센스

대화형 모델의 등장

  • 2023년에는 대부분의 사전 훈련된 모델이 대화형 버전과 함께 출시됨
  • 채팅 기반 파인튜닝, 인스트럭션 파인튜닝, 인간 피드백에서 강화 학습(RLHF), DPO(Direct Preference Optimzation) 등의 방법 사용
  • MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM 모델의 대화형 버전 출시

커뮤니티의 역할

  • 커뮤니티와 연구자들은 제공된 기본 모델을 활용하여 새로운 데이터셋과 미세 조정 모델 개발
  • 다양한 데이터셋과 미세 조정 전략의 출시
    • Human Preference: OpenAI의 WebGPT 데이터세트, HH-RLHF 데이터세트(Anthropic) 및 Summarize(OpenAI)
    • Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

접근성의 대중화

  • 모델/데이터 병합: 모델의 무게를 결합하여 강점을 통합
  • PEFT: 전체 모델을 사용하지 않고도 미세 조정 가능
  • 양자화(Quantization): 모델 크기를 줄이는 기술로 더 많은 사람들이 LLM을 사용할 수 있게 함

다음은 무엇인가?

  • Transformer를 능가할 새로운 아키텍처의 출현과 성능 향상
  • Mixtral, Mamba, Striped Hyena 등의 새로운 모델 출시

원문

더 읽어보기

출처 / GeekNews