Meta, 32k 토큰의 컨텍스트 윈도우를 지원하는 LLAMA 2 Long 공개

9bow · 10월 3, 2023, 2:58오전

소개

파운데이션 모델의 효과적인 장기 컨텍스트 확장(Effective Long-Context Scaling of Foundation Models)이라는 논문을 통해 LLaMA2 Long 모델을 공개
컨텍스트 윈도우(context window)의 길이가 32K(32,768) 토큰까지 지원
70B 버전은 이미 긴 컨텍스트 작업 모음에서 gpt-3.5-turbo-16k의 전체 성능을 능가
기존 모델 구조는 유지하면서, 위치 인코딩(Positional Encoding)에 RoPE(Rotary Positional Embedding)을 적용하여 적은 정보로 더 나은 응답 생성

원문

https://arxiv.org/pdf/2309.16039.pdf

출처

[2023/09/25 ~ 10/01] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) 읽을거리&정보공유

이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24 소개 이번 주의 논문들은 대부분 LLM(Large Language Models)에 초점을 맞춘 것으로 보입니다. 그 중에서도 여러 환경에서의 LLM 프로세스 효율성 알고리즘 개선, LLM의 Graph Neural Prompting, 논리적 사고 과정의 적용 등 다양한 주제들을 다루고 있네요. 올해는 머신러닝 및 딥러닝 학계에서 언어모델에 대한 연구가 활발한 추세입니다. LLM의 연구는 가장 기본적인 인공지능분야인 자연어 처리(NLP)를 이해하고 그 성능을 향상시키는 데 큰 도움이 됩니다. 이번 주에 선택된 논문들은 대부분 이러한 언어모델에 관련된 주제를 …

[TLDR] 오늘의 AI 뉴스, 2023-10-02: Llama 2 Long

, 사운드로 동영상 제작

, 비전 트랜스포머

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 메타, 라마 2 롱(Llama2 Long)을 조용히 공개 / Meta Quietly Unveils Llama 2 Long (3 minute read) 메타는 긴 사용자 프롬프트에서 GPT-3.5 터보와 클로드 2보다 뛰어난 성능을 발휘하는 새로운 AI 모델인 라마 2 롱을 출시했습니다. llama Meta has released Llama 2 Long, a new AI model that outperforms GPT-3.5 Turbo and Claude 2 for long user prom…