MPT-7B-8K 발표: 문서 이해를 위한 8K 문맥 길이 (Announcing MPT-7B-8K: 8K Context Length for Document Understanding)

MPT-7B-8K 발표: 문서 이해를 위한 8K 문맥 길이 (Announcing MPT-7B-8K: 8K Context Length for Document Understanding)

소개

MosaicML은 MPT-7B-8K를 발표하였습니다. 이는 8k 문맥 길이를 가진 7B 파라미터의 오픈 소스 LLM으로, MosaicML 플랫폼에서 훈련되었습니다. MPT-7B-8K는 문서 요약 및 질문 응답에 특화되어 있으며, MPT Foundation Series의 다른 모델들처럼, MPT-7B-8k는 더 빠른 훈련과 추론을 위해 최적화되어 있으며, MosaicML 플랫폼에서 도메인 특정 데이터에 대해 세부 조정할 수 있습니다.

요약

MPT-7B-8K는 MPT-7B 체크포인트에서 시작하여 시퀀스 길이를 8k로 업데이트하고 추가적인 500B 토큰에 대해 훈련하여 총 1.5T 토큰의 텍스트와 코드로 사전 훈련된 디코더 스타일의 트랜스포머입니다. 이 모델은 상업적 사용 가능성을 위해 라이선스가 부여되었으며, 대량의 데이터(1.5T 토큰)에 대해 훈련되었습니다. 이는 ALiBi 덕분에 긴 입력을 처리할 수 있으며, 이를 통해 모델은 8k 훈련 시퀀스 길이를 넘어서 최대 10k까지 외삽할 수 있습니다. 또한 수백만 토큰을 이용하여 더 멀리 외삽하기 위해 세부 조정할 수 있습니다.

MPT-7B-8K는 FlashAttentionFasterTransformer를 통해 빠른 훈련과 추론이 가능하며, llm-foundry 저장소를 통해 고도로 효율적인 오픈 소스 훈련 코드를 제공합니다.

참고자료

  1. MPT-7B-8k: 이 모델은 MPT-7B에서 시작하여 시퀀스 길이를 8k로 업데이트하고 추가적인 500B 토큰에 대해 훈련하였습니다. 이를 통해 총 1.5T 토큰의 텍스트와 코드에 대해 사전 훈련되었습니다.
  2. MPT-7B-8k-Instruct: 이 모델은 장문의 지시사항을 따르는 데 특화되어 있습니다. 특히 요약 및 질문 응답에 사용됩니다. 이 모델은 MPT-7B-8k에 대해 여러 개의 신중하게 선별된 데이터셋에 대해 세부 조정되었습니다.
  3. MPT-7B-8k-Chat: 이 모델은 대화 생성을 위한 챗봇과 같은 모델입니다. 이 모델은 대략 1.5B 토큰의 채팅 데이터에 대해 MPT-7B-8k를 세부 조정하여 구축되었습니다.

MPT-7B-8K 발표: 문서 이해를 위한 8K 컨텍스트 길이 (Announcing MPT-7B-8K: 8K Context Length for Document Understanding)

소개

오늘, 우리는 MosaicML 플랫폼으로 학습된 8k 컨텍스트 길이를 가진 7B 파라미터 오픈 소스 LLM인 MPT-7B-8K를 출시합니다. MPT-7B-8K는 MPT-7B 체크포인트에서 시작하여 256개의 NVIDIA H100에서 3일 동안 추가로 500B 토큰의 데이터로 사전 학습되었습니다.

MPT-7B-8k는 그 8k 컨텍스트 길이로 문서 요약과 질문 응답에 특화되어 있습니다. MPT Foundation Series의 다른 모든 모델들처럼, MPT-7B-8k는 더 빠른 학습과 추론을 위해 최적화되어 있으며, MosaicML 플랫폼에서 도메인 특정 데이터에 대해 미세 조정될 수 있습니다.

요약

오늘, 우리는 3가지 모델을 출시합니다:

  • MPT-7B-8k: MPT-7B에서 시작하여 시퀀스 길이를 8k로 업데이트하고 추가로 500B 토큰을 학습하여 총 1.5T 토큰의 텍스트와 코드를 결과로 내는 디코더 스타일의 트랜스포머입니다. 라이센스: CC-BY-SA-3.0
  • MPT-7B-8k-Instruct: 장문의 지시사항을 따르는 모델(특히 요약 및 질문 응답). MPT-7B-8k를 여러 개의 신중하게 선별된 데이터셋에서 미세 조정하여 구축하였습니다. 라이센스: CC-BY-SA-3.0
  • MPT-7B-8k-Chat: 대화 생성을 위한 챗봇 같은 모델. MPT-7B-8k를 대략 1.5B 토큰의 채팅 데이터에서 미세 조정하여 구축하였습니다. 라이센스: CC-By-NC-SA-4.0

복잡한 문서의 이해를 향상시키거나, 단순히 시간과 노력을 절약하려는 경우, MosaicML 플랫폼에서의 MPT-7B-8k는 언어 데이터에 추론 능력을 추가하려는 기업들에게 좋은 출발점이 될 것입니다.

MPT-7B-8k는 다음과 같습니다:

  • 상업적 사용 가능성을 위한 라이센스 부여.
  • 대량의 데이터(1.5T 토큰, XGen과 같이)에 학습.
  • ALiBi 덕분에 긴 입력을 처리할 준비가 되어 있습니다. ALiBi를 통해, 모델은 8k 학습 시퀀스 길이를 넘어서 10k까지 외삽할 수 있으며, 몇 백만 토큰으로는 훨씬 더 멀리 외삽하기 위해 미세 조정될 수 있습니다.
  • FlashAttentionFasterTransformer를 통해 빠른 학습과 추론이 가능합니다.
  • llm-foundry 저장소를 통해 고도로 효율적인 오픈 소스 학습 코드를 갖추고 있습니다.

또한, MPT-7B-8k 모델들은 우리의 인-컨텍스트 학습 평가 하네스에서 다른 오픈 소스 8K 컨텍스트 길이 모델들과 비슷하게 또는 더 나은 성능을 보입니다. 우리의 인-컨텍스트 학습 평가 하네스에 대해 더 알아보고, 다른 오픈 소스 LLM들과의 비교 결과를 보려면, 우리의 새로운 LLM 평가 페이지를 확인해보세요. 질적인 결과를 선호한다면, 모델을 다운로드하여 우리의 Community Slack에서 결과를 공유하거나, 블로그 하단의 긴 컨텍스트 길이 읽기 이해 예제를 확인해보세요.

Figure 1 - MPT-7B-8k vs XGen-7B-8K by Salesforce.

Figure 2 - MPT-7B-8k-Chat vs. InternLM-chat-7b-8k

참조

  1. Training LLMs with AMD MI250 GPUs and MosaicML: PyTorch 2.0과 ROCm 5.4의 출시와 함께, AMD MI250 가속기에서 코드 변경 없이 LLM 학습이 높은 성능으로 작동한다는 것을 발표하게 되어 기쁩니다.
  2. MPT-30B: Raising the bar for open-source foundation models: 우리의 Foundation Series의 새로운, 더 강력한 멤버인 MPT-30B를 소개합니다. 이 모델은 NVIDIA H100 Tensor Core GPU에서 8k 컨텍스트 길이로 학습되었습니다.

이 링크들은 이 기사에서 소개된 MPT-7B-8K에 대한 추가적인 배경 정보와 그 성능을 더 잘 이해하는 데 도움이 될 것입니다.