Hunyuan-Large 모델 소개
Hunyuan-Large는 Tencent에서 개발한 대규모 혼합 전문가 모델(Mixture of Experts, MoE)로, 389B 규모의 전체 매개변수 중 52B의 활성 매개변수를 갖춘 오픈소스 트랜스포머 기반 모델입니다.
Hunyuan-Large 모델은 공개된 MoE 모델들 중 가장 큰 규모이며, 긴 문맥 처리와 자원 최적화에 중점을 두고 설계되었습니다.
Hunyuan-Large의 주요 기술적 강점은 다음과 같습니다:
-
고품질 합성 데이터: 다양한 상황에서 효과적으로 일반화할 수 있는 고품질 합성 데이터로 학습하여, 긴 문맥을 처리하는 능력과 미지의 데이터에 대한 일반화 성능을 향상시킵니다.
-
KV 캐시 압축: 메모리 사용량과 계산 비용을 줄여 추론 처리 속도를 향상시키기 위해 그룹 쿼리 어텐션(GQA) 및 레이어 간 어텐션(CLA) 기술을 사용합니다.
-
전문가별 학습률 조정: 서브 모델마다 다른 학습률을 적용하여 각 전문가가 효율적으로 학습할 수 있도록 합니다.
-
긴 문맥 처리 능력: 256K의 시퀀스를 지원하며, 명령 모델의 경우 128K까지 지원합니다.
-
광범위한 벤치마크: 다양한 언어 및 작업에서 실험을 수행하여 Hunyuan-Large의 실제 효율성과 안전성을 검증했습니다.
모델 사용 및 학습, 배포 등을 위해서는 HunyuanLLM 저장소를 참고해주세요.
모델 다운로드
Models | Huggingface Download | Tencent Cloud Download |
---|---|---|
Hunyuan-A52B-Instruct-FP8 | Hunyuan-A52B-Instruct-FP8 | Hunyuan-A52B-Instruct-FP8 |
Hunyuan-A52B-Instruct | Hunyuan-A52B-Instruct | Hunyuan-A52B-Instruct |
Hunyuan-A52B-Pretrain | Hunyuan-A52B-Pretrain | Hunyuan-A52B-Pretrain |
Hunyuan Large 모델 기술 문서
Hunyuan Large GitHub 저장소
Hunyuan Large 사용 데모
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~