[GN] Alibaba, Qwen2-Math 모델 공개

9bow · 8월 11, 2024, 10:02오전

Qwen2-Math 소개

Qwen2 LLM을 기반으로 만들어진 Qwen2-Math는 오픈 소스 모델과 비공개 모델(예: GPT-4o)의 수학 능력을 크게 능가함
- Qwen2-Math와 Qwen2-Math-Instruct-1.5B/7B/72B를 포함한 수학 특화 대형 언어 모델 시리즈
최대 모델인 Qwen2-Math-72B-Instruct가 GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro, Llama-3.1-405B 등 최신 모델을 능가하는 것으로 나타남
현재 모델은 영어만 지원. 곧 이중 언어(영어 및 중국어) 수학 모델을 출시할 예정

원문

출처 / GeekNews

Alibaba, Qwen2-Math 모델 공개 | GeekNews

알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!

아래쪽에 좋아요를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~

9bow · 8월 11, 2024, 10:08오전

Qwen-Math 모델군 소개

최근 1년 동안 대형 언어 모델의 추론 능력을 연구하고 개선하는 데 집중해왔으며, 특히 산술 및 수학 문제 해결 능력에 주목했습니다. 이제 수학 특화 대형 언어 모델인 Qwen2 시리즈의 새로운 모델 Qwen2-Math와 Qwen2-Math-Instruct-1.5B/7B/72B를 소개합니다. 이 모델들은 Qwen2 LLM(대형 언어 모델)을 기반으로 하며, 수학적 성능 면에서 오픈 소스 모델은 물론 GPT-4o와 같은 상용 모델을 능가합니다. 우리는 Qwen2-Math가 복잡한 수학 문제 해결에 기여하기를 기대합니다.

Qwen2-Math: 기본 모델

Qwen2-Math의 기본 모델들은 Qwen2-1.5B/7B/72B에서 초기화되었으며, 수학 전용 데이터셋으로 사전 학습되었습니다. 이 데이터셋에는 대규모 고품질의 수학 웹 텍스트, 책, 코드, 시험 문제 및 Qwen2가 생성한 수학 사전 학습 데이터가 포함되어 있습니다. 이 모델들은 GSM8K, Math, MMLU-STEM과 같은 영어 수학 벤치마크와 CMATH, GaoKao Math Cloze, GaoKao Math QA와 같은 중국어 수학 벤치마크에서 평가되었습니다.

Qwen2-Math-Instruct: 명령 조정 모델

Qwen2-Math-72B를 기반으로 한 수학 전용 보상 모델을 먼저 학습한 후, 이 신호를 활용하여 거부 샘플링(Rejection Sampling)과 GRPO(그룹 상대 정책 최적화) 방법을 적용해 모델을 조정했습니다. 이 모델은 영어와 중국어 수학 벤치마크 모두에서 평가되었으며, 특히 복잡한 수학 경연 대회에서 뛰어난 성능을 보여주었습니다.

사례 연구

Qwen2-Math가 수학 경연 문제를 해결하는 능력을 테스트한 사례들을 소개합니다. 몇 가지 실험 결과와 사례 연구에서 Qwen2-Math가 간단한 수학 경연 문제를 해결할 수 있는 능력을 확인할 수 있었습니다. 다만 모든 결과가 올바른 것은 아니므로 주의가 필요합니다. 자세한 사례들은 프로잭트 홈페이지의 Case Study 섹션을 참고해주세요.

데이터 정제

모델의 사전 학습과 사후 학습 데이터셋에서 오염된 데이터를 제거하기 위한 정제 과정을 거쳤습니다. 특히, GSM8K, MATH와 같은 데이터셋과 중복된 샘플을 제거했으며, 사후 학습 데이터에서도 오염된 데이터를 추가로 제거했습니다.

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~