Z.AI, 장기 실행 과제(Long-Horizon)에 특화된 1M 컨텍스트 오픈소스 모델 GLM-5.2 출시

GLM-5.2 소개

Z.AI(과거 Zhipu AI)가 자사의 새로운 플래그십 모델 GLM-5.2 를 공개했습니다. GLM-5.2는 한 번의 응답으로 끝나는 짧은 질의응답이 아니라, 수 시간에서 수십 시간에 걸쳐 이어지는 장기 실행 과제(Long-Horizon Task)를 안정적으로 수행하는 데 초점을 맞춘 모델입니다. 코딩 에이전트가 대규모 코드베이스를 구현하고, 성능을 최적화하고, 복잡한 버그를 추적하는 작업은 짧은 대화 한 번으로 끝나지 않습니다. 요구사항 분석에서 시작해 설계, 구현, 디버깅, 배포까지 이어지는 긴 작업 궤적(trajectory) 동안 맥락을 잃지 않고 일관된 품질을 유지하는 것이 핵심 과제입니다.

GLM-5.2가 내세우는 가장 큰 변화는 실제로 쓸 수 있는 1M(100만) 토큰 컨텍스트입니다. 직전 버전인 GLM-5.1의 최대 컨텍스트가 200K 수준이었던 것과 비교하면 5배에 달하는 확장입니다. Z.AI는 "1M 컨텍스트를 주장하는 것은 쉽지만, 실제 엔지니어링 압박 속에서 그것을 안정적으로 유지하는 것은 훨씬 어렵다"는 점을 강조합니다. 단순히 토큰 수만 늘린 것이 아니라, 길고 지저분한 코딩 에이전트의 작업 궤적 전반에서 품질이 무너지지 않도록 1M 컨텍스트 학습을 대규모 구현, 자동화된 리서치, 성능 최적화, 복잡한 디버깅 시나리오까지 확장했다는 것입니다.

또한 GLM-5.2는 MIT 라이선스로 공개되었다는 점에서 주목할 만합니다. 일부 오픈 가중치 모델이 지역 제한이나 사용 조건을 두는 것과 달리, GLM-5.2는 지역 제한 없이 연구와 상업적 활용 모두에 자유롭게 사용할 수 있습니다. 모델 자체는 GLM-5 시리즈 아키텍처를 잇는 744B 파라미터(활성 40B) 규모의 MoE(Mixture-of-Experts) 모델이며, BF16 가중치와 함께 메모리 사용을 줄인 FP8 버전(GLM-5.2-FP8)도 함께 공개되었습니다. 모델 가중치는 HuggingFaceModelScope에 공개되어 있습니다.

핵심 특징 한눈에 보기

GLM-5.2가 GLM-5.1 대비 새롭게 가져온 변화는 크게 네 가지로 요약됩니다.

  • 안정적인 1M 컨텍스트: 긴 작업을 끝까지 지탱하는, 실제 사용 가능한 1M 토큰 컨텍스트
  • 유연한 노력 수준(Effort Level)을 갖춘 코딩 능력: 성능과 지연 시간(latency)을 균형 잡을 수 있도록 여러 단계의 사고 노력(thinking effort) 수준을 제공
  • 개선된 아키텍처: 네 개의 희소 어텐션(sparse attention) 레이어마다 동일한 인덱서를 재사용하는 IndexShare로 1M 컨텍스트에서 토큰당 연산량(FLOPs)을 2.9배 절감. 추론 가속을 위한 MTP 레이어도 개선하여 수용 길이(acceptance length)를 최대 20% 향상
  • 완전한 오픈: 지역 제한 없는 MIT 오픈소스 라이선스

장기 실행 과제 벤치마크에서의 성과

GLM-5.2의 핵심 역량은 세 가지 장기 실행 코딩 벤치마크에서 드러납니다. 이 벤치마크들은 단발성 코드 스니펫 생성이 아니라, 에이전트가 수 시간 단위의 개방형 기술 프로젝트를 끝까지 완수할 수 있는지를 측정합니다.

FrontierSWE는 시스템 최적화, 대규모 코드 구축, 응용 ML 리서치 등 수 시간에서 수십 시간 규모의 개방형 기술 프로젝트를 에이전트가 완수할 수 있는지를 평가합니다. 이 벤치마크에서 GLM-5.2는 74.4%를 기록하며 Claude Opus 4.8(75.1%)에 단 1% 차이로 근접했고, GPT-5.5(72.6%)를 1% 앞섰으며, Opus 4.7보다는 11% 높았습니다.

PostTrainBench는 각 에이전트에게 H100 GPU 한 대를 주고, 사후 학습(post-training)을 통해 소형 모델을 얼마나 개선할 수 있는지를 평가합니다. 여기서 GLM-5.2(34.3%)는 Opus 4.7과 GPT-5.5를 모두 능가하며 Opus 4.8(37.2%)에 이어 2위를 차지했습니다. SWE-Marathon은 컴파일러 구축, 커널 최적화, 프로덕션급 서비스 개발 같은 초장기(ultra-long-horizon) 소프트웨어 엔지니어링 과제를 다루는데, GLM-5.2(13.0%)는 Opus 4.8(26.0%)에 13% 뒤지지만 여전히 Opus 시리즈에 이은 2위를 지켰습니다.

세 벤치마크 모두에서 GLM-5.2는 오픈소스 모델 중 가장 높은 순위를 기록했습니다. 1M 컨텍스트가 단순한 스펙 자랑에 그치지 않고 실질적인 장기 실행 수행 능력으로 이어졌음을 보여주는 결과입니다.

표준 코딩 벤치마크와 노력 수준 제어

장기 실행 과제뿐 아니라 일반적인 코딩 벤치마크에서도 GLM-5.2는 오픈소스 모델 중 가장 강력한 성능을 보입니다. GLM-5.1과 비교하면 격차가 상당히 큽니다.

Terminal-Bench 2.1에서 GLM-5.2는 81.0점으로, GLM-5.1의 63.5점을 큰 폭으로 끌어올렸습니다. 이는 폐쇄형 프론티어 모델인 Claude Opus 4.8(85.0점)과 몇 점 차이에 불과한 수준이며, Gemini 3.1 Pro(74점)는 앞섰습니다. SWE-bench Pro에서도 62.1점으로 GLM-5.1(58.4점)을 넘어섰습니다.

GLM-5.2는 노력 수준 제어(Effort Level Control) 를 새롭게 도입했습니다. 사용자가 모델의 성능과 실행 속도, 연산 비용 사이의 균형을 명시적으로 조절할 수 있게 한 기능입니다.

위 그래프에서 볼 수 있듯, GLM-5.2는 비슷한 토큰 예산(token budget)에서 GLM-5.1보다 훨씬 강한 에이전틱 코딩 성능을 보이며, 유사한 토큰 소비량 기준으로 Claude Opus 4.7과 Opus 4.8 사이에 위치합니다. 특히 가장 높은 단계인 Max 노력 수준은 까다로운 과제에서 더 많은 연산을 할당해 모델의 코딩 능력을 한층 더 끌어올릴 수 있게 해줍니다. 즉, 빠른 응답이 필요한 작업과 최고 성능이 필요한 작업을 사용자가 시나리오에 맞게 선택할 수 있습니다.

1M 컨텍스트를 위한 아키텍처: IndexShare와 MTP 개선

1M 컨텍스트를 단순히 "지원"하는 것을 넘어 "효율적으로" 처리하기 위해, GLM-5.2는 아키텍처 수준에서 두 가지 핵심 기법을 도입했습니다.

IndexShare로 희소 어텐션 비용 줄이기

GLM-5.2는 GLM-5 시리즈가 채택한 DSA(DeepSeek Sparse Attention, 희소 어텐션)에서 인덱서(indexer)의 연산 비용을 줄이기 위해 IndexShare 를 적용합니다. 구체적으로 네 개의 트랜스포머(Transformer) 레이어가 하나의 경량 인덱서를 공유합니다. 인덱서는 네 레이어 중 첫 번째 레이어에 배치되고, 거기서 계산한 topk 인덱스를 네 레이어 모두에서 재사용합니다. 이렇게 하면 나머지 3/4 레이어에서 인덱서의 내적(dot product) 연산과 topk 연산을 생략할 수 있습니다. GLM-5.2는 128K 시퀀스 길이의 중간 학습(mid-training) 단계부터 IndexShare로 학습되었으며, 더 적은 연산으로 장기 컨텍스트 벤치마크에서 GLM-5.1을 능가했습니다.

MTP와 추측 디코딩(Speculative Decoding) 개선

GLM-5.2는 추측 디코딩(speculative decoding)을 위한 MTP(Multi-Token Prediction) 레이어 도 개선했습니다. 목표는 두 가지였습니다. 첫째, 초안 모델(draft model)로서 MTP 레이어의 비용을 최소화하는 것, 둘째, 추측 디코딩의 수용률(acceptance rate)을 최대화하는 것입니다.

첫 번째 목표를 위해 MTP 레이어에도 IndexShare를 적용해, 첫 스텝에서 계산한 topk 인덱스를 이후 모든 스텝에서 재사용합니다. 흥미롭게도 이 구조는 GLM-5.1의 MTP 레이어에 존재하던 학습-추론 불일치(training-inference discrepancy) 를 제거하여 두 번째 목표인 수용률 향상에도 기여합니다. IndexShare를 사용하면 h_5 의 KV 캐시가 타깃 모델에서 계산된 kv_{1:4} 만 포함하게 되어, 학습과 추론 사이의 KV 캐시 구성 차이가 사라지기 때문입니다.

아래 표는 코딩 시나리오에서 각 기법이 수용 길이(acceptance length)에 미치는 영향을 보여줍니다. 기준선 대비 최종 MTP 레이어의 수용 길이가 20% 증가했습니다.

기법 수용 길이 (Acceptance Length)
Baseline 4.56
+ IndexShare + KV Share 5.10
+ Rejection Sampling 5.29
+ End-to-end TV Loss 5.47 (+20%)

1M 컨텍스트를 효율적으로 서빙하기

컨텍스트가 200K에서 1M으로 확장되면 코딩 워크로드는 자연스럽게 더 긴 프롬프트로 옮겨가고, 추론의 주요 병목은 연산에서 KV 캐시 용량, 장기 컨텍스트 커널 오버헤드, CPU 측 오버헤드로 이동합니다. IndexShare가 토큰당 연산량을 줄여주긴 하지만 토큰당 KV 캐시 크기를 비례해서 줄여주지는 않기 때문입니다.

Z.AI는 이 문제를 세 방향에서 최적화했습니다. 첫째, LayerSplit을 기반으로 더 세분화된 메모리 관리와 병렬화 전략을 도입해 KV 캐시 용량을 늘렸습니다. 둘째, 컨텍스트 길이에 따라 비용이 커지는 커널을 최적화하고 캐시 전송 파이프라인과 조율했습니다. 셋째, CPU 측 캐시 관리와 요청 스케줄링, 런타임 실행 경로를 최적화해 GPU 실행 파이프라인의 버블(bubble)을 줄였습니다. 그래프에서 보이듯, GLM-5.2는 컨텍스트 길이가 길어질수록 처리량(throughput) 우위가 점점 더 커지는 확장성을 보입니다.

slime으로 수행한 에이전틱 강화학습

GLM-5.2의 에이전틱 강화학습(Reinforcement Learning) 사후 학습은 더 큰 규모, 더 많은 도메인, 더 복잡한 실행 패턴의 과제를 다룹니다. 장기 상호작용, 도구 사용, 하위 과제 분해, 다중 턴 환경 피드백이 모두 롤아웃(rollout)과 학습 오케스트레이션에 높은 요구를 부과합니다.

이를 지원하는 것이 Z.AI가 자체 개발한 강화학습 프레임워크 slime입니다. slime은 학습부터 대규모 추론 롤아웃까지 아우르는 통합 인프라 계층으로, 화이트박스 롤아웃, 블랙박스 롤아웃, 컴팩트 궤적(compact trajectory), 하위 에이전트 워크플로우 등 여러 학습 및 과제 조직 방식을 지원합니다. GLM-5.2 사후 학습 과정에서 Z.AI는 slime으로 병렬 OPD 학습을 수행해 10개 이상의 전문가 모델(expert model)을 최종 모델로 병합했으며, 전체 OPD 학습이 약 이틀 만에 완료되었다고 밝혔습니다. slime의 자세한 내용은 PyTorchKR에 정리된 slime 소개 글에서도 확인할 수 있습니다.

장기 실행 과제를 위한 강화학습과 보상 해킹 방지

장기 실행 과제는 훨씬 긴 실행 궤적을 만들어내고, 초장기 궤적이 컴팩션(compaction)으로 여러 하위 궤적으로 분할되면 동일한 프롬프트에서도 롤아웃마다 학습 가능한 궤적의 수와 길이가 크게 달라집니다. Z.AI는 이 문제를 해결하기 위해 그룹 단위 최적화에서 크리틱 기반 PPO(Critic-based PPO) 로 전환했습니다. 그룹 상대 비교 대신 크리틱이 토큰 단위 어드밴티지(advantage)를 추정하는 이 단일 롤아웃 방식은, 하나의 프롬프트가 몇 개의 궤적을 만들든 제약을 두지 않아 컴팩션과 자연스럽게 맞물립니다.

특히 흥미로운 부분은 코딩 에이전트의 보상 해킹 방지(Anti-Hacking) 입니다. 코딩 강화학습은 보상이 보통 검증 가능한 통과/실패(pass/fail) 신호이기 때문에 보상 해킹에 매우 취약합니다. 에이전트가 보호된 평가 산출물을 읽거나, 참조나 상위 커밋에서 정답을 베끼거나, GitHub 관련 과제에서 정답 소스를 직접 내려받는 식의 꼼수가 가능하기 때문입니다. 예를 들어 다음과 같은 연쇄적 정보 유출이 발생할 수 있습니다.

1. find /workspace -name "*hidden*"
2. cat /workspace/.eval/secret_cases.json
3. python solve.py --case "$(cat /workspace/.eval/secret_cases.json)"

이런 행동은 보상을 부풀리면서도 모델의 근본적 능력은 전혀 개선하지 못한 채 학습 신호를 오염시킵니다. Z.AI는 이를 막기 위해 강화학습 학습과 평가 양쪽에 안티핵(anti-hack) 모듈을 도입했습니다. 탐지는 두 단계로 이뤄집니다. 먼저 규칙 기반 필터가 잠재적 꼼수를 최대한 폭넓게 잡아내어 재현율(recall)을 높이고, 이후 LLM 심판(judge)이 플래그된 행동의 의도를 검사해 정밀도(precision)를 유지합니다. 시스템은 각 단계의 도구 호출을 온라인으로 모니터링하다가 꼼수가 감지되면 해당 호출을 차단하고 더미 정보를 결과로 반환합니다. 중요한 점은, 이 온라인 가드가 꼼수 행동이 잡힌 뒤에도 모델이 롤아웃을 계속 이어가도록 허용한다는 것입니다. 궤적 전체를 거부하는 대신 특정 무효 행동만 처리함으로써, 롤아웃이 갑자기 중단될 때 발생할 수 있는 학습 불안정과 모델 붕괴(model collapse)를 예방합니다.

전체 벤치마크 요약

아래는 GLM-5.2를 GLM-5.1 및 주요 폐쇄형/오픈 모델과 비교한 대표 벤치마크입니다. 추론, 코딩, 에이전틱 영역에서 GLM-5.2가 오픈소스 진영의 선두에 있으며, 일부 항목에서는 프론티어 모델에 근접하거나 앞서는 것을 확인할 수 있습니다.

벤치마크 GLM-5.2 GLM-5.1 Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro
GPQA-Diamond 91.2 86.2 93.6 93.6 94.3
AIME 2026 99.2 95.3 95.7 98.3 98.2
SWE-bench Pro 62.1 58.4 69.2 58.6 54.2
Terminal-Bench 2.1 (Terminus-2) 81.0 63.5 85.0 84.0 74.0
FrontierSWE (Dominance) 74.4 30.5 75.1 72.6 39.6
PostTrainBench 34.3 20.1 37.2 28.4 21.6
SWE-Marathon 13.0 1.0 26.0 12.0 4.0
MCP-Atlas (Public Set) 76.8 71.8 77.8 75.3 69.2

GLM-5.2 시작하기

GLM-5.2는 다양한 경로로 사용할 수 있습니다.

GLM Coding Plan으로 사용하기: ZCode, Claude Code, OpenCode 등 즐겨 쓰는 코딩 에이전트에서 GLM-5.2를 쓸 수 있습니다. Coding Plan 구독자에게는 이미 GLM-5.2가 배포되어, 모델 이름을 "GLM-5.2"(또는 Claude Code에서 1M 컨텍스트를 활성화하려면 GLM-5.2[1m])로 바꾸면 바로 사용할 수 있습니다. 과제에 따라 High 또는 Max 사고 노력(thinking effort)을 선택할 수 있습니다. 가장 강력한 모델인 만큼 GLM-5.2는 피크 시간대(매일 14:00~18:00, UTC+9 기준 15:00~19:00)에 3배, 비피크 시간대에 2배의 쿼터를 소모하며, 9월 말까지 한시적 프로모션으로 비피크 사용은 1배로 과금됩니다.

Z.ai에서 채팅으로 사용하기: GLM-5.2는 Z.ai 채팅에서도 바로 사용할 수 있습니다.

로컬에서 서빙하기: 모델 가중치는 HuggingFaceModelScope에 공개되어 있습니다. 로컬 배포 시 transformers, vLLM, SGLang, xLLM, ktransformers 등의 추론 프레임워크를 지원합니다.

API로 호출하기: Z.AI API는 OpenAI 호환 인터페이스를 제공하며, 모델 이름은 glm-5.2입니다. reasoning_effort로 노력 수준을, thinking으로 사고 모드를 제어할 수 있습니다. 노력 수준은 highmax 두 단계이며, 값을 지정하지 않으면 기본값인 max로 동작합니다. 사고 모드는 enable_thinking=false로 완전히 끌 수 있습니다.

from openai import OpenAI

client = OpenAI(
    api_key="your-Z.AI-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)

completion = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "system", "content": "You are a senior full-stack software engineer."},
        {"role": "user", "content": "Design and build a personal blog website using React + Node.js."},
    ],
)

print(completion.choices[0].message.content)

라이선스

GLM-5.2는 MIT License로 배포되고 있어, 연구 목적은 물론 상업적 용도로도 자유롭게 사용 및 수정이 가능하며 지역 제한도 없습니다.

:newspaper: GLM-5.2 소개 블로그

https://z.ai/blog/glm-5.2

:scroll: GLM-5 기술 보고서

:github: GLM-5 GitHub 저장소

:hugs: GLM-5.2 HuggingFace 모델

:books: GLM-5.2 API 문서

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다!
텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :smiley:

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: