Artificial Analysis가 공개한 코딩 에이전트 벤치마크: 모델 + 하네스의 조합으로 평가한 벤치마크 결과

Artificial Analysis 코딩 에이전트 벤치마크 소개

AI 코딩 에이전트는 이제 단순히 "어느 모델이 더 좋은가"라는 질문만으로 비교하기 어려운 단계에 접어들었습니다. 동일한 Claude Opus 4.7 모델을 쓰더라도 Claude Code로 구동할 때와 Cursor CLI로 구동할 때, 또는 OpenCode와 같은 다른 하네스(harness)로 실행할 때 결과가 달라지고, 같은 하네스라도 모델을 GPT-5.5GLM-5.1, Kimi K2.6, DeepSeek V4 Pro로 바꾸면 비용과 속도, 성능이 모두 변합니다. 결국 "에이전트 + 모델 + 설정"이라는 조합 단위로 측정해야 실제 사용자가 마주하는 경험을 가늠할 수 있다는 뜻입니다.

이러한 맥락에서 Artificial Analysis가 새로 공개한 Coding Agent Index 는, 모델만 비교하던 기존 벤치마크와 결을 달리하는 시도입니다. 단일 모델이 아닌 "에이전트 변형(agent variant)"을 단위로 두고, 실제 코드 변경 작업과 터미널 워크플로우, 그리고 저장소 이해 능력을 한 번에 측정합니다. 측정 대상은 SWE-Bench-Pro-Hard-AA 150문항, Terminal-Bench v2 84문항, SWE-Atlas-QnA 124문항으로 구성된 3종 벤치마크 묶음이며, 각 벤치마크당 3회 반복 측정한 평균 pass@1을 단순 평균해 종합 지수(Index)를 만듭니다.

이 글에서는 Artificial Analysis가 공개한 13종의 에이전트 변형을 종합 지수, 벤치마크별 세부 점수, 토큰 사용량과 비용, 실행 시간 측면에서 살펴봅니다. 동일 모델을 서로 다른 하네스에서 돌렸을 때 나타나는 차이, 그리고 점수와 비용의 상관관계가 약하다는 흥미로운 패턴까지 함께 정리합니다. 코딩 에이전트를 도입하거나 비교 평가 중인 분이라면, 단순한 "1등이 누구인가"보다 "내 워크플로우에는 어떤 조합이 맞는가"라는 관점에서 읽어보시는 것을 권합니다.

무엇을 어떻게 측정했는가: 3종 벤치마크 묶음

평가에 사용된 세 가지 벤치마크

Coding Agent Index는 서로 성격이 다른 세 벤치마크를 합산하여 만든 합성 지표입니다. 단일 벤치마크가 코딩 에이전트의 모든 측면을 대변하지 못한다는 인식에서 출발해, 구현·터미널·저장소 이해라는 세 축을 한 번에 보려는 의도입니다.

  • SWE-Bench-Pro-Hard-AA (150문항, 3회 반복): Scale AI가 만든 코드 패치 생성 벤치마크입니다. 실제 저장소에서 이슈를 읽고 코드를 수정해 테스트 스위트를 통과시키는 형태로, 고전적인 "make-a-patch-that-works" 평가 방식의 가장 어려운 분할입니다. 채점은 이진(pass/fail) pass@1로 이루어집니다.
  • Terminal-Bench v2 (84문항, 3회 반복): Laude Institute가 운영하는 터미널 워크플로우 벤치마크입니다. 셸 환경에서 다단계 명령을 실행해 과제를 완료하는 능력을 측정하며, 본래 89문항 중 환경 호환성 문제가 있는 5문항이 제외되었습니다.
  • SWE-Atlas-QnA (124문항, 3회 반복): 저장소를 읽고 동작과 아키텍처를 추적해 기술적 질문에 답하는 Q&A 평가입니다. 채점이 이진이 아닌 루브릭 기반 부분 점수 방식이라, 어려운 문제에서 일부 진척한 정도까지 점수에 반영됩니다.

각 벤치마크에서 산출한 pass@1 점수를 단순 평균한 값이 종합 지수입니다. 즉 Artificial Analysis는 가중치 조작 없이 "세 평가가 본질적으로 다른 능력을 측정하므로 동등하게 본다" 는 입장을 명시했습니다. 자세한 산정 방식은 공식 Coding Agent Index Methodology 문서에 정리되어 있습니다.

비교 단위는 "모델"이 아니라 "에이전트 변형"

이 벤치마크에서 중요한 점은 비교 단위가 에이전트 변형(agent variant) 이라는 사실입니다. 같은 모델이라도 어떤 하네스에서 어떤 설정으로 실행했는지에 따라 결과가 달라지므로, Artificial Analysis는 "하네스 + 모델 + 추론 설정" 조합을 한 행(row)으로 처리합니다. 예를 들어 Claude Opus 4.7은 Claude Code 하네스에서도 측정되고 Cursor CLI 하네스에서도 별도 변형으로 측정됩니다.

추론 강도는 별도 명시가 없으면 각 에이전트의 기본값(Medium 등)을 사용해, "기본 사용자 경험을 반영" 한다는 원칙도 함께 적시되어 있습니다. 따라서 동일 모델의 reasoning effort를 high로 끌어올린 별도 변형이 존재할 수 있고, 이는 Gemini 3.1 Pro 행에 (High) 표기가 붙는 식으로 드러납니다.

종합 지수 순위: Cursor CLI + Opus 4.7이 1위, 상위권은 박빙

전체 13개 변형의 종합 지수를 정렬하면 다음과 같습니다. 상위권은 0.59 ~ 0.61 구간에 몰려 있어, 1위와 3위의 차이는 1.3%p에 불과합니다.

순위 에이전트 변형 종합 지수
1 Cursor CLI - Opus 4.7 (Medium) 0.612
2 Codex - GPT-5.5 (Medium) 0.604
3 Claude Code - Opus 4.7 (Medium) 0.599
4 Cursor CLI - GPT-5.5 (Medium) 0.578
5 Codex - GPT-5.4 (Medium) 0.536
6 Claude Code - GLM-5.1 0.527
7 Cursor CLI - GPT-5.4 (Medium) 0.522
8 Claude Code - Opus 4.6 (Medium) 0.513
9 Claude Code - Kimi K2.6 0.505
10 Claude Code - DeepSeek V4 Pro (High) 0.501
11 Claude Code - Sonnet 4.6 (Medium) 0.494
12 Cursor CLI - Composer 2 0.485
13 Gemini CLI - Gemini 3.1 Pro (High) 0.430

종합 지수 1위는 Cursor CLI 하네스에서 Claude Opus 4.7 모델을 돌린 조합으로, 0.612점을 기록했습니다. 흥미로운 점은 Anthropic이 자체 개발한 Claude Code 하네스에서 같은 모델을 돌렸을 때(0.599)보다 Cursor의 하네스에서 더 높은 점수가 나왔다는 사실입니다. 같은 모델, 같은 추론 강도(Medium)에서 1.3%p 차이가 발생한 셈입니다.

2위는 OpenAI Codex에 신모델 GPT-5.5를 결합한 변형(0.604)이고, 3위는 Claude Code + Opus 4.7(0.599)입니다. 4위인 Cursor CLI + GPT-5.5(0.578)부터는 상위 세 변형과 어느 정도 격차가 벌어지며, Google의 Gemini CLIGemini 3.1 Pro를 결합한 13위 변형(0.430)이 최하위로 측정되었습니다.

벤치마크별 세부 점수: 강점이 서로 다르다

종합 지수만 보면 비슷해 보이는 변형들도, 벤치마크별로 들여다보면 강점 분포가 꽤 다릅니다. 세 가지 벤치마크 모두에서 일관된 1등은 존재하지 않습니다.

에이전트 변형 SWE-Atlas-QnA SWE-Bench-Pro-Hard Terminal-Bench v2
Cursor CLI - Opus 4.7 0.784 0.344 0.706
Codex - GPT-5.5 0.791 0.262 0.758
Claude Code - Opus 4.7 0.717 0.364 0.714
Cursor CLI - GPT-5.5 0.750 0.249 0.734
Codex - GPT-5.4 0.724 0.184 0.698
Claude Code - GLM-5.1 0.732 0.198 0.651
Cursor CLI - GPT-5.4 0.729 0.189 0.647
Claude Code - Opus 4.6 0.719 0.118 0.702
Claude Code - Kimi K2.6 0.598 0.273 0.643
Claude Code - DeepSeek V4 Pro 0.678 0.180 0.647
Claude Code - Sonnet 4.6 0.703 0.149 0.631
Cursor CLI - Composer 2 0.689 0.122 0.643
Gemini CLI - Gemini 3.1 Pro 0.456 0.151 0.683

저장소 Q&A에서는 GPT-5.5가 최강

SWE-Atlas-QnA는 저장소를 읽고 동작이나 아키텍처를 설명하는 능력을 보는 평가입니다. 이 영역에서는 Codex + GPT-5.5 조합(0.791)이 가장 높았고, Cursor CLI + Opus 4.7(0.784)이 그 뒤를 바짝 쫓습니다. 흥미로운 점은 Claude Code에서 Opus 4.7을 돌린 경우(0.717)가 Cursor CLI 하네스보다 6.7%p 낮게 측정되었다는 점인데, 동일 모델임에도 하네스의 코드 탐색·요약 전략 차이가 저장소 이해 점수에 직접 영향을 준 것으로 볼 수 있습니다.

코드 패치 생성에서는 Opus 4.7의 강세

가장 어려운 평가인 SWE-Bench-Pro-Hard-AA에서는 전반적으로 점수가 낮습니다. 1위인 Claude Code + Opus 4.7도 0.364에 머물고, Cursor CLI + Opus 4.7이 0.344로 2위, Claude Code + Kimi K2.6이 0.273으로 3위입니다. GPT-5.5 변형은 Codex(0.262), Cursor CLI(0.249) 모두 Opus 4.7 변형보다 한 단계 낮게 측정되어, 실제 코드 패치 생성 영역에서는 여전히 Anthropic의 Claude 모델 계열이 우위를 보입니다.

터미널 워크플로우는 Codex의 압승

Terminal-Bench v2에서는 Codex + GPT-5.5 조합이 0.758로 가장 높습니다. 셸 환경에서 다단계 명령을 안정적으로 실행하는 능력은 OpenAI 하네스 + 신모델 조합이 가장 잘 처리하는 영역으로 나타났습니다. 그 다음은 Cursor CLI + GPT-5.5(0.734), Claude Code + Opus 4.7(0.714), Cursor CLI + Opus 4.7(0.706) 순입니다. 흥미롭게도 종합 최하위였던 Gemini CLI + Gemini 3.1 Pro도 터미널 영역에서는 0.683으로 중상위권에 진입해, 다른 두 영역의 약세가 종합 지수를 끌어내린 구조임을 알 수 있습니다.

빛과 그림자: 점수, 비용, 시간의 어긋난 삼각관계

코딩 에이전트를 실무에서 도입할 때 가장 큰 고민은 "성능이 높은 변형이 그만큼 더 비싸고 느린가" 라는 질문입니다. Coding Agent Index의 효율 지표(평균 비용, 평균 실행 시간, 평균 토큰 사용량)를 종합 지수와 함께 보면, 흔히 기대하는 단순한 비례 관계는 성립하지 않습니다.

비용 분포: 0.07달러부터 2.26달러까지 30배 차이

각 변형이 벤치마크 1문항당 평균적으로 청구되는 API 비용은 큰 폭의 차이를 보입니다.

에이전트 변형 종합 지수 평균 비용(USD/task)
Cursor CLI - Composer 2 0.485 $0.07
Claude Code - DeepSeek V4 Pro 0.501 $0.35
Claude Code - Kimi K2.6 0.505 $0.76
Claude Code - Sonnet 4.6 0.494 $1.02
Claude Code - Opus 4.7 0.599 $1.24
Claude Code - Opus 4.6 0.513 $1.27
Cursor CLI - Opus 4.7 0.612 $1.47
Cursor CLI - GPT-5.4 0.522 $1.53
Gemini CLI - Gemini 3.1 Pro 0.430 $1.60
Cursor CLI - GPT-5.5 0.578 $1.61
Codex - GPT-5.4 0.536 $2.09
Codex - GPT-5.5 0.604 $2.21
Claude Code - GLM-5.1 0.527 $2.26

가장 저렴한 Cursor의 자체 모델 Composer 2는 작업당 7센트로, 종합 1위인 Cursor CLI + Opus 4.7(1.47달러)의 약 21분의 1입니다. 한편 가장 비싼 Claude Code + GLM-5.1 조합은 2.26달러로 종합 6위(0.527)에 그쳐, 비용을 더 쓴다고 해서 비례해 점수가 오르는 것은 아니라는 점 을 잘 보여줍니다. 종합 1위 Cursor CLI + Opus 4.7도 1.47달러로, 2위 Codex + GPT-5.5(2.21달러)보다 33% 저렴하면서 점수는 더 높습니다.

특히 눈에 띄는 변형은 Claude Code + DeepSeek V4 Pro로, 작업당 35센트라는 매우 낮은 비용에도 0.501의 종합 점수를 기록해 가성비 측면에서 가장 매력적인 조합 중 하나로 평가됩니다. "점수는 더 높지만 비용은 더 비싼" 변형이 흔하지 않고, 효율 곡선이 모델·하네스 조합마다 크게 다르다는 점을 시사합니다.

실행 시간: 가장 빠른 변형과 가장 느린 변형은 7배 차이

작업 1건당 에이전트가 실제로 동작한 시간(wall-clock)도 비용만큼 큰 분산을 보입니다.

에이전트 변형 종합 지수 평균 실행 시간(초) 평균 단계 수
Claude Code - Opus 4.7 0.599 349 35.4
Cursor CLI - GPT-5.5 0.578 373 69.5
Codex - GPT-5.4 0.536 413 69.6
Claude Code - Opus 4.6 0.513 417 38.0
Codex - GPT-5.5 0.604 424 73.4
Cursor CLI - GPT-5.4 0.522 454 36.1
Gemini CLI - Gemini 3.1 Pro 0.430 456 44.4
Cursor CLI - Opus 4.7 0.612 467 60.7
Cursor CLI - Composer 2 0.485 521 44.2
Claude Code - Sonnet 4.6 0.494 555 47.4
Claude Code - DeepSeek V4 Pro 0.501 1,080 101.1
Claude Code - GLM-5.1 0.527 1,296 98.7
Claude Code - Kimi K2.6 0.505 2,491 111.2

가장 빠른 Claude Code + Opus 4.7(349초)과 가장 느린 Claude Code + Kimi K2.6(2,491초)는 7배 이상 차이가 납니다. Kimi K2.6 변형은 작업당 평균 111단계까지 가는 긴 워크플로우를 그리는데도 종합 점수는 0.505에 그쳐, 단계가 많다고 해서 점수가 비례해 올라가지는 않는다는 점을 보여줍니다.

종합 1위 Cursor CLI + Opus 4.7은 467초로 중상위권에 속하지만, 같은 모델을 쓰는 Claude Code + Opus 4.7은 349초로 가장 빠릅니다. 즉 Cursor CLI가 점수에서는 앞서지만, 실행 시간에서는 Claude Code 하네스가 우세 합니다. 하네스마다 도구 호출 패턴과 컨텍스트 관리 전략이 다르기에 같은 모델이어도 시간 프로필이 달라지는 셈입니다.

토큰 사용량과 캐시 활용도

작업당 평균 토큰 사용량(입력 + 캐시 + 출력)과 캐시 히트율도 큰 차이를 보입니다. 캐시 히트율이 높을수록 동일한 입력 토큰을 더 낮은 비용으로 처리할 수 있어, 표시 비용을 실제 사용자가 부담하는 비용으로 환산할 때 핵심 변수로 작용합니다.

  • Claude Code - Opus 4.7: 총 약 167만 토큰, 캐시 히트율 96.2%
  • Cursor CLI - Opus 4.7: 총 약 145만 토큰, 캐시 히트율 96.2%
  • Codex - GPT-5.5: 총 약 275만 토큰, 캐시 히트율 94.9%
  • Claude Code - GLM-5.1: 총 약 480만 토큰, 캐시 히트율 83.7%
  • Claude Code - DeepSeek V4 Pro: 총 약 345만 토큰, 캐시 히트율 79.8%
  • Cursor CLI - GPT-5.4: 총 약 200만 토큰, 캐시 히트율 85.3%

Anthropic 모델 계열이 캐시 히트율 96%대로 가장 높고, DeepSeek V4 Pro와 Composer 2 같은 일부 변형은 80% 안팎에 머무릅니다. Artificial Analysis 측은 "프롬프트 캐시 상태가 백엔드 복제본 간에 일관되게 공유되지 않으면 캐시 히트율이 떨어질 수 있으며, 우리는 캐시 친화 라우팅 헤더를 인위적으로 추가하지 않는다" 고 명시했습니다. 즉 캐시 히트율은 모델뿐 아니라 제공자의 라우팅 정책에도 영향을 받는다는 뜻입니다.

동일 모델, 다른 하네스: 같은 Opus 4.7도 점수가 다르다

이 벤치마크에서 가장 흥미로운 단면은 동일 모델을 서로 다른 하네스에서 돌렸을 때 나타나는 점수 차이 입니다. Claude Opus 4.7 행만 따로 추리면 다음과 같습니다.

하네스 종합 지수 SWE-Atlas-QnA SWE-Bench-Pro-Hard Terminal-Bench v2 비용 실행 시간
Cursor CLI 0.612 0.784 0.344 0.706 $1.47 467s
Claude Code 0.599 0.717 0.364 0.714 $1.24 349s

같은 모델, 같은 추론 강도(Medium)임에도 종합 지수는 Cursor CLI가 1.3%p 앞섭니다. 세부적으로는 Cursor CLI가 저장소 Q&A에서 강하고, Claude Code가 코드 패치 생성과 터미널 워크플로우에서 강한 그림이 나옵니다. 비용은 Claude Code가 약 15% 저렴하고 실행 시간도 25% 빠릅니다.

비슷한 비교가 GPT-5.5에도 가능합니다.

하네스 종합 지수 비용 실행 시간
Codex 0.604 $2.21 424s
Cursor CLI 0.578 $1.61 373s

GPT-5.5의 경우 OpenAI Codex 하네스가 점수에서 2.6%p 앞서지만 비용이 37% 더 비싸고 실행 시간도 약간 더 깁니다. 즉 "내장 하네스가 항상 최선의 선택은 아니다" 라는 사실이 두 사례 모두에서 드러납니다. 모델 제공자의 공식 하네스가 모델의 특정 행동 패턴을 가장 잘 활용한다고 가정하기 쉽지만, 실제 벤치마크 결과는 그 가정이 항상 성립하지는 않음을 보여줍니다.

가성비 관점에서 본 상위 조합

종합 지수와 비용을 함께 보면, "비용 대비 가장 효율적인 조합" 을 가려낼 수 있습니다. 점수가 1순위가 아니더라도 비용을 크게 절약하는 변형은 실무 도입 후보로 고려해볼 만합니다.

  • 최저 비용 도전자: Cursor CLI + Composer 2는 작업당 7센트에 종합 0.485를 기록합니다. 종합 1위(0.612)와 12.7%p 격차이지만 비용은 1/21에 불과해, 단순 작업이나 대량 배치 처리에서 매우 유리합니다.
  • 저비용 강자: Claude Code + DeepSeek V4 Pro는 35센트에 0.501을 기록합니다. 같은 가격대에서 점수가 가장 높은 변형으로, 비용 민감 환경에서 매력적인 선택지가 됩니다.
  • 밸런스형: Claude Code + Opus 4.7은 1.24달러에 0.599로, 점수와 비용의 균형이 가장 잘 맞춰진 변형입니다. 종합 1위 Cursor CLI + Opus 4.7보다 16% 저렴하면서 점수 격차는 1.3%p에 불과합니다.
  • 최고 점수 추구: 점수 자체가 가장 중요하다면 Cursor CLI + Opus 4.7(0.612, $1.47)이 1순위이며, 터미널·저장소 Q&A 중심 작업이라면 Codex + GPT-5.5(0.604, $2.21)도 유력합니다.

종합 지수만으로 결론을 내리지 말아야 하는 이유

Artificial Analysis는 FAQ에서 "높은 지수 점수가 모든 워크플로우에서 그 에이전트가 최선이라는 뜻은 아니다" 라고 분명히 못박았습니다. 종합 지수는 세 벤치마크의 단순 평균이고, 실제 사용자가 마주하는 작업이 저장소 Q&A 중심인지, 패치 작성 중심인지, 터미널 실행 중심인지에 따라 최적의 변형은 달라집니다.

또한 이 벤치마크는 사용자 구독 요금제 가 아닌 pay-per-token API 가격 을 기준으로 비용을 계산합니다. 많은 사용자가 Claude Pro/Max, ChatGPT Plus/Pro, Cursor Pro 등 정액 구독으로 코딩 에이전트를 사용하므로, 체감 비용은 API 가격 기반 표와 크게 다를 수 있습니다. 실행 시간 역시 모델 지연 자체가 아니라 도구 호출, 파일 입출력, 셸 단계까지 포함한 전체 에이전트 워크타임이라는 점도 유의해야 합니다.

마지막으로 벤치마크 방법론은 지속적으로 진화 합니다. Artificial Analysis는 "커버리지가 개선되면서 산정 방식이 바뀔 수 있으므로, 공개된 벤치마크 묶음과 현재 구성 요소 안에서 비교하는 것이 가장 안전하다" 고 권고합니다. 다른 시점에 게시된 별개 지수와 절대 점수를 직접 비교하는 것은 적절하지 않다는 의미입니다.

시사점: 코딩 에이전트 선택 시 점검할 세 가지 축

이 벤치마크가 한국의 AI 개발자와 도구 도입 결정권자에게 주는 시사점을 세 가지로 정리하면 다음과 같습니다.

첫째, "모델만 결정해서는 안 된다" 는 점입니다. 같은 Opus 4.7도 Claude Code와 Cursor CLI에서 점수, 비용, 실행 시간이 모두 다릅니다. 도입 평가 시에는 적어도 두 개 이상의 하네스에서 동일 작업으로 시범 실행해보고, 자신의 워크플로우에 맞는 조합을 골라야 합니다.

둘째, 작업 유형 우선순위를 분명히 해야 합니다. 코드를 직접 수정하는 비중이 크다면 SWE-Bench-Pro-Hard 점수가 높은 변형(Claude Code + Opus 4.7, Cursor CLI + Opus 4.7)을 우선 고려하고, 저장소 이해와 설명 비중이 크다면 SWE-Atlas-QnA에서 강한 Codex + GPT-5.5 또는 Cursor CLI + Opus 4.7이, 터미널 자동화 비중이 크다면 Codex + GPT-5.5가 유리합니다.

셋째, 비용 곡선을 직접 확인 해야 합니다. API 토큰 기반 비용은 캐시 히트율, 단계 수, 토큰 사용량에 따라 30배 가까이 벌어집니다. 자사가 사용하는 구독 모델, 평균 작업 길이, 캐시 라우팅 정책을 함께 고려해 공식 발표 비용표가 아닌 실제 사용 패턴 기반의 추정 으로 비교하는 것이 필요합니다.

Artificial Analysis는 측정 결과를 공개 페이지에서 인터랙티브 차트로 제공하며, 일반 작업(General Work), 챗봇(Chatbots), 프레젠테이션(Presentations), OCR, 데이터 분석(Data Analysis), 고객 지원(Customer Support) 등 다른 에이전트 카테고리도 같은 틀로 확장하고 있습니다. 코딩 에이전트가 활발히 진화하는 만큼 이 지수도 새로운 모델·하네스·벤치마크가 추가될 때마다 갱신될 예정입니다.

:scroll: Artificial Analysis Coding Agent Benchmarks 페이지

:scroll: Coding Agent Index Methodology

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: