Anthropic, 에이전트 스킬의 테스트, 측정 및 개선의 자동화를 지원하도록 skill-creator 플러그인 개선

9bow · 3월 7, 2026, 8:30오전

`skill-creator` 소개

skill-creator는 Claude가 특정 작업을 수행하도록 돕는 에이전트 스킬(Agent Skills)을 코드 작성 없이 쉽게 평가하고 테스트하며 개선할 수 있도록 지원하는 전문 도구입니다. 2025년 10월 에이전트 스킬이 처음 출시된 이후, 이를 작성하는 주된 사용자는 전문 엔지니어가 아닌 특정 도메인의 전문가(Subject Matter Expert)들이었습니다. 이들은 자신만의 업무 워크플로를 깊이 이해하고 있지만, 새로운 AI 모델이 출시되었을 때 기존 스킬이 정상적으로 작동하는지, 적절한 시점에 실행되는지, 혹은 스킬 내용을 수정한 후 실제로 성능이 향상되었는지를 명확히 검증할 도구가 부족했습니다.

이번에 새롭게 업데이트된 skill-creator는 이러한 현장의 문제를 해결하기 위해 소프트웨어 개발에서 널리 사용되는 엄격한 테스트, 벤치마킹, 반복 개선 등의 방법론을 코딩 지식 없이도 활용할 수 있게 해줍니다. 사용자는 이제 이 도구를 통해 자체적인 평가(Evals) 항목을 작성하고 벤치마크를 실행하여 모델이 진화하더라도 스킬이 안정적으로 작동하도록 유지할 수 있습니다.

현재 이 강력한 기능들은 Claude.ai와 Cowork 플랫폼, 그리고 Claude Code의 플러그인 형태로 즉시 제공되며 공식 저장소(Repo)에서도 다운로드하여 사용할 수 있습니다. 이를 통해 스킬 작성자들은 자신이 만든 스킬이 단순히 '작동하는 것 같다'는 추측을 넘어, '실제로 완벽하게 작동한다'는 확신을 가지고 개발에 임할 수 있게 되었습니다.

2종류의 스킬: 기능 향상 스킬 vs. 인코딩된 기본 설정 스킬 비교

Claude의 스킬(Skill)은 그 목적과 특성에 따라 크게 '기능 향상 스킬(Capability uplift skills)'과 '인코딩된 기본 설정 스킬(Encoded preference skills)'의 두 가지로 나뉩니다. 이 두 유형은 각기 다른 이유로 테스트와 평가가 필요합니다.

기능 향상 스킬(Capability uplift skills) 은 기본 모델이 수행하지 못하거나 일관되게 처리하지 못하는 작업을 돕기 위해 만들어집니다. 특정 문서 작성 기술이나 패턴을 인코딩하여 프롬프트 단독 사용 시보다 훨씬 더 나은 결과물을 도출하는 것이 특징입니다. 이 스킬은 향후 AI 모델 자체의 역량이 발전함에 따라 점차 필요성이 줄어들 수 있으며, 평가는 기본 모델이 스킬의 영역을 넘어선 시점이 언제인지 파악하는 데 중요한 역할을 합니다.

인코딩된 기본 설정 스킬(Encoded preference skills) 은 Claude가 이미 개별 작업을 수행할 수 있지만, 이를 특정 팀의 고유한 프로세스나 기준에 맞춰 순차적으로 실행하도록 워크플로를 문서화한 것입니다. 엄격한 기준에 따른 NDA 검토 스킬이나 다양한 MCP(Model Context Protocol) 데이터를 활용한 주간 업데이트 작성 스킬이 여기에 해당합니다. 이 스킬은 상대적으로 생명력이 길지만, 실제 워크플로를 얼마나 정확하게 반영(Fidelity)하느냐가 가치를 결정하므로 평가는 이러한 충실도를 엄격히 검증하는 용도로 사용됩니다.

어느 유형이든 평가를 거치면 단순히 '작동하는 것처럼 보이는 스킬'에서 '작동이 검증된 스킬'로 전환됩니다.

`skill-creator`의 주요한 개선 내용

평가(Evals) 기능을 통한 스킬 테스트 및 품질 유지

새로운 skill-creator는 사용자가 예상하는 대로 Claude가 정확히 작동하는지 확인하는 테스트인 평가(Evals)를 직접 작성할 수 있도록 돕습니다. 소프트웨어 테스트를 작성해 본 경험이 있다면 매우 친숙하게 느껴질 것입니다. 테스트용 프롬프트와 필요한 파일을 정의하고 성공적인 결과물이 무엇인지 설명하면, Skill-creator가 스킬의 유지 여부를 분석하여 알려줍니다.

실제 사례로, 이전에 입력 불가능한 PDF 양식에서 텍스트 좌표 지정에 어려움을 겪었던 스킬의 경우, 평가를 통해 실패 원인을 정확히 격리하고 추출된 텍스트 좌표에 위치를 고정하는 수정안을 신속하게 배포할 수 있었습니다. 특히 평가는 모델이나 인프라 변경 시 발생할 수 있는 품질 저하(Regression)를 조기에 포착하고, 기본 모델의 성능 향상으로 인해 스킬이 더 이상 필요하지 않게 된 시점을 파악하는 데 매우 유용합니다.

벤치마크 모드 (Benchmark Mode) 및 핵심 지표 추적

또한, skill-creator에는 모델이 새롭게 업데이트되거나 스킬 자체를 반복적으로 개선할 때 유용하게 사용할 수 있는 벤치마크 모드(Benchmark Mode)도 추가되었습니다. 이 모드는 사용자가 사전에 작성한 평가 항목을 바탕으로 시스템의 표준화된 평가를 자동으로 실행합니다.

단순히 통과 여부만 알려주는 것을 넘어 평가 통과율(Pass rate), 경과 시간(Elapsed time), 토큰 사용량(Token usage) 등의 상세한 성능 지표를 추적합니다. 생성된 평가와 결과 데이터는 사용자의 로컬 환경에 안전하게 저장하거나, 팀의 대시보드와 연동하고 기존의 CI(지속적 통합) 시스템에 플러그인 형태로 통합하여 지속적으로 모니터링할 수 있습니다.

멀티 에이전트(Multi-Agent) 기반의 빠르고 일관된 병렬 평가

순차적으로 평가를 실행할 경우 전체 속도가 느려지고, 이전 테스트의 컨텍스트가 다음 테스트에 영향을 미쳐 결과가 오염(Bleed)되는 문제가 발생할 수 있습니다. 이를 근본적으로 해결하기 위해 skill-creator는 독립적인 에이전트들을 가동하여 '다중 에이전트(Multi-agent)' 환경에서 평가를 병렬로 실행합니다.

각 에이전트는 완전히 독립된 청정 컨텍스트와 자체 토큰 및 타이밍 메트릭을 가지므로 상호 오염 없는 빠르고 정확한 결과를 제공합니다. 또한, 두 가지 스킬 버전을 비교하거나 스킬 적용 유무를 대조하는 비교 에이전트(Comparator agents)가 새롭게 도입되었습니다. 이 에이전트들은 조건이 무엇인지 모르는 블라인드 상태에서 출력물을 판정하므로, 실제 변경 사항이 효과가 있었는지 객관적인 A/B 테스트가 가능합니다.

정확한 스킬 실행(Triggering)을 위한 설명 튜닝 기능

스킬의 출력 품질이 아무리 훌륭하더라도 적절한 타이밍에 실행(Trigger)되지 않으면 실질적인 가치가 없습니다. 등록된 스킬의 수가 늘어날수록 설명의 정밀도는 매우 중요해집니다. 설명이 너무 포괄적이면 원치 않는 상황에서 실행(False triggers)되고, 너무 제한적이면 필요한 순간에 전혀 작동하지 않습니다.

skill-creator는 샘플 프롬프트와 현재의 스킬 설명을 심층적으로 분석하여, 오탐지(False positives)와 미탐지(False negatives)를 모두 획기적으로 줄일 수 있는 최적의 설명 수정안을 제안합니다. Anthropic의 내부 테스트 결과, 이 기능을 적용한 6개의 공개 문서 생성 스킬 중 5개에서 트리거링 성능이 실질적으로 향상되는 긍정적인 결과를 얻었습니다.

스펙과 스킬의 경계가 융합되는 미래 전망

현재 에이전트 스킬의 SKILL.md 파일은 Claude에게 특정 작업을 수행하는 방법을 아주 상세히 지시하는 일종의 '구현 계획서(Implementation plan)' 역할을 하고 있습니다. 하지만 AI 모델이 지속적으로 발전함에 따라 "스킬(Skill)"과 "명세(Specification)" 사이의 경계가 점차 모호해질 것으로 전망됩니다.

장기적으로는 스킬이 수행해야 할 작업에 대한 자연어 형태의 설명(What)만으로도 모델이 스스로 나머지 구현 방식(How)을 파악하여 완벽하게 처리하게 될 것입니다. 이번에 출시된 평가(Eval) 프레임워크는 단순히 결과를 측정하는 도구를 넘어, 궁극적으로 자연어 평가 항목의 설명 자체가 하나의 스킬로 작동하는 지능형 워크플로의 미래를 향한 중요한 디딤돌입니다.

`skill-creator` 플러그인 설치 및 업데이트

skill-creator 는 Anthropic의 플러그인 디렉토리 저장소(anthropic/claude-plugins-official)를 통해 제공됩니다. Claude Code 사용자는 다음과 같은 명령어를 사용하여 설치할 수 있습니다:

# CLI에서 바로 설치
claude plugin marketplace add anthropics/claude-plugins-official   # Marketplace 추가
claude plugin install skill-creator@claude-plugins-official        # skill-creator 설치

# Claude Code 내에서 설치
/plugin marketplace add anthropics/claude-plugins-official         # Marketplace 추가
/plugin install skill-creator@claude-plugins-official              # skill-creator 설치

Anthropic의 `skill-creator` 업데이트 공지 블로그

Anthropic의 플러그인 디렉토리 저장소(`anthropic/claude-plugins-official`)

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~