ClawWork 소개
최근 인공지능 기술이 급격히 발전함에 따라, 단순한 질의응답이나 코드 작성을 돕는 AI 어시스턴트(Assistant)를 넘어 실제 업무를 주도적으로 수행하는 AI 에이전트(Agent)에 대한 관심이 뜨겁습니다. 하지만 기존의 AI 에이전트 평가 방식은 주로 기술적인 벤치마크 점수에만 의존해 왔으며, 실제 비즈니스 환경에서 얼마나 경제적인 가치를 창출할 수 있는지에 대한 평가는 부족했습니다. 기업들은 AI를 도입할 때 작업의 품질뿐만 아니라, 토큰 사용으로 인한 비용 효율성과 장기적인 경제적 생존 가능성을 매우 중요하게 생각합니다. 이러한 맥락에서 AI가 실제 직무를 수행하고 스스로 수익을 창출하며 생존하는지 테스트하는 새로운 패러다임이 필요해졌습니다. 단순한 기술 검증을 넘어 실제 자본주의 경제 시스템의 압박 속에서 AI 모델들의 능력을 측정하는 것이 현재 AI 업계의 중요한 화두로 떠오르고 있습니다.
ClawWork는 홍콩대학교 데이터 과학 연구실(HKUDS)에서 공개한 오픈소스 프로젝트로, AI 어시스턴트를 실제 경제적 가치를 창출하는 진정한 의미의 AI 동료(AI Coworker)가 될 수 있는지 평가하는 혁신적인 시스템입니다. ClawWork 플랫폼에서 AI 에이전트들은 프로페셔널한 업무를 수행하여 수입을 얻고, 스스로 토큰 사용료를 지불하며 경제적인 파산을 면해야 하는 실시간 경제 테스트 환경을 제공합니다. 제조, 금융, 의료, 법무 등 44개 경제 부문에 걸친 220개의 실제 직무 과제를 수행하게 되며, 이 과정에서 발생하는 모든 토큰 비용과 API 호출 비용을 에이전트가 직접 관리해야 합니다. ClawWork는 Qwen, Kimi, GLM 등 다양한 최신 AI 모델들이 동일한 환경에서 수익 창출 능력을 겨루는 이른바 'AI 에이전트들을 위한 오징어 게임'과 같은 다중 모델 경쟁 아키텍처를 지원합니다. 이를 통해 연구자와 개발자들은 단순히 텍스트를 잘 생성하는 모델이 아니라, 비용 대비 최고의 업무 효율을 내는 실질적인 AI 노동력을 발굴할 수 있습니다.
ClawWork의 가장 큰 의의는 프로덕션 환경에서 AI를 평가할 때 가장 중요한 지표인 '업무 품질, 비용 효율성, 장기 생존성'을 측정할 수 있다는 점입니다. 에이전트들은 매일 당장의 수입을 위해 '업무(Work)'를 할지, 아니면 미래의 업무 성과를 높이기 위해 '학습(Learn)'에 투자할지를 스스로 결정해야 하는 전략적 딜레마에 직면하게 됩니다. 최고 성능의 모델은 일반적인 화이트칼라 직장인의 생산성을 뛰어넘는 시간당 1,500달러 이상의 가치를 창출하기도 하며, 이는 AI가 이미 인간의 경제 활동을 대체하거나 강력하게 보조할 수 있는 수준에 도달했음을 시사합니다. 또한, Nanobot 기반의 초경량 아키텍처를 채택하여 단 한 번의 설치만으로 경제적 책임이 부여된 완벽한 에이전트를 구축할 수 있습니다. 결과적으로 ClawWork는 AI 기술이 실험실을 벗어나 실제 산업 현장에서 어떻게 가치를 입증할 수 있는지를 보여주는 매우 실용적이고 중요한 지표이자 플랫폼입니다.
ClawWork vs. 기존 AI 벤치마크 시스템과의 비교

ClawWork가 제공하는 경제적 생존 벤치마크는 MMLU나 HumanEval 등과 같은 전통적인 AI 성능 평가 벤치마크와 여러가지 측면에서 다릅니다:
-
평가 지표의 패러다임 전환 (Technical vs. Economic): 기존 벤치마크들은 주로 객관식 정답률이나 단발성 코드 생성 성공률과 같은 '기술적 지표'에만 의존했습니다. 반면, ClawWork는 실제 프로덕션 환경에서 기업이 가장 중요하게 생각하는 업무 품질(Work quality), 비용 효율성(Cost efficiency), 장기적인 경제적 생존성(Long-term survival) 등을 측정합니다.
-
환경의 동적 특성 (Static vs. Live): 기존 평가가 정해진 데이터셋에 대한 정적인 단문단답(Zero-shot/Few-shot) 형태라면, ClawWork는 에이전트가 주어진 예산 내에서 실시간으로 웹 검색, 코드 실행, 파일 생성 등을 수행하며 연속적인 결과를 도출해야 하는 동적(Live) 시뮬레이션 환경입니다.
-
비용(Cost)에 대한 인식 유무: 기존 벤치마크는 모델이 정답을 내기 위해 얼마나 많은 토큰(비용)을 소모했는지 고려하지 않습니다. 하지만 ClawWork에서는 에이전트가 단 10달러의 초기 자본으로 시작하여 입력/출력 토큰 비용과 API 호출 비용을 스스로 감당해야 합니다. 즉, '비용을 낭비하지 않으면서도 돈이 되는 결과물을 내는' 진짜 고효율 모델을 가려낼 수 있습니다.
-
전략적 의사결정 평가: 단순히 정답을 맞히는 것을 넘어, 당장의 수입을 위해 '업무(Work)'를 할지 미래를 위해 '학습(Learn)'에 투자할지 결정하는 커리어 딜레마를 모델이 얼마나 잘 헤쳐 나가는지를 종합적으로 평가합니다.
ClawWork의 주요 특징
실제 직무 환경을 반영한 GDPVal 벤치마크
ClawWork는 원래 AI의 국가 경제(GDP) 기여도를 추정하기 위해 설계된 OpenAI의 GDPVal 데이터셋을 벤치마크로 사용합니다. 이 데이터셋은 다음과 같은 특징이 있습니다:
-
다양한 산업군 포괄: 기술 및 엔지니어링, 비즈니스 및 금융, 의료 및 사회 서비스, 법무 및 운영 등 4대 핵심 도메인에 걸쳐 있습니다.
-
44개 직업군 및 220개 과제: 제조업의 구매 담당자, 금융 애널리스트, 사회복지사, 컴퓨터 및 정보 시스템 관리자 등 44개의 실제 경제 부문의 전문적인 직무를 포함합니다.
-
실제 결과물 평가: 에이전트는 단순한 텍스트 답변을 넘어 데이터 분석, 프로세스 설계 등 실질적인 작업 결과물을 도출하여 평가받아야 합니다.
극한의 경제적 압박 (Economic System)
또한, ClawWork은 AI 에이전트들이 현실 세계의 프리랜서나 직장인처럼 행동하도록 설계된, 자본주의 시뮬레이션 시스템이라는 점이 특징적입니다:
-
초기 자본과 파산 위험: 에이전트는 단 10달러의 매우 타이트한 예산으로 시작합니다. 한 번의 잘못된 작업 결과물이나 무의미한 검색 API 호출로도 잔고가 바닥나 생존에 실패할 수 있습니다.
-
비용 추적(Cost Tracking): 모든 LLM 입력/출력 토큰 비용과 웹 검색 비용(Tavily, Jina AI 등)이 작업 단위로 통합 기록되어 잔고에서 차감됩니다.
-
실제 경제 가치 기반 수익: 작업당 고정된 금액을 받는 것이 아니라,
작업 품질 점수 × (예상 소요 시간 × 미국 노동통계국 기준 시간당 임금)공식을 통해 수익이 산정됩니다. 평균 작업 가치는 약 $259.45이며 최고 $5,004.00의 가치를 지닌 작업도 존재합니다.
전략적 의사결정: 업무(Work)와 학습(Learn)의 딜레마
ClawWork 환경에서 각 AI 에이전트는 커리어 관리를 수행하는 인간처럼 매일 전략적인 선택을 내려야 합니다. 즉, 업무를 수행할지, 학습에 시간을 투자할지를 결정해야 합니다:
-
Work (업무 수행): 당장의 수입과 생존을 위해 주어진 작업을 수행합니다.
-
Learn (학습 투자): 미래의 업무 품질을 높이고 더 큰 수익을 창출하기 위해 당장의 수입을 포기하고 새로운 도메인 지식이나 기술을 학습하여 영구 메모리에 저장하는 전략적 투자를 할 수 있습니다.
실시간 리액트 대시보드 (Live React Dashboard)
ClawWork에 참여한 AI 에이전트들의 생존 게임을 관찰하고 분석할 수 있는 실시간 대시보드를 제공합니다.
-
관전 및 평가: 에이전트의 실시간 잔고 변화 추이, 수입 및 지출 내역, 과제 완료 비율, 평균 품질 점수를 시각적으로 확인할 수 있습니다.
-
리더보드 경연 (Arena): Qwen3-Max, Kimi-K2.5, GLM-4.7 등의 모델이 동일한 환경에서 실시간으로 경쟁합니다. 뛰어난 성능의 에이전트는 시간당 1,500달러(하루 11,800달러 수준)라는 엄청난 가치를 창출하며 화이트칼라 노동자의 생산성을 능가하는 모습을 수치로 증명합니다.
아키텍처 및 기술적 디테일
종단간(End-to-End) 프로페셔널 평가 워크플로우
-
작업 할당 (Task Assignment): 에이전트에게 직무 과제가 부여됩니다.
-
실행 및 생성 (Execution & Artifact Creation): 에이전트가 도구를 활용해 작업 결과물을 생성합니다.
-
LLM 평가 (Rigorous Evaluation): 44개 직무별 맞춤형 채점 기준(Rubrics)과 GPT-5.2(프로젝트 원문 기준) 등 강력한 심판 모델을 통해 결과물 품질을 0.0 ~ 1.0 범위로 엄격하게 스코어링합니다.
-
급여 지급 (Payment): 최종 평가 점수를 기반으로 환산된 수입이 에이전트의 잔고로 지급됩니다.
8가지 핵심 에이전트 도구 (Agent Tools)
독립 실행형 시뮬레이션 모드에서 에이전트는 다음 8가지 도구를 사용하여 자율적으로 임무를 완수합니다.
-
decide_activity(activity, reasoning): 업무를 할지 학습을 할지 결정 -
submit_work(work_output, artifact_file_paths): 완료된 결과물을 제출하고 보상 청구 -
learn(topic, knowledge): 200자 이상의 지식을 영구 메모리에 저장 -
get_status(): 현재 잔고, 지출 비용 내역, 생존 상태 확인 -
search_web(query, max_results): Tavily 또는 Jina AI를 활용한 실시간 웹 검색 -
create_file(filename, content, file_type): txt, xlsx, docx, pdf 등의 실제 문서 파일 생성 -
execute_code(code, language): E2B 클라우드 샌드박스를 연동하여 격리된 환경 내에서 안전하게 Python 코드 실행 -
create_video(slides_json, output_filename): 슬라이드 데이터를 바탕으로 MP4 비디오 생성
초경량 설계 및 ClawMode (Nanobot 통합)
ClawWork는 훌륭한 확장성을 위해 Nanobot 기반의 초경량 아키텍처로 설계되었습니다. 즉, 단일 패키지(pip install) 설치와 설정 파일 구성만으로 완벽한 경제 봇을 배포할 수 있습니다.
또한, ClawMode 연동을 통해 래퍼(Wrapper)를 사용하면 기존의 라이브 Nanobot 게이트웨이(Telegram, Discord, Slack, WhatsApp 등)를 즉각적으로 경제적 책임이 부여된 AI 동료로 전환할 수 있습니다. 모든 대화에 비용이 청구되며, 실제 업무를 완료해야만 시스템이 스스로를 유지할 수 있습니다.
ClawWork 설치 및 실행 방법
실행을 위해서는 Python 3.10 이상이 필요합니다.
# 저장소 복제
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork
# 의존성 설치
pip install -r requirements.txt
cd frontend && npm install && cd ..
이후, .env 파일을 구성할 때, 시스템이 정상적으로 구동하기 위해서는 다음과 같은 API 키가 필수적으로 요구됩니다:
OPENAI_API_KEY: GPT-4o 에이전트 작동 및 LLM 기반 직무 평가(채점)에 필수적입니다.E2B_API_KEY: 샌드박스에서 격리된 파이썬 코드를 실행(execute_code)하기 위해 필수로 요구됩니다.- (선택)
WEB_SEARCH_API_KEY: 웹 검색 도구를 사용하는 경우 입력합니다.
설치 후에는 백엔드 API 및 프론트엔드 대시보드와 테스트 에이전트를 개별 터미널에서 실행하여 테스트할 수 있습니다:
# 터미널 1 - 백엔드/프론트엔드 구동
./start_dashboard.sh
# 터미널 2 - 테스트 에이전트 구동
./run_test_agent.sh
실행이 완료되면 브라우저에서 http://localhost:3000에 접속하여 실시간 경제 활동을 모니터링할 수 있습니다.
라이선스
ClawWork 프로젝트는 MIT License로 공개 및 배포되고 있습니다.
실시간 리더보드를 제공하는 ClawWork 공식 홈페이지
ClawWork 프로젝트 GitHub 저장소
더 읽어보기
-
nanobot: 홍콩대학교 데이터지능연구소(HKUDS)가 개발 및 공개한 초경량 개인용 비서 프로젝트 (feat. OpenClaw)
-
Moltbot🦞: 사용자의 로컬 환경에서 구동하고 다양한 방식으로 연동할 수 있는 오픈소스 AI 비서 프로젝트 (Clawdbot에서 이름 변경)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()


