Claude-3, Aider의 코드 편집 벤치마크에서 가장 좋은 성능을 보여 ⌨

9bow · 3월 31, 2024, 8:20오전

PyTorchKR:

Anthropic에서 최근 공개한 Claude-3 모델이 좋은 성능을 보이는 것으로 여기저기에서 화제입니다. 덕분에 OpenAI에서 GPT-4의 후속 버전 출시를 앞당길 것이라는 이야기도 있고요. 오늘은 이 Claude-3가 코딩 작업에서도 GPT-4 모델을 능가하는 성능을 보여줬다는 소식입니다. 페어 프로그래밍(pair programming) AI인 Aider의 자체 코드 편집 벤치마크에서 이러한 성능이 입증되었는데요, AI와 함께 페어 프로그래밍을 할 때 Claude-3 Opus 모델이 가장 우수한 성능을 보였다고 합니다. 자세한 내용을 함께 살펴보시죠.

소개

Aider는 AI와 함께 페어 프로그래밍을 할 수 있도록 도와주는 오픈소스 CLI 도구입니다. 최근 Anthropic에서 발표한 Claude 3 모델은 Aider의 코드 편집 벤치마크를 통해 그 성능이 평가되었는데, 이 벤치마크는 LLM(Language Model)이 기존 코드에 변경 사항을 얼마나 잘 적용할 수 있는지를 정량적으로 평가합니다.

Claude 3 Opus: 새로운 claude-3-opus-20240229 모델은 벤치마크에서 역대 최고 점수를 기록, 두 번의 시도로 68.4%의 작업을 완료했습니다. GPT-4 Turbo 모델과 비슷한 한 번의 시도 성능을 보였지만, Opus 모델은 약간 더 높은 점수를 얻었습니다.
Claude 3 Sonnet: claude-3-sonnet-20240229 모델은 OpenAI의 GPT-3.5 Turbo 모델과 유사한 성능을 보였습니다. 전체 점수는 54.9%, 첫 시도 점수는 43.6%였습니다.

Aider 사용법

Aider는 Claude 3 Opus 모델을 OpenRouter를 통해 지원하며, 이를 통해 AI와 함께 코드 편집 작업을 수행할 수 있습니다. 아래 단계를 따라 Aider를 설치하고 Claude 3 Opus 모델을 사용하여 코드 편집을 시작할 수 있습니다:

1. Aider 설치하기

먼저, Aider를 사용하기 위해 Python 패키지 매니저인 pip를 사용해 Aider를 설치합니다. 터미널에 아래 명령어를 입력하여 Aider를 설치할 수 있습니다.

pip install aider-chat

2. OpenRouter 접근 설정하기

Aider가 Claude 3 Opus 모델을 사용할 수 있도록 OpenRouter 접근을 설정해야 합니다. 이를 위해 환경 변수를 설정하여 OpenRouter API 키와 API 기본 주소를 정의합니다. 아래 명령어를 사용하되, <your-openrouter-key> 부분을 실제 OpenRouter API 키로 대체해 주세요.

# OpenRouter 접근 설정
export OPENAI_API_KEY=<your-openrouter-key>
export OPENAI_API_BASE=https://openrouter.ai/api/v1

3. Aider 실행하기

환경 변수 설정 후, Aider를 Claude 3 Opus 모델과 함께 실행할 수 있습니다. 다음 명령어를 사용하여 Aider를 실행하되, --model 옵션으로 anthropic/claude-3-opus를 지정하고, --edit-format 옵션으로 diff를 사용해 변경 사항을 효율적으로 관리할 수 있습니다.

aider --model anthropic/claude-3-opus --edit-format diff

Aider를 통해 AI와 함께 코드 편집 작업을 할 때, LLM이 전체 소스 코드의 업데이트된 복사본을 보내는 대신, 효율적으로 코드 변경 사항을 diffs 형태로 보내는 것이 좋습니다. Claude 3 Opus는 이러한 작업에 탁월하며, search/replace blocks을 사용하여 효율적으로 코드 변경을 전송할 수 있습니다.

사용 시 주의사항

Claude 3 모델들은 OpenAI의 모델들보다 느리고 비용이 더 들지만, 거의 비슷한 코딩 능력을 더 빠르고 저렴하게 제공하는 OpenAI 모델과 비교됩니다. 특히 Claude 3은 최신 GPT-4 Turbo보다 2배 큰 컨텍스트 윈도우를 가지고 있어, 더 큰 코드 베이스 작업에 장점이 있을 수 있습니다. 그러나 일부 작업을 수행하는데 있어 "콘텐츠 필터링 정책에 의해 차단됨(Output blocked by content filtering policy)"과 같은 오류를 반환하는 경우가 있으며, API의 안정성 문제도 지적되고 있으니 참고하시기 바랍니다.

더 읽어보기

Claude-3 벤치마크 결과 글

Aider 벤치마크 문서

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있으니 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 힘이 됩니다~