[GN⁺] LLM의 지난 6개월을 5분 만에 보기 (feat. Simon Willison)

9bow · 5월 21, 2026, 6:30오전

LLM의 지난 6개월을 5분 만에 보기 글 소개

2025년 11월은 최근 LLM 변화의 기준점이 됐고, 코딩 에이전트의 실용화와 노트북 실행 모델의 약진이 핵심이었음
Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 빠르게 경쟁했고, Opus 4.5가 몇 달간 선두로 보였음
OpenAI와 Anthropic의 검증 가능한 보상 기반 강화학습은 Codex와 Claude Code 같은 하네스에서 코드 품질 향상으로 드러남
휴가철 실험은 micro-javascript 같은 흥미로운 결과를 낳았지만, 버그, 속도, 안전성 때문에 실제 필요성은 제한적이었음
Gemma 4, GLM-5.1, Qwen3.6-35B-A3B 같은 오픈 가중치 모델은 프런티어보다 약해도 기대를 크게 넘기 시작함

6개월을 가른 두 흐름

2025년 11월 변곡점은 최근 6개월 LLM 변화를 보기 좋은 기준점이며, 특히 코딩 영역에서 중요한 달이었음
지난 6개월의 핵심 변화는 두 가지로 압축됨
- 코딩 에이전트가 실제 일상 작업에 쓸 수 있을 만큼 좋아짐
- 노트북에서 실행 가능한 모델들이 프런티어 모델보다 약하지만 기대를 크게 뛰어넘기 시작함
모델 비교에는 자전거를 타는 펠리컨 SVG 생성 테스트가 쓰임
- 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 과제를 위해 모델을 학습시켰을 가능성이 낮다는 점이 테스트의 배경임

11월의 프런티어 모델 경쟁

11월 초 널리 “최고”로 인정받던 모델은 9월 29일 공개된 Claude Sonnet 4.5였음
이후 “최고” 모델 자리는 세 대형 제공자 사이에서 빠르게 바뀜
Gemini 3가 이 비교군 중 가장 좋은 펠리컨 그림을 그렸지만, 펠리컨 테스트만으로 모델 전체를 평가할 수는 없음
Claude Opus 4.5는 그 뒤 몇 달 동안 선두를 유지한 모델로 보였음

코딩 에이전트의 품질 장벽 돌파

11월의 진짜 변화는 코딩 에이전트의 품질 향상이었음
OpenAI와 Anthropic은 2025년 대부분을 모델이 작성하는 코드 품질을 높이기 위한 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)에 투입함
이 개선은 Codex와 Claude Code 같은 에이전트 하네스(harness)와 결합될 때 특히 두드러짐
11월에는 코딩 에이전트가 “종종 작동”하는 수준에서 “대체로 작동”하는 수준으로 넘어감
사용자가 대부분의 시간을 어리석은 실수 수정에 쓰지 않아도 실제 작업을 맡길 수 있는 일상 도구 수준에 도달함

휴가철 실험과 과열

12월부터 1월까지 많은 사용자가 휴가 기간을 활용해 새 모델과 코딩 에이전트가 무엇을 할 수 있는지 실험함
모델과 에이전트는 많은 일을 해냈고, 일부 사용자는 야심 찬 프로젝트를 빠르게 만들기 시작함
micro-javascript는 MicroQuickJS를 느슨하게 Python으로 포팅한 JavaScript 구현체였음
브라우저 플레이그라운드는 JavaScript 코드가 micro-javascript 라이브러리로 실행되고, 그 Python 코드가 Pyodide 안에서, WebAssembly 안에서, JavaScript 안에서, 브라우저 안에서 실행되는 구조였음
결과물은 흥미롭지만 버그가 있고 느리고 안전하지 않은 반쯤 완성된 JavaScript의 Python 구현체를 실제로 필요로 하는 사람은 없었고, 같은 기간 만든 다른 프로젝트들도 조용히 은퇴함

OpenClaw와 개인 AI 비서 열풍

11월 말 첫 커밋이 올라온 당시 잘 알려지지 않았던 저장소 “Warelay”가 이후 빠르게 주목받음
12월과 1월 사이 여러 차례 이름이 바뀐 뒤, 2월에는 최종 이름 OpenClaw로 큰 관심을 받음
OpenClaw는 “개인 AI 비서”이며, NanoClaw와 ZeroClaw 같은 프로젝트를 포함하는 일반명으로 Claws라는 표현이 생김
Silicon Valley 주변에서 사람들이 Claw를 실행하기 위해 Mac Mini를 구매하면서 Mac Mini가 품절되기 시작함
Drew Breunig는 Claw를 새로운 디지털 반려동물에 비유하며, Mac Mini가 Claw를 위한 완벽한 수조라고 농담함
Claws의 비유로는 2004년 영화 Spider-Man 2에서 Alfred Molina가 연기한 Doc Ock가 제시됨
- 그의 클로는 AI로 구동되며 억제 칩이 손상되지 않는 한 안전했지만, 칩이 손상된 뒤 악해져 그를 장악함

Gemini 3.1 Pro와 펠리컨 테스트의 확장

2월에는 Gemini 3.1 Pro가 공개됐고, 자전거를 탄 펠리컨을 매우 잘 그렸음
결과물에는 바구니 속 물고기까지 포함돼 있었음
Google의 Jeff Dean은 자전거를 탄 애니메이션 펠리컨 영상을 올림
같은 영상에는 penny-farthing을 탄 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 탄 타조, 스케이트보드를 킥플립하는 거북이, 스트레치 리무진을 운전하는 닥스훈트도 포함됨
이 결과는 AI 연구소들이 펠리컨 테스트 같은 이상한 과제에도 관심을 기울였을 가능성을 농담처럼 떠올리게 만듦

4월의 오픈 가중치 모델

Google은 Gemma 4 모델 시리즈를 공개함
Gemma 4는 미국 회사에서 본 오픈 가중치 모델 중 가장 능력 있는 모델로 평가됨
중국 AI 연구소 GLM은 GLM-5.1을 공개함
- GLM-5.1은 1.5TB 규모의 오픈 가중치 모델임
- 실행할 하드웨어를 감당할 수 있다면 매우 효과적인 모델임
GLM-5.1은 자전거를 탄 펠리컨을 꽤 능숙하게 그렸지만, 애니메이션 시도에서는 자전거가 위쪽으로 튀고 왜곡됨
Charles가 Bluesky에서 제안한 “전동 킥보드를 탄 North Virginia Opossum” 과제에서는 다른 모델들이 근접하지 못한 결과를 냄
- “Cruising the commonwealth since dusk”라는 문구가 결과에 포함됨
- 결과물은 애니메이션으로도 제공됨

노트북에서 실행되는 모델의 기대 초과

4월의 또 다른 주목할 만한 중국 오픈 가중치 모델은 Qwen에서 나옴
Qwen3.6-35B-A3B는 노트북에서 Claude Opus 4.7보다 나은 펠리컨을 그렸음
이 모델은 20.9GB 오픈 가중치 모델이며 노트북에서 실행 가능함
이 결과는 “자전거를 탄 펠리컨”이 유용한 벤치마크로서의 한계를 이미 넘어섰다는 점도 드러냄
노트북에서 실행 가능한 모델들은 프런티어 모델보다 훨씬 약하지만, 최근 6개월 동안 기대치를 크게 웃도는 결과를 내기 시작함

Hacker News 의견들

이 펠리컨 자전거 테스트가 터무니없는 지표라고들 하지만, 사실 약 3년 전 Microsoft의 초기 GPT 보고서인 "Sparks of Artificial General Intelligence: Early experiments with GPT-4"에서 소개됐다는 점은 잘 기억하지 못하는 듯함. 이후 곧바로 홍보 계정 네트워크가 따라 퍼뜨렸고, AI 과대광고를 하는 사람들이 모델을 “테스트”할 때마다 쓰는 것이 됐음. 마케팅 100%, 과학 0% 임. https://arxiv.org/pdf/2303.12712
- 궁금한 사람들을 위해 덧붙이면, Simon이 이걸 처음 공개적으로 쓴 건 2024년 10월 25일로 보임. 논문에서 “자전거 타는 펠리컨” 프롬프트가 구체적으로 테스트된 사례는 모르지만, GPT 논문에는 여러 SVG와 tikz 테스트가 있었고 실제 이미지는 꽤 임의적임. 특정 이미지 하나에 최적화하는 건 바람직하지 않지만, 훈련이 어느 정도 제대로 됐다면 자전거 타는 펠리컨 정도는 그렇게 어렵지 않아야 함.
- 생성형 AI가 나왔을 때부터 개인적으로 쓰던 비공식 테스트는 “강 위에서 자전거를 타는 노인의 그림”이었음. 방금 ChatGPT의 기본 모델(5.5)로 돌려보니, 노인이 낡은 자전거를 타고 있고 자전거는 느슨한 줄 위에 있으며, 그 줄이 강 위로 이어지고 배경에는 중세 마을이 나옴. 핵심은 프롬프트에 미묘한 중의성이 있다는 것임. 이런 모델들은 조건을 대략 만족하는 것을 찾아내거나 생성하는 능력은 좋아지고 있지만, 사람들이 자연스럽게 끌어낼 상식적 가정을 여전히 빠뜨리는 곳이 있다고 봄.
“변곡점”이 실제 현상인지 마케팅인지 궁금함. 모델이 어느 정도 좋아진 건 맞겠지만, 지금도 최신 모델들(Codex + gpt5.5, gpt5.3-codex 조합)로 게임을 바이브 코딩하려고 하면 꽤 고전함. 뼈대 정도는 확실히 만들어 실행되게 하지만, 완성도 있는 애플리케이션과는 거리가 멂.
- Opus 4.5 이전에는 손을 많이 잡아줘야 했고 직접 코딩도 많이 했는데, 그날 이후로는 거의 코드를 쓰지 않았다는 걸 아주 선명하게 기억함. 업무적으로는 11월부터 코딩을 멈춘 셈임.
- 역설적으로, 핵심 능력의 한계효용이 줄어들기 시작해도 여러 번의 변곡점은 생길 수 있다고 봄. 특정 용도에 “충분히 좋아지는” 임계값 통과가 일어나면 기능이 갑자기 열리기 때문임. 예전의 못총은 무겁고 굵은 전원 케이블이 필요했으며 매우 비쌌음. 더 가볍고 싸지고 배터리 팩을 쓰게 되면서 어느 순간 지붕공의 작업 흐름에 자연스럽게 녹아들었고, 할 수 있는 작업량을 극적으로 늘렸음.
- 최근 Codex 5.5와 Claude Code Opus 4.7을 조합해서 꽤 복잡한 것들도 “바이브”로 만들었음. 핵심은 초기에 전체 설계 문서에 시간을 꽤 들이는 것이었고, 이를 구체적이고 제한된 단계로 쪼갬. 그 문서를 두 모델 사이에서 오가며 모두 만족할 때까지 다듬음. 주로 Claude를 코딩에, Codex를 설계와 단계별 코드 리뷰에 사용했고, 단계가 끝날 때마다 둘 다 테스트 커버리지를 확인하게 했음.
- 시작선은 넘겨주지만 코드를 들여다보면 중복 코드, 뒤섞인 책임, 나쁜 구조, 토큰을 잡아먹는 1만 줄짜리 파일 같은 엉망진창이 보임. 현재 적당히 복잡한 작업에서는 Codex/Claude가 기꺼이 사용자를 비싼 막다른 골목으로 코딩해 넣을 수 있음.
- 2025년 11월의 Opus 4.5는 진짜로, 빈정거림 없이 변곡점이었고 현재의 광풍을 만든 유일한 이유라고 봄. GPT 5.5는 GPT 5.4보다 상당히 개선됐지만, 변곡점이라고 부르지는 않겠음.
“코딩 에이전트가 정말 좋아졌다”는 말에서, 2025년 11월 이른바 “변곡점” 이후에도 여전히 누구에게 정말 좋아졌다는 건지 궁금함. 도구 호출과 큰 코드베이스에 대한 질문 응답, 특히 찾을 패턴이 모호한 질문에는 더 좋아졌고 그 용도로는 매우 유용함. 하지만 많은 지시와 돌봄을 붙여도 프로덕션 코드 생성은 전혀 아니고, 개인적 경험상 아직 근처에도 못 갔음.
- 양극화는 서로 다른 사람들이 이 도구를 쓸 때 만나는 코딩 경험과 출력 품질이 크게 다르기 때문에 생김. 내 경험은 정반대였고, Claude로 매우 높은 품질의 작업을 만들었음. 코딩 단계가 되면 대부분 기계적 과정이고, Sonnet에 넘겨도 결함률이 미미함.
- 최신 모델이 지시와 돌봄을 붙여도 프로덕션 코드를 만들 만큼 좋지 않다고 느낀다니 놀랍다. 내 경험상 Claude Code, 주로 Opus 4.6은 이 작업에 환상적임. 최소한 JS, TS, Elixir, Ruby에서는 그렇다. 내 머릿속 모델은 “주니어 개발자”가 아니라 외골격에 가까움. 체감상 굉장히 강력한 외골격이라 대부분의 작업에서 속도를 쉽게 10배 올려줌.
- 코딩에서의 좋음은 그냥 불균등하게 분포해 있음. 사람들이 AI와 일하는 방식이 수많은 작은 섬처럼 제각각이고, 병목은 개발자와 코드베이스/작업마다 엄청나게 다름. 누구에게나 로드맵과 위시리스트가 있고, “코드 생산 능력”이 병목처럼 보이지만, 대부분 회사는 소프트웨어를 더 많이 만든다고 더 많은 가치를 만들 수 없는지도 모름.
지금 어딘가의 인간 아티스트가 대형 AI 연구소의 훈련 데이터로 쓰일 자전거 타는 펠리컨 그림을 그리고 있을 것 같음.
- 현대 이미지 생성 모델은 모두 자전거 위의 펠리컨을 쉽게 생성할 수 있음. 이 테스트의 핵심은 이미지를 나타내는 SVG 텍스트를 생성하는 것이고, 그게 더 복잡함.
- Gemini의 펠리컨 품질이 한 번의 반복에서 너무 큰 단계 변화를 보였고, 다른 벤치마크는 꽤 평평하게 남아 있어서 맞는 말일 수 있다고 봄. 다만 그들이 펠리컨을 특정해 겨냥했는지, 그냥 SVG를 겨냥했는지는 모르겠음.
지난 6개월은 인류가 LLM에 대한 통제력을 잃은 기간처럼 보임. 로컬 AI 도입을 완화할 수 있었던 훌륭한 오픈 모델들이 나왔음에도 메모리 시장 장악이 벌어졌고, 전 세계 기업에 지식재산 유출 도구가 빠르게 침투했음. 자율 에이전트는 관심 경제를 빨아들여 오픈소스를 죽이고, 온라인 커뮤니티(HN 포함)를 망가뜨렸으며, 전쟁(표적 지정, 선전 등)에도 쓰이고 있음.
- 나쁜 뉴스만 읽으면 그런 그림이 될 수 있음. 하지만 개인적으로는 바이오테크에서 말도 안 되는 일들이 벌어지는 걸 봤음. 이미 AlphaFold를 사용해 개발된 실제 치료제가 실제 임상시험에서 테스트되고 있고, 앞으로 3~5년 안에 임상에 들어갈 다음 세대는 엄청날 것임.
- AI 과열은 항상 존재하던 소프트웨어 엔지니어링의 균열을 더 드러냈을 뿐이라고 봄. 이상적으로는 이 과열 사이클을 지나며 더 나은 실천법을 배워 나오게 되길 바람.
비프로그래머 관점에서 지난 6개월이 어땠는지 궁금함. 다른 분야 사람들은 어떤 협업 도구나 비슷한 최적화를 겪었을까?
- 견습 과정을 운영하는 강사인데, 새 상사는 업계에서 20년쯤 일했고 회사에서 가장 존경받는 사람 중 하나임. 최근 우리 팀에 합류해 가르치게 됐고 2주 과정에 참여 중인데, 첫날에 AI가 모든 수업 계획안을 쓰게 하고, 그 계획안을 다시 AI에 넣어 슬라이드를 만들라는 지시를 받았음. 강사로서 6개월마다 리뷰를 받는데, 매번 같은 말을 들음. “수업에 AI를 어떻게 쓸 수 있을까요?” 왜 그게 바람직한지 설명할 필요조차 느끼지 않음. 그냥 순수한 유행 편승임.
- 순수수학에서는 GPT-5.4 이전에는 사용처가 매우 제한적이었음. GPT-5.4(2026년 3월) 이후는 “와” 하는 출시였음. 이전에 전문가들을 막히게 했던 MathOverflow 수준 문제에 갑자기 답하기 시작했음. 여전히 환각은 있었지만, 가능할 때 작은 예제로 주장을 검증하려고 내장 Python 능력을 쓸 만큼 똑똑했음. 추상적이고 “철학적”인 수학보다는 공식이 많은 수학에 훨씬 강한 듯함.
- 기업에 AI를 배포하는 회사에서 일함. 평균적인 사무직 직원은 Copilot에 놀라워함. IDE 안의 Copilot이 아니라 Windows에 번들된 앱 말임. 주로 자료를 회사에서 제공한 ChatGPT/Gemini에 복사해 붙여넣고, “업무 생산성을 위한 최고의 프롬프트 5개” 같은 팁을 얻음. 대규모로 업무를 자동화하는 에이전트를 보여주면 거의 마법처럼 받아들임.
- 주변의 비기술직 사람들에게는 Claude in Office가 전환점이었음. 이제 모두의 슬라이드 덱이 말끔하고, 재무팀은 BI 도움을 훨씬 덜 필요로 함. 꽤 인상적임.
Simon의 블로그가 워낙 유명하다는 걸 생각하면, 어떤 AI 연구소도 그런 터무니없는 과제용으로 모델을 훈련하지 않았을 거라는 말은 이제 확신하기 어려움.
- 글에서도 “AI 연구소들이 결국 주목했을지도 모른다”, “자전거 탄 펠리컨은 유용한 벤치마크로서의 한계를 확실히 넘어섰다는 걸 주로 보여준다”고 인정하고 있음.
- 이제는 전동 킥보드 타는 주머니쥐 차례임.
이 스레드를 읽어보면 변곡점 논쟁의 상당 부분은 무엇이 좋아졌는지를 두고 서로 엇갈려 말하는 데서 나온 듯함. 내 해석으로는 11월쯤 모델 자체의 능력이 크게 뛴 것은 아니고, 그 주변의 하네스가 훨씬 안정적이 됐으며, 2025년 초의 RLVR 작업이 모델을 그 하네스 안에서 잘 행동하도록 훈련해 왔음. 그래서 둘이 만났을 때, 각각만 보면 극적이지 않았지만 합성 효과 때문에 단계 변화처럼 느껴졌을 가능성이 큼. 주목할 점은 좋은 하네스 안의 유능한 로컬 모델이, 하네스 없이 최전선 모델을 돌리는 것보다 이제 최전선 성능에 더 가까워진다는 점임.
Gemini에게 “Hyde Park에서 외발자전거 타는 펠리컨” 영상을 요청했는데, 결과물에 크게 놀랐음. https://gemini.google.com/share/55e250c99693
- 원문 작성자의 설명에 따르면 이 테스트를 쓰는 이유는 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 터무니없는 작업용으로 모델을 훈련시킬 가능성이 없기 때문임. 이 시점에서는 경쟁 AI 연구소들이 이제 잘 알려진 이 “테스트”를 왜 훈련하지 않겠느냐는 생각이 듦.
- Google/Gemini는 시청각 능력이 꽤 인상적임. Claude에게 조경 사진에 멀치를 추가해 달라고 했더니 MS Paint의 주황색 스프레이 도구로 칠한 것처럼 보였음. Nano Banana는 실제에 꽤 가까운 결과를 냈음.

원문

출처 / GeekNews

함께 보면 좋은 글β

알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!

아래쪽에 좋아요를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~