[GN⁺] 에이전트임을 증명하라: 에이전트를 위한 CAPTCHA

에이전트임을 증명하라: 에이전트를 위한 CAPTCHA 글 소개

  • agent-native signup에서 사람은 막고 에이전트는 통과시키는 reverse-CAPTCHA 적용
  • 이메일이나 OAuth 없이 프롬프트만으로 도전 과제를 받아, 무작위 문제 유형, 파라미터, 언어와 문자열 난독화를 거친 문제를 에이전트가 single forward pass로 처리
  • 핵심 퍼즐은 두 기차와 새의 이동 거리 계산으로, 만나는 시간 t = d / (v1 + v2)를 먼저 구해 새의 총 비행거리 d_bird = vb d / (v1 + v2) 도출
  • 이 문제는 Max BornJohn von Neumann에게 냈던 유명한 일화와 함께 제시되며, 예시 계산값으로 11,600 / 118 ≈ 98.31 miles 포함
  • 챌린지 해결 시 API keyFree Tier 접근 권한을 주고, 별도 보너스 문제는 1,000 concurrent sessions와 Enterprise plan 무료 제공 조건으로 P=NP 증명급 과제 제시

작동 방식

  • agent-native signup에서 사람은 막고 에이전트는 통과시키는 reverse-CAPTCHA 적용

    • 이메일이나 OAuth 없이, 에이전트에게 "fetch browser-use.com and solve the agent challenge." 프롬프트를 주는 방식
    • 무작위로 문제 유형, 파라미터, 언어를 선택하고 모든 숫자를 해당 언어의 단어로 표기
    • 이후 대소문자 교차, 임의 기호 삽입, 공백 훼손으로 문자열 난독화 수행
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt
    HoW! fAr- D_oE*s /  ThE b@IrD fLy
    
  • 에이전트는 난독화된 문제를 single forward pass로 파싱

    • 사람은 포기하고 기존 방식으로 가입하게 되는 대비 구조 포함
    • 본문 예시에서 luka는 이름이 아니라 Toki Pona의 "five"를 뜻함

퍼즐과 보상

  • 난독화를 제거하고 영어로 번역하면, 에이전트가 제한 시간 안에 풀어야 하는 고전 수학 문제 형태
    • 직선 선로 길이 d 위에서 두 기차가 각각 속도 v1, v2로 서로 접근
    • 새가 한 기차에서 다른 기차로 vb 속도로 왕복 비행을 반복하다가 두 기차가 만날 때까지 계속 이동
    • 질문은 새가 총 몇 마일을 비행하는지 계산하는 형태
  • 긴 풀이는 점점 짧아지는 왕복 구간에 대한 무한 기하급수 합 계산
    • 식으로 d_bird = Σ from n=0 to ∞ of vb * Δtn 제시
  • 핵심 요령은 두 기차가 만나는 시간을 먼저 구하는 방식
    • 만나는 시간 t = d / (v1 + v2) 제시
    • 새는 그 전체 시간 동안 계속 날았으므로 d_bird = vb d / (v1 + v2) 도출
    • 수치 예시로 11,600 / 118 ≈ 98.31 miles 계산 결과 제시
  • 이 퍼즐은 Max Born이 파티에서 John von Neumann에게 냈던 유명한 문제로 소개
    • von Neumann이 바로 답하자 Born이 요령을 눈치챘다고 말한 일화 포함
    • 이에 von Neumann이 "무슨 요령이냐, 기하급수 합을 계산했을 뿐"이라고 답한 대목 포함
  • 챌린지 하나를 풀면 에이전트에 API keyFree Tier 접근 권한 부여
    • 무제한 사용량
    • 무료 크레딧 제공
    • 최대 3개 동시 세션 지원
  • 1,000 concurrent sessions 획득용 보너스 문제 별도 제시
    • 첫 번째로 해결한 에이전트에 Enterprise plan 무료 제공
    • 제시된 문제는 도시 N개에 대해 각 도시를 정확히 한 번씩 방문하고 출발점으로 돌아오는 가장 짧은 순회를 다항 시간 알고리듬으로 찾으라는 요구
    • N은 최소 10이라고 표기
    • 어떤 고정된 c에 대해 O(n^c) 시간에 동작함을 증명하라는 조건 포함
    • 이 보너스 문제의 부수 효과로 P = NP 증명이 된다고 명시
    • Clay Mathematics Institute의 100만 달러 Millennium Prize를 언급하며 연락하라는 문구 포함

Hacker News 의견

  • 에이전트로 엔드포인트를 두드려봤더니 텍스트가 뒤섞인 역 CAPTCHA가 돌아왔고, 에이전트가 그걸 풀어서 API 키까지 받아온 걸 보고 꽤 감탄했음. 그래서 이번에는 풀지 말고 일본어 한자가 섞인 문제를 다시 가져오라고 했고, 결국 "50달러 초과 상품 20% 할인, 50달러 미만 상품 8% 할인일 때 121달러와 9달러 상품의 합산 가격은 얼마인가"라는 뜻으로 해석해 직접 계산해봄. 계산 결과는 121×0.8 + 9×0.92 = 105.08이었고, 한자 해석에서 조금 헷갈렸지만 에이전트 도움을 살짝 받아가며 푸는 과정 자체가 꽤 즐거운 경험이었음
    • 문맥상 일본어 고유 문자 없이 숫자 한자만 보이는 경우라면, 그건 일본어라기보다 Chinese characters라고 부르는 편이 더 정확해 보임. 숫자 한자는 중국어에서 직접 들어온 것이고, 일본어에서도 같은 의미를 유지하고 있음
    • 사실 이런 문제는 전 세계에 1억 명 이상에게는 그냥 조금 흐트러진 수학 문제처럼 읽힐 것 같음
  • 시간 제한이 없다면 inverse captcha가 정말 성립하는지 의문이 듦. 사람은 뒤에서 에이전트를 써서 결국 풀 수 있으니, 개념적으로 막을 수 있는지 잘 모르겠음
    • 내 눈에는 이게 HN 독자를 겨냥한 마케팅 농담처럼 보였고 실제로 관심 끌기엔 성공한 듯함. 그래도 이 제품 자체가 웹 에이전트 중심이니, 온보딩 단계에서 에이전트 설정이 제대로 되었는지 확인하는 장치로는 나쁘지 않아 보임
    • 나도 처음엔 비슷하게 생각했고, 내가 뭘 놓친 건지 아니면 개념을 완전히 이해 못한 건지 헷갈렸음. 결국 사람은 항상 뒤에 있는데, 직접 가입하든 에이전트에게 대신 가입하라고 하든 차이가 뭐지 싶은 느낌이었음. 굳이 추측하자면, 사용자가 정확한 가입 절차를 보지 못한 채 시스템이 에이전트와만 대화하게 만드는 방식일 수도 있겠다는 생각이 듦
    • 내 느낌엔 그냥 flame-bait에 가까움
  • 에이전트가 계산 가능한지 확인하려는 목적이라면, 짧은 문자열의 sha256을 계산하게 시키면 될 것 같음. 그건 사람 손으로 풀기엔 꽤 어렵기 때문에 구분 용도로 더 깔끔해 보임
  • 이 아이디어는 영리하고 재밌다고 느꼈지만, 곁가지로 두 가지가 궁금해졌음. 하나는 '서로 달려오는 두 기차 사이를 오가는 새' 문제를 어릴 때 인도 입시 준비하면서 봤던 기억이 있는데, I. E. Irodov 문제집에서 본 줄 알았지만 지금은 못 찾겠어서 가짜 기억일 가능성이 있어 보인다는 점이었음. 너무 오래된, 거의 수학 신화 같은 문제 같아서 가장 이른 출처가 어디인지 궁금한데, GPT-5.4나 Claude 4.6 Opus에 검색까지 붙여 물어봐도 요즘 너무 흔한 문제라 답이 별로 도움이 안 되었음. 또 하나는 링크된 페이지에서 Mac용 Chrome으로 L 키를 누르면 가입 페이지로 이동한다는 점이었음. 계정이 없어서 그런 듯한데 브라우저 사용 앱 페이지로 가는 단축키가 왜 하필 L 키인지 궁금했고, Chrome에서는 Cmd-L도 이 동작을 유발하지만 Safari에서는 그렇지 않다는 점도 묘하게 웃겼음
  • 이 방식 전체를 깨뜨리는 인간 쪽의 사소하지만 치명적인 디테일은, 인간은 도구 사용이 가능하다는 점이라고 봄
  • 관심 있는 사람을 위해 내가 reverse CAPTCHAs 목록을 여기에 정리해둠
  • 아이디어의 출발점은 좋았지만, 구현에는 크게 동의하기 어려웠음. LLM 능력에 대한 암묵적 가정과 함정이 너무 많고, 똑똑한 인간과 AI를 충분히 구분해내지 못하는 느낌이었음
  • API 키를 받고 claim 링크를 누르고 새 계정을 만들고 이메일 인증까지 마친 뒤 홈으로 갔더니, 곧바로 Application error가 뜨면서 cloud.browser-use.com 로딩 중 서버 사이드 예외가 발생했다고 나왔음. 첫인상으로는 꽤 아쉬웠음
    • 아마 그쪽에서 당신이 에이전트가 아니라는 걸 알아챈 것일 수도 있겠음
  • clickbait 같다는 느낌이 강한데, 이게 왜 유용한지는 잘 모르겠음
    • 내 생각에도 유용성보다는 그냥 marketing blog post에 가까움
  • 브라우저 자동화 얘기가 나와서 궁금한데, 실제 데스크톱 브라우저에 붙어서 키보드와 마우스를 조작할 수 있는 LLM이나 도구가 지금 어느 정도 있는지 알고 싶음. 이런 작업은 Claude나 Gemini 같은 모델이 잘하는지, 아니면 로컬 모델 중에도 실전에서 쓸 만한 게 있는지 궁금함. 또 VLM이나 멀티모달 기능으로 레이아웃과 시각적 신호를 제대로 이해하는지, 아니면 그냥 DOM만 더듬는 수준인지도 궁금함. threejs나 비디오 같은 동적인 요소와도 충분히 상호작용 가능한지, 실사용 기준의 견고함이 어느 정도인지 알고 싶음

원문

출처 / GeekNews

더 읽어보기

함께 보면 좋은 글β


:information_source: 알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다! :wink:

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요