[번역] Anthropic의 새로운 100K 컨텍스트 윈도우 모델은 쩔어요(..)

opryu · 5월 12, 2023, 11:33오전

Anthropic’s new 100K context window model is insane!

[ChatGPTers 유민수 번역]

성공했습니다! Anthropic은 총 100,000개의 컨텍스트 윈도우를 갖춘 모델을 출시했습니다. 이는 컨텍스트 윈도우 크기가 10배 개선된 것으로, 이제 책 전체나 긴 문서를 모델에 직접 입력한 다음 입력 텍스트에 대해 복잡한 질문을 할 수 있습니다. 현재 대부분의 다른 언어 모델은 몇 가지 예외를 제외하고는 2~8K 토큰만 처리할 수 있지만, 100K는 아직 구현되지 않은 상태이므로 이는 놀라운 진전입니다. 그래서 이것이 무엇을 의미하는지 설명해 드리고 멋진 데모를 보여드리겠습니다.

컨텍스트 윈도우는 추론 시점에 LLM이 받아들일 수 있는 총 토큰 수를 나타냅니다. 100개의 토큰은 약 75개의 단어에 해당한다는 것이 유용한 경험 법칙입니다. 예를 들어, 모델이 4096개의 토큰을 처리할 수 있다면 약 3,000개의 단어를 모델에 입력할 수 있습니다. 이제 Anthropic의 새로운 클라우드 모델을 사용하면 약 75,000개의 단어를 입력할 수 있습니다. 이를 맥락에 맞춰 설명해 보겠습니다. 메리 셸리의 프랑켄슈타인에는 약 75,000개의 단어가 포함되어 있으므로 책 전체가 이 모델에 적합합니다. 5시간 분량의 이 팟캐스트에는 58,000개의 단어가 포함되어 있으며, 스타워즈 에피소드 8편에서 약 65,000개의 단어가 사용됩니다. 이 콘텐츠를 소비하고 소화하려면 인간에게는 많은 시간이 걸립니다. 하지만 클라우드는 이 모든 작업을 1분 안에 해냅니다. 다음은 클라우드로 할 수 있는 몇 가지 가능한 작업입니다.예를 들어, Claude는 재무제표, 법률 계약서 또는 연구 논문과 같은 기술 문서를 소화하고 요약하여 설명할 수 있습니다. 또한 긴 문서에서 질문하고 답을 찾을 수 있으며, 일일이 검색할 필요가 없습니다. 문서를 컨텍스트에 놓고 원하는 내용을 묻기만 하면 됩니다. 심플한 Q&A나 요약과 같은 것 이상의 기능도 가지고 있습니다. 문서 전체가 컨텍스트에 포함되어 있기 때문에, Claude는 분석을 통해 응답하거나 문서 전체의 정보를 종합하는 복잡한 작업을 실행할 수 있습니다. 개인적으로 이것이 매우 멋진 기능이라고 생각합니다. 그러나 말만으로 설명하기보다, 실제 작동하는 것을 살펴보죠. 이제, 렉스 프리드먼 팟캐스트의 에피소드 중 대표적인 존 카맥(둠과 퀘이크의 창립자 중 한 명)과의 에피소드를 가져와 데모를 실행해 볼까요? 이 에피소드는 굉장히 인상적이라 시청을 강력히 추천합니다만, 총 5시간이라는 길이입니다. 그렇기에, 이를 훨씬 더 빠르게 분석하기 위해 먼저 대본을 받아야 합니다. 그러면 모델에 텍스트를 입력할 수 있습니다.이를 위해 어셈블리 AI API를 사용할 수 있으며, 이 채널에서 이미 작업 방법에 대한 많은 튜토리얼을 제작했기 때문에 지금 자세히 설명하지는 않겠습니다. 기본적으로 여기에는 트랜스크립트를 시작하고 완료되면 트랜스크립트를 가져온 다음 이것을 JSON 파일에 저장하는 두 개의 API 요청을 보내는 도우미 함수가 있습니다. 로컬 파일을 업로드하거나 파일이 이미 어딘가에 호스팅되어 있는 경우 URL을 직접 사용할 수 있습니다. 다양한 곳에서 이 파일을 가져올 수 있습니다. 여기서는 Listen Notes를 사용하고 있습니다. 이제 코드를 실행하여 트랜스크립트를 가져와 보겠습니다. 코드가 작동하여 파일이 저장되었습니다. 이제 간단히 살펴봅시다. 여기에는 "다음은 John Carmack과의 대화입니다."라는 텍스트가 표시됩니다. 보시다시피 이 파일은 매우 긴 파일이기 때문에 이 콘텐츠를 소비하는 데 많은 시간이 걸릴 것입니다. 그래서 가장 먼저 할 일은 Claude에게 이 내용을 요약해 달라고 요청하는 것입니다. 텍스트를 다시 로드한 다음, 먼저 점 분할 방법을 호출하고 경험 법칙을 적용하여 토큰을 가져와서 대략적으로 몇 개의 단어가 있는지 추정해 봅시다. 보시다시피, 거의 58,000개의 단어와 77,000개의 토큰이 있으므로 모델에 적합할 것입니다.Anthropic의 Claude를 사용하는 방법은 Python SDK를 설치한 다음 가져오고, 물론 API 토큰이 필요합니다. 클라이언트를 설정한 다음 클라이언트 완료를 호출하고 프롬프트를 제공하고 모델을 선택할 수 있습니다. 여기에서 볼 수 있듯이 Claude 버전 1.3을 사용한 다음 100K 컨텍스트 창이 있는 새 버전을 사용합니다. 그런 다음 샘플로 사용할 최대 토큰 수를 설정하고, response.completion을 인쇄합니다. 이제 프롬프트를 지정해야 합니다. 내용을 복사해서 붙여넣겠습니다. 먼저 약간의 컨텍스트를 제공합니다. "렉스 프리드먼 팟캐스트의 녹취록입니다."라고 말한 다음 전체 녹취록을 여기에 덧붙입니다. 그리고 "사실적인 요약을 작성하는 전문가입니다. 10문장 정도로 대본을 요약해 주세요."라고 요청합니다. 어시스턴트가 "기꺼이 도와드리겠습니다. 요약은 다음과 같습니다."라고 대답합니다. 이제 이를 실행하여 결과를 확인해 봅니다. 요약을 살펴보겠습니다.

"존 카맥은 전설적인 프로그래머이자 게임 개발자로 ID Software를 공동 설립했습니다. 그는 Wolfenstein 3D, Doom, Quake와 같은 획기적인 게임으로 유명합니다. 어렸을 때부터 프로그래밍을 시작하여 프로그래밍에 대한 열정을 키웠습니다. 그 후 소프트웨어를 그만두고 ID Software를 설립했습니다."그들은 3D 그래픽에 대해 이야기하고 있으며, 이번에는 Oculus에서 인공일반지능(AGI)에 대해서도 논의하고 있습니다. 네, 이 모든 것이 정확합니다. 이제 팟캐스트의 주제를 알게 되었으니 몇 가지 과제에 대해 구체적으로 질문을 하겠습니다. 먼저 여기에 동일한 코드를 복사하여 붙여넣지만, 그 전에 그들이 프로그래밍에 대해 얘기하고 있다는 것을 알았으니 이 주제에 대해 질문을 하려 합니다. 녹취록에 따르면 카맥이 C++에 대해 어떠한 견해를 가지고 있습니까? 그에 관한 몇 가지 주요 인용을 찾아내서 카맥의 의견을 설명해주세요.

치과 프롬프트를 테스트해보니, 다음과 같은 결과가 나왔습니다. 카맥은 C++에 대해 다음과 같이 언급하고 있습니다: "제가 진지한 프로그래밍이라고 생각하는 일을 하려고 앉아있을 때는 여전히 C++로 하고 있습니다." 그리고 "정말 멋지네요. 정말 C++ 세상입니다."라고 말했습니다. 그러나 카맥은 현대의 템플릿 메타 프로그래밍 등과 같은 요소들에 대해서는 크게 관심을 갖지 않는 것처럼 보입니다. 이를 통해 카맥은 전반적으로 C++에 대해 긍정적인 시각을 가지고 있음을 알 수 있습니다.또한 그는 몇 년 동안 Lisp와 Haskell로 작업했다고 말한 다음, 나중에 여기에서 "제가 배운 것을 바탕으로 C++ 코드를 작성하는 방식이 많이 바뀌었습니다."라고 말합니다. 그리고 이 인용문을 바탕으로 모델은 결론을 내리는데, Carmack은 진지한 프로그래밍 작업에는 C++를 중요하게 생각하지만 템플릿이나 객체 지향을 많이 사용하지 않는 더 단순한 C 스타일을 선호하는 것 같습니다. 그래서 저는 이것이 정말 인상적이라고 생각합니다. 이 긴 팟캐스트의 주제 중 하나에 대한 구체적인 질문에 대한 답변이었습니다. 이제 팟캐스트의 다른 곳에서 찾아야 하는 부분을 질문해 보겠습니다. 다시 복사하여 붙여넣은 다음 "Carmack이 개발한 비디오 게임에 대해 이야기하나요?"라고 질문해 보겠습니다. 그런 다음 "그렇다면 여기에 나열해 주세요."라고 말합니다. 이제 이 셀을 실행해 봅시다. 작은 오타가 있었지만 문제가 되지 않았습니다. 여기 응답이 나왔습니다. 예, 존 카맥은 대화에서 자신이 개발한 여러 비디오 게임에 대해 설명한 다음 요청대로 나열했습니다: Wolfenstein 3D, Doom, Quake, 커맨더 킨입니다. 또한 슈퍼 마리오 브라더스, 배틀존, 스타워즈: 아케이드 게임 등 자신이 영감을 받은 다른 게임도 언급합니다. 마지막으로 이러한 게임을 개발하는 데 사용된 몇 가지 도구와 기술에 대해 설명합니다. 정말 유용한 정보입니다.그것은 더 많은 정보조차도 찾아냈습니다. 따라서 저는 이것이 매우 인상적이라고 생각합니다. 또한 Assembly AI API을 칭찬해야 합니다. 왜냐하면 전사(transcript)가 매우 정확하게 Claude와 더불어 잘 작동했기 때문입니다. 따라서 이 API로 시도해볼 수 있는 멋진 아이디어 두 가지를 여기에 소개하겠습니다. 예를 들어, 전체 문서 페이지를 입력한 다음 "이 문서를 주의 깊게 검토해 주세요"라 요청하고 특정 섹션에 대한 요약을 제공할 수 있습니다. 또는 국립중앙도서관과 같은 곳에서 긴 논문과 같은 자료를 참조하고, "XXX 섹션을 설명해 주실 수 있습니까? 배경 아이디어에 대해 간략하게 설명한 다음 이 논문의 새로운 기여를 설명해주세요." 이와 같이 요청할 수도 있습니다. 그러니 직접 시도해보시고 어떠한지 알려주시길 바랍니다. 이 데모는 10만 개의 컨텍스트 윈도우(Context Window) 모델에서 가능한 것들에 대한 아이디어를 드릴 수 있길 바랍니다.

벡터 데이터베이스에 대한 지난 영상을 보았다면 이 큰 컨텍스트 윈도우가 그것들을 불필요하게 만드는 것인지 궁금할 수 있습니다. 그러나 이 큰 컨텍스트 윈도우로 인해 문제가 완전히 해결되는 것은 아닙니다. 더 긴 컨텍스트가 필요한 경우나, 예를 들어 여러 책이나 전사본을 저장해야 하는 경우 추가적인 해결책이 필요할 것입니다.하지만 데이터가 컨텍스트 창에 맞는 경우, 이 새로운 모델을 사용하면 사용자 지정 벡터 데이터베이스를 돌리지 않아도 됩니다. 제가 보기에 이것은 놀라운 진전이며, 직접 사용해 보고 모델을 가지고 놀면서 이 기능이 무엇을 가능하게 하는지 느껴보셔야 한다고 생각합니다. 댓글로 어떻게 생각하는지 알려주세요.

직접 사용해보고 더 자세히 알아보고 싶으시다면 Anthropic의 블로그 게시물을 확인해 보세요. 또한 이를 오디오 또는 비디오 데이터와 쉽게 결합하고 싶으시다면 어셈블리 AI API를 확인해 보세요. 두 링크 모두 아래 설명에 나와 있습니다. 이번 영상이 재미있게 보셨기를 바라며, 다음 영상에서 또 뵙기를 기대합니다. 안녕히 계세요.