GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.
소개
- 지난주 Google은 가장 강력한 모델인 Gemini 1.0 Ultra를 출시하며 Google 제품을 더 유용하게 만드는 중요한 진전을 이룸
- 개발자와 클라우드 고객은 AI Studio와 Vertex AI에서 Gemini API를 통해 1.0 Ultra로 빌드를 시작할 수 있음
- 안전을 핵심으로 두고 모델의 최전선을 밀고 나가는 팀들은 빠르게 진전을 이루고 있으며, 다음 세대인 Gemini 1.5를 소개할 준비가 됨
- Gemini 1.5는 여러 차원에서 현저한 개선을 보이며, 1.5 Pro는 더 적은 컴퓨팅을 사용하면서 1.0 Ultra와 비슷한 품질을 달성함
- 새로운 세대는 모달리티를 넘나드는 긴 맥락 이해에서 돌파구를 제공하며, 모델이 처리할 수 있는 정보량을 크게 늘려 1백만 토큰까지 일관되게 실행
Gemini 1.5 소개
- AI 분야의 새로운 발전은 향후 수십억 명의 사람들에게 AI를 더 유용하게 만들 수 있는 잠재력을 가짐
- Gemini 1.0을 소개한 이후, 테스트, 정제 및 기능 향상을 계속해옴
- Gemini 1.5는 현저하게 향상된 성능을 제공하며, 연구 및 엔지니어링 혁신을 기반으로 접근 방식에서 변화를 나타냄
- 새로운 Mixture-of-Experts (MoE) 아키텍처를 사용하여 훈련 및 서비스를 더 효율적으로 만듦
- Gemini 1.5 Pro는 중간 크기의 멀티모달 모델로, 다양한 작업 범위에 걸쳐 최적화되어 있으며, 지금까지 가장 큰 모델인 1.0 Ultra와 비슷한 수준의 성능을 발휘함
- Gemini 1.5 Pro는 표준 128,000 토큰 컨텍스트 윈도우를 제공하지만, 개발자와 기업 고객은 AI Studio와 Vertex AI를 통해 최대 100만 토큰의 컨텍스트 윈도우를 사용해 볼 수 있음
효율적인 아키텍처
- Gemini 1.5는 Transformer와 MoE 아키텍처에 대한 선도적인 연구를 기반으로 구축됨
- 전통적인 Transformer는 하나의 큰 신경망으로 작동하지만, MoE 모델은 더 작은 "전문가" 신경망으로 나뉨
- 입력 유형에 따라 MoE 모델은 신경망에서 가장 관련성 높은 전문가 경로만 선택적으로 활성화하도록 학습함
- 이러한 전문화는 모델의 효율성을 대폭 향상시킴
더 큰 맥락, 더 유용한 기능
- AI 모델의 "컨텍스트 윈도우"는 정보 처리에 사용되는 토큰으로 구성됨
- 모델의 컨텍스트 윈도우가 클수록 한 번에 더 많은 정보를 처리할 수 있어 출력이 더 일관되고 관련성 있으며 유용해짐
- 기계 학습 혁신을 통해 1.5 Pro의 컨텍스트 윈도우 용량을 Gemini 1.0의 원래 32,000 토큰을 훨씬 넘어서 늘릴 수 있었음
- 이제 1.5 Pro는 한 번에 방대한 양의 정보를 처리할 수 있으며, 연구에서는 최대 1천만 토큰까지 성공적으로 테스트함
성능 향상
- 텍스트, 코드, 이미지, 오디오 및 비디오 평가를 포함한 종합적인 패널에서 테스트할 때, 1.5 Pro는 대규모 언어 모델(LLMs) 개발에 사용된 벤치마크의 87%에서 1.0 Pro를 능가함
- 1.5 Pro는 컨텍스트 윈도우가 증가함에도 불구하고 높은 성능 수준을 유지함
광범위한 윤리 및 안전 테스트
- AI 원칙과 강력한 안전 정책에 따라, 모델이 광범위한 윤리 및 안전 테스트를 거치도록 보장함
- 1.0 Ultra를 출시한 이후, 팀은 모델을 지속적으로 정제하여 더 넓은 출시를 위해 안전하게 만듦
- 1.5 Pro의 출시에 앞서, 콘텐츠 안전성과 대표성 피해 등의 영역에 걸쳐 광범위한 평가를 수행하고, 이러한 테스트를 지속적으로 확장할 예정임
Gemini 모델로 빌드하고 실험하기
- 새로운 세대의 Gemini 모델을 전 세계 수십억 명의 사람들, 개발자 및 기업에게 책임감 있게 제공하려는 목표를 수립
- 오늘부터 AI Studio와 Vertex AI를 통해 1.5 Pro의 제한된 미리보기를 개발자와 기업 고객에게 제공
- 모델이 더 넓은 출시 준비가 되면 표준 128,000 토큰 컨텍스트 윈도우로 1.5 Pro를 소개할 예정
- 초기 테스터는 테스트 기간 동안 100만 토큰 컨텍스트 윈도우를 무료로 사용해 볼 수 있지만, 이 실험적 기능으로 인해 지연 시간이 더 길어질 수 있음
GN⁺의 의견
- Gemini 1.5의 가장 중요한 점은 AI 모델이 처리할 수 있는 정보의 양을 크게 늘려, 더 복잡하고 다양한 작업을 수행할 수 있다는 것임
- 이 모델은 AI의 발전을 새로운 차원으로 이끌며, 개발자와 기업이 더 유용한 모델과 애플리케이션을 구축하는 데 도움이 될 것임
- Google의 연구와 혁신이 AI 기술의 미래를 어떻게 형성하고 있는지 보여주는 사례로, 이 기술은 향후 AI가 우리 일상에 어떻게 통합될 수 있는지에 대한 흥미로운 통찰력을 제공함
Hacker News 의견
- 백서에 대한 댓글 요약:
- 10M 토큰 컨텍스트 도달 방법에 대한 설명 부족: 백서는 10M 토큰 컨텍스트에 도달하는 방법에 대해 언급하지 않음.
- RAG 스택 복잡성 감소: 10M 컨텍스트 능력은 대부분의 RAG 스택 복잡성을 즉시 없애며, 이는 많은 사용 사례를 훨씬 단순화함.
- 1.5 Pro의 우수성: 1.5 Pro가 GPT-4보다 일반적으로 더 나음을 명확히 하고 있으며, 새로운 LLM-as-judge 리더로서 흥미로운 점임.
- 1.5 Ultra의 높은 능력: 1.5 Ultra는 매우 능력이 뛰어날 것으로 보이며, 1.5 Pro는 이미 매우 능력이 뛰어남. 다양한 테스트에서 높은 점수를 받았으며, 점수가 낮게 나온 테스트는 대부분 거짓 부정으로 돌아감을 지적함.
- 1.5 Pro의 가능성: 1.5 Pro는 워크플로우 작업에 대한 기준을 설정해야 함. 1.0 Ultra는 매우 능력이 뛰어나지만 약간 느림. 이를 사용하는 오픈 모델은 품질이 크게 향상될 것으로 보임.
- 코딩 테스트 재검토: 새로운 모듈 작성을 요구하는 코딩 테스트를 다시 해볼 시기임.
- 10M 컨텍스트 도달 방법에 대한 궁금증: 10M 토큰에 걸쳐 완벽한 회상을 보여주는 오디오 및 비디오 "니들" 테스트에서 암시하는 바에 따르면, 단일 초장 벡터가 아닌 압축과 같은 어떤 형태가 있을 것으로 추측됨.
- 기술 보고서에서의 흥미로운 정보:
- HumanEval 벤치마크의 데이터 유출 문제: HumanEval은 업계 표준 오픈소스 평가 벤치마크이지만, 웹페이지와 오픈소스 코드 저장소에서 우연한 유출을 제어하는 것은 쉽지 않음. Gemini 1.0 Ultra의 테스트 데이터 유출 분석 결과, HumanEval의 테스트 분할을 단 한 에포크만 포함한 데이터셋에서 계속된 사전 훈련이 점수를 74.4%에서 89.0%로 크게 향상시킴을 보여줌. 이러한 증가는 JSON, HTML과 같은 다른 형식에 예제가 포함되어 있을 때도 지속됨. 연구자들에게 이러한 모델의 코딩 능력을 평가할 때 항상 집에서 작성한 진정한 보류 테스트 함수의 작은 세트를 유지하도록 권장함으로써 유출 위험을 최소화할 것을 요청함. Natural2Code 벤치마크는 이러한 격차를 메우기 위해 만들어졌으며, HumanEval과 동일한 형식을 따르지만 다른 프롬프트와 테스트 세트를 가짐.
- 기술 보고서에서의 주목할 만한 성능:
- Gemini 1.5 Pro의 장기 컨텍스트 능력: Gemini 1.5 Pro의 장기 컨텍스트 능력을 연구한 결과, 최소 10M 토큰까지 다음 토큰 예측에서 지속적인 개선과 거의 완벽한 검색 (>99%)을 발견함.
- 대규모 언어 모델의 새로운 능력:
- Kalamang 언어 번역: 전 세계적으로 200명 미만의 사용자가 있는 Kalamang 언어에 대한 문법 매뉴얼을 제공받은 모델은 동일한 내용에서 배우는 사람과 유사한 수준으로 영어에서 Kalamang으로 번역하는 법을 배움.
- 구글에 대한 신뢰 부족:
- 구글의 발표에 대한 의심: 이전에 출시된 마케팅 편집 비디오가 실제 제품을 보여주지 않았기 때문에, 구글이 내놓는 것에 대해 즉시 테스트할 수 있는 입력 양식이 아니면 신뢰하지 않음.
- Demis Hassabis에 대한 의심:
- 과거의 홍보 전략에 대한 회의적 시각: Demis Hassabis가 과거 비디오 게임 개발 시절부터 홍보에 관한 회의적인 태도를 가짐. "Infinite Polygons"가 업계에서 농담거리가 되었으며, 그의 게임 Republic은 흥미롭지 않은 실패작으로 여겨짐.
- 10M 토큰의 혁신성:
- 프롬프트 크기와 품질의 상관성: 10M 토큰은 게임 체인저로, 프롬프트 크기와 품질 사이에 눈에 띄는 감소가 없다면 매우 혁신적임. 프롬프트 자체를 정적 입력이 아닌 일종의 런타임으로 생각하기 시작할 것임.
- Gemini에 대한 부정적 경험:
- Gemini의 부족한 성능: Gemini를 시도해본 결과 성능이 매우 실망스러움. ChatGPT나 로컬 llama보다 훨씬 못한 성능을 보여줌. 구글의 AI 전략에 대한 신뢰가 없으며, 모든 유능한 인재가 OpenAI나 Anthropic으로 이동했다고 가정함.
- Pro와 Ultra의 차이:
- 컨텍스트 윈도우의 크기: 현재 100k 토큰 이상을 가진 백만까지의 컨텍스트 윈도우는 매우 흥미로운 기능을 열어줌. RAG는 그만큼의 정보를 가지고 매우 강력할 수 있음.
- 컨텍스트 윈도우 크기의 혁신:
- 입력 토큰 문제의 해결: 광고된 대로 실제로 작동한다면, RAG나 특정 분석을 위한 미세 조정의 필요성을 대체할 것임. 입력 토큰 채우기 문제를 어떻게 해결했는지 궁금함.