Google, Gemini 3.5 Flash 출시: 에이전트와 코딩 작업에 최적화된 차세대 Flash 모델 (feat. Antigravity, Gemini Spark)

9bow · 5월 20, 2026, 11:30오후

Gemini 3.5 Flash 소개

Google이 Google I/O 2026을 맞아 새로운 모델 패밀리 Gemini 3.5를 공개하면서, 그 첫 번째 모델로 Gemini 3.5 Flash 를 일반 공개(GA)했습니다. 이번 모델은 단순한 성능 향상에 그치지 않고, "frontier intelligence with action" 이라는 슬로건이 보여주듯 에이전트가 장기간(long-horizon)에 걸쳐 도구를 호출하고 계획을 갱신하면서 실제 작업을 완수하는 능력에 초점을 맞춰 설계되었습니다. 즉, 한 번의 응답이 아니라 코드베이스 유지보수, 금융 문서 작성, 데이터 분석 같은 며칠에서 몇 주짜리 워크플로우를 안정적으로 자동화하는 것이 이번 세대 Flash의 핵심 목표입니다.

Flash 시리즈는 원래 Gemini 모델 패밀리 안에서 지연(latency)과 비용을 압도적으로 줄이면서 적당한 품질을 유지 하는 위치를 담당해 왔습니다. 그러나 Gemini 3 Pro나 GPT-5.4, Claude Opus 같은 플래그십 모델과 직접 비교될 만큼의 추론력은 이전까지 Flash의 영역이 아니었습니다. Gemini 3.5 Flash는 이 경계선을 의도적으로 흐립니다. Google은 이 모델이 Gemini 3.1 Pro를 코딩과 에이전트 벤치마크에서 능가하면서도 다른 frontier 모델 대비 출력 토큰 처리 속도가 약 4배 빠르다 고 명시하고 있습니다.

이 글에서는 새 모델의 핵심 특징, 벤치마크 성적, Google Antigravity 기반의 에이전트 워크플로우, 그리고 함께 발표된 개인용 AI 에이전트 Gemini Spark 까지 정리합니다. 동일 패밀리의 상위 모델인 Gemini 3.5 Pro 는 Google 내부에서 이미 사용 중이며, 다음 달에 외부에 공개될 예정입니다.

핵심 특징 한눈에 보기

에이전트 및 코딩 최우선 설계: Gemini 3.5 Flash는 Flash 시리즈 중 가장 강력한 에이전틱·코딩 모델로, Gemini 3.1 Pro를 여러 벤치마크에서 능가합니다. 어떤 모델을 호출할지 고민할 시간에 Flash로 일단 돌려보고, 비용·지연·품질을 동시에 확보하라 는 메시지가 가장 분명한 모델입니다.
속도 우위: 다른 frontier 모델 대비 출력 토큰 처리 속도가 4배 빠르다 고 밝히고 있어, 다중 에이전트 구성에서 큰 영향을 미칩니다. 서브에이전트(subagent)를 병렬로 굴리면 한 번의 작업이 끝나기까지 누적되는 응답 시간이 결정적이기 때문입니다.
Antigravity 하니스 통합: 새로 업데이트된 Google Antigravity 에이전트 개발 플랫폼과 결합하면, 협업하는 서브에이전트들이 멀티 스텝 워크플로우와 코딩 태스크를 안정적으로 처리할 수 있습니다.
풍부한 멀티모달 UI 생성: Gemini 3의 멀티모달 기반을 이어받아 인터랙티브 웹 UI와 그래픽을 직접 생성합니다. 텍스트 설명만으로 인터랙티브 하드웨어 시뮬레이션이나 체크아웃 플로우 UX 시안을 빠르게 만들어 볼 수 있습니다.
전 채널 일반 공개: 출시 시점부터 Gemini 앱, Google Search의 AI Mode, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise에서 모두 사용 가능합니다.

벤치마크: Flash가 Pro를 넘어선 영역들

이번 발표에서 가장 눈에 띄는 부분은 Flash 등급 모델이 자기 패밀리의 직전 Pro급 모델을 코딩·에이전트 벤치마크에서 앞선다 는 점입니다. Google이 공식 블로그에서 강조한 수치는 다음과 같습니다.

Terminal-Bench 2.1에서 76.2% 성능: 셸/터미널 환경에서 다단계 작업을 수행하는 능력을 측정하는 에이전트 벤치마크입니다. 코드 수정, 빌드, 디버깅 같은 실제 개발자 작업과 가깝습니다.
GDPval-AA 벤치마크에서 1656 Elo: 경제적으로 유의미한 실제 직무 산출물(보고서, 분석, 코드 등)을 평가하는 벤치마크에서의 점수입니다.
MCP Atlas에서 83.6%: Model Context Protocol을 통한 도구 호출 능력을 측정하는 에이전트 벤치마크로, 외부 도구 연동이 핵심인 워크플로우에서의 신뢰도를 보여줍니다.
CharXiv Reasoning에서 84.2%: CharXiv Reasoning은 학술 논문에 등장하는 차트와 그래프에 대한 멀티모달 추론을 평가합니다. 멀티모달 이해에서 Gemini 3.5 Flash가 동급 모델을 앞서는 영역입니다.

Artificial Analysis의 지능 지수 대비 출력 속도 좌표에서도 Gemini 3.5 Flash는 우상단 사분면(frontier 지능 + 고속 출력) 에 위치한다고 밝히고 있는데, 이는 "품질을 얻기 위해 지연을 감수한다"는 기존 가정 을 깨려는 의도가 명확한 포지셔닝입니다.

Antigravity 위에서 굴러가는 장기 워크플로우

Gemini 3.5 Flash의 진짜 매력은 단발성 답변이 아니라 장기 에이전트 워크플로우(long-horizon agentic tasks) 에서 드러납니다. 개발자가 며칠을 들이거나 감사인(auditor)이 몇 주를 들이던 작업을, 대개 다른 frontier 모델의 절반 이하 비용으로 처리할 수 있다는 것이 Google의 주장입니다. 새 애플리케이션을 만들고, 코드베이스를 유지하고, 재무 문서를 준비하는 것처럼 단계가 길고 외부 도구를 자주 호출하는 작업에 특화돼 있습니다.

업데이트된 Google Antigravity 하니스와 결합하면 Flash는 협업하는 서브에이전트(collaborative subagents) 의 엔진이 됩니다. Google이 예시로 든 시나리오만 정리해도 다음과 같습니다:

비정형 자산을 동적 기준에 따라 자동으로 이름 변경하고 분류하는 멀티 스텝 워크플로우 자동화
두 에이전트가 AlphaZero 논문을 요약하고 6시간 만에 플레이 가능한 게임으로 코드화
너저분한 레거시 코드베이스를 Next.js 스택으로 변환
빌더와 플레이어 두 에이전트가 빠른 자기 개선 루프를 돌면서 게임을 완성

또한 Google AI Studio 위에서는 텍스트 설명을 인터랙티브 하드웨어 시뮬레이션으로 바꾸거나, 학교 모금 행사용 브랜딩 컨셉을 병렬로 여러 안 생성하거나, 체크아웃 플로우의 UX 시안을 60초 만에 여러 갈래로 펼쳐 보는 시연도 함께 공개되었습니다. "한 번에 한 모델, 한 가지 답" 이 아니라, "동시에 여러 시안을 펼쳐 비교한다" 는 워크플로우가 Flash와 Antigravity 조합의 핵심 형태입니다.

Gemini 3.5 Flash의 실제 도입 사례

Gemini 3.5 Flash는 출시 시점에 이미 여러 산업 파트너와 함께 검증된 형태로 공개되었습니다. Google이 제시한 대표 사례는 다음과 같습니다.

Shopify: 서브에이전트를 병렬로 굴려 장기간에 걸친 복잡한 데이터를 분석하고, 전 세계 가맹점의 성장 예측 정확도를 끌어올리는 데 사용합니다.
Macquarie Bank: 100페이지 이상의 복잡한 문서를 추론으로 처리하면서 관련 정보를 검색하고 추천을 만들어, 고객 온보딩을 가속하는 파일럿을 진행 중입니다.
Salesforce: Agentforce에 Gemini 3.5 Flash를 통합해, 컨텍스트를 유지하면서 복잡한 멀티 턴 도구 호출을 수행하는 서브에이전트로 엔터프라이즈 작업을 자동화합니다.
Ramp: 복잡한 청구서에 대한 멀티모달 이해와 과거 패턴 추론을 결합하여, 더 똑똑하고 신뢰할 수 있는 OCR을 구현합니다.
Xero: 1099 세금 양식 작성을 위한 공급업체 식별과 정보 수집처럼 몇 주짜리 작업을 자율 에이전트로 처리하여, 소상공인의 행정 부담을 줄여줍니다.
Databricks: 에이전틱 워크플로우로 실시간 정보를 모니터링하고 거대한 데이터셋을 가로질러 추론하면서, 데이터 과학자에게 진단·수정·해결책을 제안합니다.

여기서 반복되는 패턴은 "한 번의 질의응답" 이 아니라 "여러 단계에 걸쳐 컨텍스트를 유지하면서 도구를 호출하고 결과를 갱신" 하는 형태입니다. 이전 세대에서는 Pro급 모델로 무겁게 돌리던 시나리오를 Flash 등급의 가격·지연 프로파일로 끌어내린 것이 핵심 변화입니다.

Gemini Spark: 24시간 동작하는 개인용 AI 에이전트

Gemini 3.5 Flash는 출시와 동시에 Gemini 앱과 Google Search의 AI Mode의 기본 모델이 되었습니다. 그리고 이 모델을 기반으로 새로운 개인용 AI 에이전트 Gemini Spark 도 함께 공개되었습니다. Gemini Spark는 24시간 동작하면서 사용자의 디지털 생활을 대신 탐색하고, 사용자의 지시 아래 행동을 수행하는 것을 목표로 합니다. 신뢰할 수 있는 테스터를 대상으로 우선 배포되며, 미국의 Google AI Ultra 구독자에게는 다음 주부터 베타가 열립니다.

Search의 AI Mode 역시 Gemini 3.5 Flash의 강화된 에이전틱 코딩 능력을 활용하여, 24시간 사용자 대신 일하는 정보 에이전트와 더 동적인 생성형 UI 경험을 제공합니다. 자이로이드(gyroid) 패턴을 인터랙티브 시각화로 만드는 데모처럼, 검색 결과 페이지 자체가 "즉석에서 만들어지는 작은 앱" 처럼 동작하는 사례가 늘어날 전망입니다.

Frontier Safety Framework 기반의 안전 장치

Gemini 3.5 시리즈는 Google DeepMind의 Frontier Safety Framework에 따라 개발되었으며, 사이버·CBRN(화학·생물·방사능·핵) 안전장치가 강화되었습니다. Google은 "유해 콘텐츠 생성 가능성이 낮아지고, 동시에 안전한 질의를 잘못 거부하는 사례도 줄었다" 고 밝히고 있습니다. 이를 위해 더 진전된 안전 학습과 함께, AI의 내부 추론을 모델 응답 이전 단계에서 점검·이해하기 위한 해석 가능성(interpretability) 도구를 활용했다고 설명합니다.

지금 어디서 쓸 수 있나

Gemini 3.5 Flash는 출시 시점부터 다음 경로에서 모두 일반 공개(GA) 상태입니다. 개발자와 소비자, 기업은 다음 채널에서 Gemini 3.5 Flash를 접할 수 있습니다:

개발자: 에이전트 우선 개발 플랫폼 Google Antigravity, Google AI Studio의 Gemini API, Android Studio
소비자: Gemini 앱, Google Search의 AI Mode
기업: Gemini Enterprise Agent Platform, Gemini Enterprise

상위 라인업인 Gemini 3.5 Pro 는 Google 내부에서 이미 사용 중이며, 다음 달 외부 공개 예정입니다. "Flash가 직전 Pro를 앞선다" 는 이번 발표 기조를 고려하면, Pro 공개 시 코딩·에이전트 벤치마크 상위권 지형이 다시 한 번 흔들릴 가능성이 큽니다.

시사점: Flash 등급의 의미가 달라진다

이번 발표가 흥미로운 가장 큰 이유는, Flash 등급 모델의 정의 자체가 바뀌고 있다는 점 입니다. 과거의 Flash는 "품질을 양보하고 속도와 비용을 산다" 는 명확한 트레이드오프 위에 있었습니다. 그러나 Gemini 3.5 Flash는 "직전 세대 Pro를 코딩·에이전트에서 앞서면서 4배 빠르고 비용도 절반 이하" 라는 포지션을 선언합니다. 다중 에이전트 시스템을 설계하는 입장에서, 이는 "기본 워커는 Flash로, 최상위 합성·결정만 Pro급으로 escalate" 하는 패턴이 점점 더 자연스러워진다는 의미입니다.

또한 Antigravity 같은 에이전트 하니스와 MCP 기반 도구 호출이 모델 평가의 1급 시민으로 올라온 점도 주목할 만합니다. 단일 응답 품질뿐 아니라, 서브에이전트를 얼마나 안정적으로 굴릴 수 있는가, 장기 워크플로우에서 컨텍스트를 얼마나 잃지 않는가 가 모델 선택의 기준으로 자리잡고 있습니다. 한국 개발자/연구자 입장에서도, 새 모델을 평가할 때 단발성 벤치마크만이 아니라 자신의 워크플로우 안에서 며칠 단위로 굴려보는 검증 을 함께 설계해야 할 시점입니다.

Gemini 3.5: frontier intelligence with action 소개 블로그

Gemini 모델 홈페이지

Google Antigravity

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~