Gemini 2.5 Flash Image 소개
Google DeepMind와 Google AI 팀은 (최근 Nano-Banana라는 이름으로 알려졌던) Gemini 2.5 Flash Image를 공식 출시했습니다. 이 모델은 올해 초 공개된 Gemini 2.0 Flash의 업그레이드 버전으로, 단순한 이미지 생성 기능을 넘어 정교한 편집, 캐릭터 일관성 유지, 다중 이미지 합성, 자연어 기반 제어까지 가능하게 합니다.
Gemini 2.0 Flash가 저지연(Low latency), 저비용(Cost-effective), 간편한 사용성(Ease of use)을 특징으로 삼았다면, 이번 Gemini 2.5 Flash Image는 개발자와 일반 사용자 모두가 더 고품질의 이미지를 만들고, 원하는 방식으로 제어할 수 있도록 초점을 맞췄습니다. 초기 프리뷰에서 세계적으로 가장 높은 평가를 받은 이미지 편집 모델로 선정되기도 했습니다.
현재 이 모델은 Gemini 앱을 통해 일반 사용자에게 제공되며, 개발자와 기업 고객은 Gemini API, Google AI Studio, **Vertex AI**를 통해 접근할 수 있습니다. 가격은 100만 출력 토큰당 30달러, 이미지 한 장(1290 출력 토큰 기준)당 약 0.039달러로 책정되었습니다.
Gemini 2.5 Flash Image는 단순히 개인 사용자에게 재미있는 편집 경험을 제공하는 것을 넘어, 개발자 중심 생태계를 지향합니다. Google AI Studio의 “Build Mode”를 통해 템플릿 앱을 쉽게 제작하고 배포할 수 있으며, OpenRouter.ai와 fal.ai 같은 플랫폼과 파트너십을 맺어 빠르게 생태계를 확장하고 있습니다.
Gemini 2.5 Flash Image 주요 기능
캐릭터 일관성 유지
이미지 생성의 난제 중 하나는 동일 인물이나 객체를 여러 장면과 편집 상황에서 유지하는 것입니다. Gemini 2.5 Flash Image는 같은 사람이나 동물이 다양한 환경과 스타일 속에서도 원래의 특징을 유지하도록 개선되었습니다.
- 예: 친구의 사진을 업로드한 후 60년대 레트로 헤어스타일을 적용하거나 반려견에게 발레복을 입히더라도 본래 모습이 유지됨.
- 활용 사례: 브랜드 로고 및 마케팅 에셋 제작, 제품 카탈로그 전개, 직원 배지 자동 생성, 부동산 광고용 템플릿 이미지.
이를 보여주기 위해 Google은 Character Consistency Template 앱을 제공하고 있으며, 개발자는 이를 수정해 자신만의 워크플로우로 확장할 수 있습니다.
자연어 기반 이미지 편집
Gemini 2.5 Flash Image는 텍스트 프롬프트를 기반으로 특정 영역을 정밀하게 편집할 수 있습니다. 예를 들어:
- 배경 흐리기 (Blur)
- 티셔츠 얼룩 제거
- 특정 인물 제거
- 피사체의 포즈 변경
- 흑백 사진에 색상 추가
Google은 이를 실습할 수 있는 PixShop Template 앱을 제공하며, UI 기반 조작과 자연어 프롬프트 제어를 함께 지원합니다. 이는 포토샵 수준의 세밀한 편집을 AI와 대화하는 방식으로 구현할 수 있다는 점에서 큰 진전입니다.
세계 지식 기반 이미지 생성
기존 생성형 모델들은 미적 이미지 생성에는 강점이 있었지만, 실제 세계에 대한 이해가 부족했습니다. Gemini 2.5 Flash Image는 **세계 지식(World Knowledge)**을 활용하여 실제 사물, 교육 자료, 다이어그램 이해 등에서 더욱 정확한 결과를 제공합니다.
예를 들어 Google은 CoDrawing Template 앱을 통해 손그림 다이어그램을 입력받아 실시간으로 설명하거나, 교육 보조 도구로 활용할 수 있음을 보여주었습니다. 이 기능은 STEM 교육, 데이터 시각화, 학습용 애플리케이션에서 강력한 잠재력을 가집니다.
다중 이미지 합성 (Multi-Image Fusion)
Gemini 2.5 Flash Image는 여러 장의 이미지를 결합하여 하나의 장면으로 융합할 수 있습니다.
- 예: 방 사진에 새로운 벽 색상이나 가구를 합성하여 인테리어 디자인 시뮬레이션.
- 예: 자신의 사진과 반려견 사진을 합쳐 농구 코트에서 함께 뛰고 있는 장면 생성.
Google은 HomeCanvas Template 앱을 통해 이 기능을 시연했으며, 전자상거래(가상 쇼핑), 광고 제작, 포토몽타주 제작 등에서 유용합니다.
개발자를 위한 활용
Gemini 2.5 Flash Image는 개발자 친화적으로 설계되어 Python SDK와 API 호출을 통해 쉽게 통합할 수 있습니다. 아래는 텍스트와 이미지를 함께 입력해 새로운 이미지를 생성하는 코드 예제입니다:
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
이 예제는 프롬프트 + 이미지 입력 결합을 지원하며, 이를 통해 워크플로우 자동화, 이미지 파이프라인 통합, 맞춤형 AI 편집 툴 제작 등 다양한 활용이 가능합니다. 더 자세한 내용은 개발자 문서를 참고해주세요.
가격 및 제공 방식
- 가격: 100만 출력 토큰당 30달러
- 이미지 1장 생성 비용: 약 0.039달러(1290 토큰)
- 제공 경로: Gemini 앱, Gemini API, Google AI Studio, Vertex AI
- 파트너십: OpenRouter.ai(3백만+ 개발자 커뮤니티), fal.ai(Generative Media 플랫폼)
안전 장치: SynthID 워터마크
Gemini 2.5 Flash Image로 생성된 모든 이미지는 눈에 보이는 워터마크와 DeepMind의 **SynthID 디지털 워터마크**가 삽입됩니다. 이를 통해 AI 생성 이미지를 명확히 구분할 수 있으며, 오용 가능성을 최소화합니다.
Gemini 공식 홈페이지
Gemini 2.5 Flash Image 소개 블로그
Gemini 업그레이드를 통한 이미지 편집 기능 소개 블로그
Gemini Image Generation API 문서
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~