EmbeddingGemma: Google이 공개한, On-Device Embedding을 위한 308M 규모의 소형 모델

9bow · 9월 15, 2025, 9:31오후

EmbeddingGemma 소개

구글 딥마인드가 새롭게 공개한 EmbeddingGemma는 온디바이스(On-device) 환경에서 동작하는 임베딩 모델로, 성능과 효율성 모두를 갖춘 것이 특징입니다. 모델 크기는 3억 800만(380M) 규모로 비교적 작지만, 그 성능은 기존의 두 배 크기 모델과 견줄 수 있을 정도입니다. 이 모델은 인터넷 연결이 없는 상태에서도 문맥 검색(RAG, Retrieval-Augmented Generation)이나 의미 기반 검색(semantic search)을 구현할 수 있도록 설계되어, 개인 데이터 보호와 빠른 응답 속도가 중요한 모바일·엣지 환경에서 특히 유용합니다.

EmbeddingGemma는 Gemma 3 아키텍처를 기반으로 하며, 100개 이상의 언어를 학습해 다국어 환경에서도 강력한 성능을 발휘합니다. 또한 양자화(Quantization)를 통해 RAM 사용량을 200MB 미만으로 줄였으며, 모바일 기기나 PC 등 일상적인 하드웨어에서 원활하게 작동합니다. 이를 통해 개발자들은 인터넷 연결 없이도 개인 문서 검색, 오프라인 챗봇, 맞춤형 정보 검색 시스템 등을 구축할 수 있게 되었습니다.

EmbeddingGemma 모델이 주목받는 이유는 단순히 경량화된 모델이라는 점뿐만 아니라, 다양한 도구와의 호환성을 갖추고 있다는 점입니다. Hugging Face, Kaggle, Vertex AI는 물론, sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, LangChain 같은 인기 있는 오픈소스 프레임워크와도 쉽게 통합할 수 있어 실무에서 곧바로 활용 가능하다는 점이 강점입니다.

Gemini Embedding과 비교

EmbeddingGemma는 ‘온-디바이스’ 활용을 위한 모델로 설계된 반면, 구글이 제공하는 Gemini Embedding은 서버 사이드에서 대규모 애플리케이션을 위한 고성능 임베딩 모델입니다. 따라서 개인화된 검색, 오프라인 챗봇, 로컬 데이터 기반의 프라이버시 중심 애플리케이션을 만들고자 한다면 EmbeddingGemma가 적합합니다. 반대로 대규모 데이터 처리, 클라우드 기반 검색, 글로벌 서비스 구축을 위해서는 Gemini Embedding이 더 적합합니다. 즉, EmbeddingGemma는 “작지만 강력하고 로컬 최적화된 모델”, Gemini Embedding은 “대규모·클라우드 최적화 모델”이라는 차이를 가지고 있습니다.

EmbeddingGemma의 주요 기능과 특징

모바일 RAG 파이프라인 최적화: EmbeddingGemma는 텍스트를 벡터로 변환해 의미를 수치적으로 표현하는 임베딩을 생성합니다. 이 임베딩을 통해 사용자의 질문과 문서 데이터를 비교하고, 가장 관련성 높은 문서를 찾아내는 검색 과정을 수행할 수 있습니다. RAG 파이프라인에서 검색 품질은 최종 답변의 정확성을 결정짓는 핵심 요소인데, EmbeddingGemma는 고품질 임베딩을 제공함으로써 모바일 환경에서도 정확하고 맥락에 맞는 답변을 생성할 수 있게 해줍니다.

소형 모델에서의 최적화된 성능: EmbeddingGemma는 3억 800만 파라미터 규모로, 그중 약 1억은 모델 파라미터, 2억은 임베딩 파라미터로 구성됩니다. 특히 Matryoshka Representation Learning(MRL) 기법을 적용해 768차원의 고품질 벡터뿐만 아니라 128, 256, 512차원으로 축소된 벡터도 생성할 수 있어, 상황에 따라 속도와 저장 공간을 최적화할 수 있습니다. 또한 EdgeTPU에서 256 토큰 입력 기준 <15ms의 추론 속도를 기록해 실시간 검색과 같은 응답성이 중요한 서비스에 적합합니다.

오프라인·프라이버시 중심 설계: EmbeddingGemma는 인터넷 연결 없이도 동작하도록 설계되어 민감한 데이터를 기기 내부에서 처리할 수 있습니다. 이를 통해 개인 문서, 이메일, 알림 같은 로컬 데이터를 외부 유출 걱정 없이 검색할 수 있습니다. 또한 Gemma 3n 토크나이저와 동일한 방식을 사용해 메모리 사용량을 줄이고, 필요하다면 특정 도메인이나 언어에 맞게 파인튜닝할 수도 있습니다. EmbeddingGemma의 Interactive Demo는 여기에서 확인하실 수 있습니다.
활용 가능 시나리오:
- 오프라인 문서·파일 검색 시스템 구축
- 특정 산업 분야나 기업 맞춤형 챗봇 개발
- 모바일 에이전트를 위한 사용자 질의 분류 및 함수 호출 지원
- 다국어 기반의 검색 및 텍스트 분류

EmbeddingGemma 시작하기

EmbeddingGemma는 이미 다양한 플랫폼에서 제공되고 있어 곧바로 활용할 수 있습니다. 모델 가중치는 Hugging Face, Kaggle, Vertex AI에서 다운로드할 수 있으며, 구글이 제공하는 문서와 예제 노트북을 통해 빠르게 사용법을 익히고 기존 파이프라인에 통합이 가능합니다. 또한 sentence-transformers, LMStudio, LangChain, Weaviate 등과 함께 사용할 수 있어 RAG 파이프라인, 의미 기반 검색, 분류 시스템 개발에 용이합니다.

EmbeddingGemma 공식 문서

EmbeddingGemma 공개 블로그

Gemma Cookbook GitHub 저장소

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~