DataGemma 소개
대형 언어 모델(LLM)은 방대한 텍스트 데이터를 바탕으로 요약 생성, 창의적 제안, 코드 작성 등 다양한 기능을 수행합니다. 하지만 이 과정에서 자신감 있게 부정확한 정보를 제시하는 '환각(hallucination)' 문제를 자주 발생시키며, 이는 생성 AI의 주요 도전 과제 중 하나입니다. 이 문제를 해결하기 위해 구글은 DataGemma를 발표했습니다. DataGemma는 Google의 Data Commons에서 수집한 현실 데이터와 결합해 LLM의 환각을 줄이는 데 목적이 있습니다.
Data Commons: 신뢰할 수 있는 데이터의 저장소
Data Commons는 2400억 개 이상의 데이터 포인트와 수십만 개의 통계 변수를 포함하는 공개 지식 그래프입니다. 이 데이터는 유엔(UN), 세계보건기구(WHO), 질병통제예방센터(CDC) 등의 공신력 있는 기관에서 수집됩니다. Data Commons는 연구자와 정책 입안자에게 신뢰할 수 있는 데이터에 접근할 수 있는 도구를 제공합니다.
Data Commons가 AI 환각 문제를 해결하는 방법
Data Commons의 데이터는 구글의 경량화된 최신 오픈 모델인 Gemma와 통합되어, LLM의 사실성 및 추론 능력을 강화합니다. DataGemma는 신뢰할 수 있는 데이터와 LLM을 결합하여 정보의 정확성을 높이는 데 중점을 둡니다.
이러한 DataGemma의 두 가지 주요 접근 방식은 다음과 같습니다:
RIG (Retrieval-Interleaved Generation)
RIG (Retrieval-Interleaved Generation) 방식은 LLM이 응답을 생성할 때 신뢰할 수 있는 출처를 적극적으로 조회하고, Data Commons에서 데이터를 가져와 사실을 확인합니다. 이를 통해 모델의 환각을 줄이고 정확도를 높입니다.
다음 예제 Google Colab 노트북을 참고하여 RIG 접근 방법을 직접 경험해보실 수 있습니다:
RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation) 방식은 모델이 훈련 데이터 외부의 관련 정보를 통합하도록 하여 더 포괄적이고 정보가 풍부한 응답을 생성할 수 있게 합니다. Data Commons에서 컨텍스트 정보를 먼저 검색한 후 응답을 생성함으로써 환각 위험을 최소화합니다.
다음 예제 Google Colab 노트북을 참고하여 RAG 접근 방법을 직접 경험해보실 수 있습니다:
연구 결과와 향후 방향
RIG와 RAG 접근 방식을 적용한 초기 연구 결과는 고무적입니다. 모델이 숫자 기반 사실을 처리할 때 정확도가 향상된 것을 관찰했으며, 이는 연구, 의사결정 등 다양한 분야에서 환각을 줄일 수 있는 가능성을 보여줍니다. 구글은 이 방법론을 더욱 발전시켜 보다 신뢰성 높은 AI를 제공할 계획입니다.
DataGemma 출시 공지 글
Google과 Data Commons의 협업에 대한 글
https://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons/
Data Commons 홈페이지
RIG/RAG 사용에 따른 환각 감소 현상에 대한 연구 결과
DataGemma 모델 가중치
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~