DataGemma: 현실 데이터로 AI 환각 문제를 개선한 모델 (feat. Google & Data Commons)

DataGemma 소개

대형 언어 모델(LLM)은 방대한 텍스트 데이터를 바탕으로 요약 생성, 창의적 제안, 코드 작성 등 다양한 기능을 수행합니다. 하지만 이 과정에서 자신감 있게 부정확한 정보를 제시하는 '환각(hallucination)' 문제를 자주 발생시키며, 이는 생성 AI의 주요 도전 과제 중 하나입니다. 이 문제를 해결하기 위해 구글은 DataGemma를 발표했습니다. DataGemma는 Google의 Data Commons에서 수집한 현실 데이터와 결합해 LLM의 환각을 줄이는 데 목적이 있습니다.

Data Commons: 신뢰할 수 있는 데이터의 저장소

Data Commons는 2400억 개 이상의 데이터 포인트와 수십만 개의 통계 변수를 포함하는 공개 지식 그래프입니다. 이 데이터는 유엔(UN), 세계보건기구(WHO), 질병통제예방센터(CDC) 등의 공신력 있는 기관에서 수집됩니다. Data Commons는 연구자와 정책 입안자에게 신뢰할 수 있는 데이터에 접근할 수 있는 도구를 제공합니다.

Data Commons가 AI 환각 문제를 해결하는 방법

Data Commons의 데이터는 구글의 경량화된 최신 오픈 모델인 Gemma와 통합되어, LLM의 사실성 및 추론 능력을 강화합니다. DataGemma는 신뢰할 수 있는 데이터와 LLM을 결합하여 정보의 정확성을 높이는 데 중점을 둡니다.

이러한 DataGemma의 두 가지 주요 접근 방식은 다음과 같습니다:

RIG (Retrieval-Interleaved Generation)

RIG (Retrieval-Interleaved Generation) 방식은 LLM이 응답을 생성할 때 신뢰할 수 있는 출처를 적극적으로 조회하고, Data Commons에서 데이터를 가져와 사실을 확인합니다. 이를 통해 모델의 환각을 줄이고 정확도를 높입니다.

DataGemma의 RIG 접근법에 대한 설명

다음 예제 Google Colab 노트북을 참고하여 RIG 접근 방법을 직접 경험해보실 수 있습니다:

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) 방식은 모델이 훈련 데이터 외부의 관련 정보를 통합하도록 하여 더 포괄적이고 정보가 풍부한 응답을 생성할 수 있게 합니다. Data Commons에서 컨텍스트 정보를 먼저 검색한 후 응답을 생성함으로써 환각 위험을 최소화합니다.

DataGemma의 RAG 접근법에 대한 설명

다음 예제 Google Colab 노트북을 참고하여 RAG 접근 방법을 직접 경험해보실 수 있습니다:

연구 결과와 향후 방향

DataGemma: RAG 질의와 답변에 대한 설명

RIG와 RAG 접근 방식을 적용한 초기 연구 결과는 고무적입니다. 모델이 숫자 기반 사실을 처리할 때 정확도가 향상된 것을 관찰했으며, 이는 연구, 의사결정 등 다양한 분야에서 환각을 줄일 수 있는 가능성을 보여줍니다. 구글은 이 방법론을 더욱 발전시켜 보다 신뢰성 높은 AI를 제공할 계획입니다.

:scroll: DataGemma 출시 공지 글

:scroll: Google과 Data Commons의 협업에 대한 글

https://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons/

:house: Data Commons 홈페이지

:scroll: RIG/RAG 사용에 따른 환각 감소 현상에 대한 연구 결과

:hugs: DataGemma 모델 가중치




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: