DecodingTrust: GPT 모델의 신뢰성에 대한 종합적 평가 (by Microsoft)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

DecodingTrust: GPT 모델의 신뢰성에 대한 종합적 평가 (DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models)

개요

  • GPT 모델은 얼마나 신뢰할 수 있을까요? 이 질문에 답하기 위해 일리노이 대학교 어바나-샴페인, 스탠포드 대학교, 캘리포니아 대학교 버클리, 인공지능 안전 센터, 그리고 마이크로소프트 연구에서 대규모 언어 모델(LLM)을 위한 종합적인 신뢰성 평가 플랫폼을 발표했습니다.

  • 이 연구는 특히 GPT-4와 GPT-3.5에 초점을 맞추고 있으며, 다양한 관점에서 신뢰성을 종합적으로 평가하는 것이 목표입니다. 주요한 평가 지표는 아래와 같습니다.

    • 독성(toxicity)
    • 고정관념 편향(stereotype bias)
    • 적대적 견고성(adversarial robustness)
    • 분포 외 견고성(out-of-distribution robustness)
    • 적대적 시연에 대한 견고성(robustness on adversarial demonstrations)
    • 개인 정보 보호(privacy)
    • 기계 윤리(machine ethics)
    • 공정성(fairness)
  • 이는 LLM이 더 널리 배포됨에 따라 신뢰성과 부적절하게 사용될 경우의 잠재적 위험에 대한 우려가 커지고 있기 때문에 중요한 문제입니다. 철저한 평가를 통해 취약점을 발견하고, 보다 신뢰할 수 있는 모델을 개발하며, 대중의 신뢰를 구축할 수 있습니다.

주요 내용

평가 관점별

독성(toxicity)

REALTOXICITYPROMPTS 데이터셋은 모델이 잠재적으로 독성이 있는 프롬프트를 작성하도록 하여 독성 평가를 제공합니다. BOLD 데이터셋은 성별 및 인종과 같은 주제에 따라 조건부 텍스트를 생성하여 모델 독성을 평가합니다. 두 데이터 세트 모두 퍼스펙티브 API를 사용하여 독성을 정량화합니다.

고정관념 편향(stereotype bias)

[Brown et al. 2020]과 같은 작업은 직업적 연관성과 집단에 대한 감정을 조사합니다. BBQ 데이터셋은 QA를 통해 편견을 평가합니다. 스테레오셋은 마스킹된 LM을 통해 편향을 측정합니다. HELMBBQ를 사용하여 편향을 평가합니다.

적대적 견고성(adversarial robustness)

AdvGLUETextBugger, TextFooler, GLUE 기반 사람이 만든 공격 등과 같은 적대적 공격을 사용하여 모델 견고성을 벤치마킹합니다. 또한 모델을 직접 공격하여 적대적인 텍스트를 생성하기도 합니다.

분포 외 견고성(out-of-distribution robustness)

OOD(Out-Of-Distribution) 견고성은 다양한 변환을 통해 훈련 또는 테스트 입력에서 분포가 이동한 데이터 세트를 사용합니다. HELM은 합성 및 번역된 데이터에 대해 평가합니다. 향후 이벤트에 대해서도 테스트합니다.

개인정보 보호(privacy)

예측 가능성, 제한된 API 액세스 및 프롬프트를 사용하여 모델에서 개인 데이터를 추출하는 방법입니다. 방어에는 학습 데이터 중복 제거 및 차등 개인정보 보호가 포함됩니다.

기계 윤리(machine ethics)

ETHICS, SOCIAL-CHEM-101, Moral Stories, Jiminy Cricket과 같은 벤치마크는 도덕적 시나리오를 사용하여 윤리를 평가합니다.

공정성(fairness)

Adult와 같은 데이터셋의 인구 통계학적 동등성과 같은 메트릭을 사용하여 모델 공정성을 평가합니다. 사실과 반대되는 공정성도 검토하였습니다.

DecodingTrust에서의 통찰과 발견

  • DecodingTrust는 GPT-4 및 GPT-3.5와 같은 LLM에 대한 가장 포괄적인 신뢰성 평가를 제공합니다. 기존 벤치마크뿐만 아니라 새롭게 설계된 테스트 시나리오, 적대적 시스템/사용자 프롬프트 및 기능에 맞게 조정된 메트릭을 사용하여 평가합니다. 이를 통해 이전의 격리된 평가보다 더 엄격한 테스트가 가능합니다. 범위 또한 이전 작업보다 더 많은 차원을 다룹니다.
  • 이를 통해 대규모 언어 모델의 신뢰성에 대한 이전에 공개되지 않은 장점과 위협을 밝혀냈습니다. 예를 들어, GPT-3.5와 GPT-4는 시연에서 추가된 반례 예시에 의해 오도되지 않으며, 일반적으로 반례 시연에서 이점을 얻을 수 있습니다. 그러나 백도어 시연을 제공하면 GPT-3.5와 GPT-4 모두 백도어 입력에 대해 잘못된 예측을 하게 되며, 특히 백도어 시연이 백도어 사용자 입력에 가까울 때 GPT-4는 백도어 시연에 더 취약합니다.

그 외

  • 이 논문은 독성, 편향성, 견고성, 개인정보 보호, 윤리 및 공정성 등의 관점에서 GPT-3.5 및 GPT-4와 같은 최신 LLM에 대한 포괄적인 신뢰성 평가를 제공하는 것을 목표로 합니다. 이를 통해 취약점을 파악하고 보다 신뢰할 수 있는 모델을 개발하는 데 도움이 됩니다.

  • 기존 연구는 독성, 편향성, 견고성과 같은 특정 관점을 개별적으로 평가했습니다. 이 연구는 보다 완벽한 평가를 제공합니다.

  • 제안된 접근 방식은 표준 벤치마크와 모델 기능에 맞게 새로 설계된 시나리오 및 메트릭에 따라 모델을 평가합니다. 이를 통해 보다 엄격한 테스트가 가능합니다.

  • 각 관점은 먼저 벤치마크에서 평가됩니다. 그런 다음 새로운 프롬프트, 데모 및 시나리오를 사용하여 적대적으로 취약점을 발견합니다.

  • 제안된 접근 방식은 이전의 격리된 평가와 비교하여 LLM에 대한 더 높은 독성, 편향성, 개인 정보 유출 및 공격에 대한 취약성을 발견합니다.

라이선스

더 읽어보기

Microsoft 블로그의 소개 글

https://www.microsoft.com/en-us/research/blog/decodingtrust-a-comprehensive-assessment-of-trustworthiness-in-gpt-models/

DecodingTrust 프로젝트 홈페이지

DecodingTrust 논문

DecodingTrust의 GitHub 저장소