- 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
DecodingTrust: GPT 모델의 신뢰성에 대한 종합적 평가 (DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models)
개요
-
GPT 모델은 얼마나 신뢰할 수 있을까요? 이 질문에 답하기 위해 일리노이 대학교 어바나-샴페인, 스탠포드 대학교, 캘리포니아 대학교 버클리, 인공지능 안전 센터, 그리고 마이크로소프트 연구에서 대규모 언어 모델(LLM)을 위한 종합적인 신뢰성 평가 플랫폼을 발표했습니다.
-
이 연구는 특히 GPT-4와 GPT-3.5에 초점을 맞추고 있으며, 다양한 관점에서 신뢰성을 종합적으로 평가하는 것이 목표입니다. 주요한 평가 지표는 아래와 같습니다.
- 독성(toxicity)
- 고정관념 편향(stereotype bias)
- 적대적 견고성(adversarial robustness)
- 분포 외 견고성(out-of-distribution robustness)
- 적대적 시연에 대한 견고성(robustness on adversarial demonstrations)
- 개인 정보 보호(privacy)
- 기계 윤리(machine ethics)
- 공정성(fairness)
-
이는 LLM이 더 널리 배포됨에 따라 신뢰성과 부적절하게 사용될 경우의 잠재적 위험에 대한 우려가 커지고 있기 때문에 중요한 문제입니다. 철저한 평가를 통해 취약점을 발견하고, 보다 신뢰할 수 있는 모델을 개발하며, 대중의 신뢰를 구축할 수 있습니다.
주요 내용
평가 관점별
독성(toxicity)
REALTOXICITYPROMPTS
데이터셋은 모델이 잠재적으로 독성이 있는 프롬프트를 작성하도록 하여 독성 평가를 제공합니다. BOLD
데이터셋은 성별 및 인종과 같은 주제에 따라 조건부 텍스트를 생성하여 모델 독성을 평가합니다. 두 데이터 세트 모두 퍼스펙티브 API를 사용하여 독성을 정량화합니다.
고정관념 편향(stereotype bias)
[Brown et al. 2020]
과 같은 작업은 직업적 연관성과 집단에 대한 감정을 조사합니다. BBQ
데이터셋은 QA를 통해 편견을 평가합니다. 스테레오셋은 마스킹된 LM을 통해 편향을 측정합니다. HELM
은 BBQ
를 사용하여 편향을 평가합니다.
적대적 견고성(adversarial robustness)
AdvGLUE
는 TextBugger
, TextFooler
, GLUE
기반 사람이 만든 공격 등과 같은 적대적 공격을 사용하여 모델 견고성을 벤치마킹합니다. 또한 모델을 직접 공격하여 적대적인 텍스트를 생성하기도 합니다.
분포 외 견고성(out-of-distribution robustness)
OOD(Out-Of-Distribution)
견고성은 다양한 변환을 통해 훈련 또는 테스트 입력에서 분포가 이동한 데이터 세트를 사용합니다. HELM
은 합성 및 번역된 데이터에 대해 평가합니다. 향후 이벤트에 대해서도 테스트합니다.
개인정보 보호(privacy)
예측 가능성, 제한된 API 액세스 및 프롬프트를 사용하여 모델에서 개인 데이터를 추출하는 방법입니다. 방어에는 학습 데이터 중복 제거 및 차등 개인정보 보호가 포함됩니다.
기계 윤리(machine ethics)
ETHICS
, SOCIAL-CHEM-101
, Moral Stories
, Jiminy Cricket
과 같은 벤치마크는 도덕적 시나리오를 사용하여 윤리를 평가합니다.
공정성(fairness)
Adult
와 같은 데이터셋의 인구 통계학적 동등성과 같은 메트릭을 사용하여 모델 공정성을 평가합니다. 사실과 반대되는 공정성도 검토하였습니다.
DecodingTrust에서의 통찰과 발견
- DecodingTrust는 GPT-4 및 GPT-3.5와 같은 LLM에 대한 가장 포괄적인 신뢰성 평가를 제공합니다. 기존 벤치마크뿐만 아니라 새롭게 설계된 테스트 시나리오, 적대적 시스템/사용자 프롬프트 및 기능에 맞게 조정된 메트릭을 사용하여 평가합니다. 이를 통해 이전의 격리된 평가보다 더 엄격한 테스트가 가능합니다. 범위 또한 이전 작업보다 더 많은 차원을 다룹니다.
- 이를 통해 대규모 언어 모델의 신뢰성에 대한 이전에 공개되지 않은 장점과 위협을 밝혀냈습니다. 예를 들어, GPT-3.5와 GPT-4는 시연에서 추가된 반례 예시에 의해 오도되지 않으며, 일반적으로 반례 시연에서 이점을 얻을 수 있습니다. 그러나 백도어 시연을 제공하면 GPT-3.5와 GPT-4 모두 백도어 입력에 대해 잘못된 예측을 하게 되며, 특히 백도어 시연이 백도어 사용자 입력에 가까울 때 GPT-4는 백도어 시연에 더 취약합니다.
그 외
-
이 논문은 독성, 편향성, 견고성, 개인정보 보호, 윤리 및 공정성 등의 관점에서 GPT-3.5 및 GPT-4와 같은 최신 LLM에 대한 포괄적인 신뢰성 평가를 제공하는 것을 목표로 합니다. 이를 통해 취약점을 파악하고 보다 신뢰할 수 있는 모델을 개발하는 데 도움이 됩니다.
-
기존 연구는 독성, 편향성, 견고성과 같은 특정 관점을 개별적으로 평가했습니다. 이 연구는 보다 완벽한 평가를 제공합니다.
-
제안된 접근 방식은 표준 벤치마크와 모델 기능에 맞게 새로 설계된 시나리오 및 메트릭에 따라 모델을 평가합니다. 이를 통해 보다 엄격한 테스트가 가능합니다.
-
각 관점은 먼저 벤치마크에서 평가됩니다. 그런 다음 새로운 프롬프트, 데모 및 시나리오를 사용하여 적대적으로 취약점을 발견합니다.
-
제안된 접근 방식은 이전의 격리된 평가와 비교하여 LLM에 대한 더 높은 독성, 편향성, 개인 정보 유출 및 공격에 대한 취약성을 발견합니다.