벤치마크가 목표가 될 때: LLM 리더보드의 민감성에 대한 논문

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 최근 다양한 LLM들이 쏟아져 나오며, '우리는 ㅇㅇ 모델보다 성능이 좋다'와 같은 식의 설명들도 함께 나오고 있는데요, 이러한 성능 측정 방법 중 하나인 벤치마크와 이를 통한 리더보드에 대해 살펴본 논문이 있어 살펴보았습니다. :100::face_with_monocle:

  • 이 글에서는 논문을 간단히 살펴보고, 리더보드를 LLM의 절대적인 성능 척도로 삼는 관행에 대한 문제 제기 등의 내용을 위주로 정리하였습니다. 다양한 실험 조건과 환경, 그리고 제약 등을 비롯한 상세한 내용은 논문 및 논문의 Appendix를 참고해주세요! :partying_face:


벤치마크가 목표가 될 때: 대규모 언어 모델 리더보드의 민감성 공개 (When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards)

논문 소개


MMLU 벤치마크에서 평가 형식의 변경이 모델의 순위에 미치는 영향( k_\tau 가 낮을수록 순위 간 불일치가 많음) 가장 좌측부터 1) 기본적인 답안 기호에 따른 평가, 2) 동일한 답변에 대해 답안 기호를 변경한 경우, 3) 특정 순서의 위치에 정답이 고정되도록 답안의 순서를 변경한 경우, 4) Cloze 방식을 사용한 답안 채점

이 연구는 벤치마크 순위에 기반한 모델 선택을 위해 널리 사용되는 대규모 언어 모델(LLM) 리더보드의 심층적인 검토를 다루고 있습니다. 특히, 리더보드 순위를 그대로 받아들이는 현재의 관행이 상당한 문제를 가지고 있음을 밝혀내며, 벤치마킹 과정의 사소한 세부 사항에 대한 순위가 매우 민감하다는 것을 보여주고 있습니다.

체계적인 실험을 통해, 저자들은 다중 선택 문제(MCQ, Multiple Choice Question)에서 답안의 순서를 변경하거나 답변 선택 방법과 같은 작은 변화가 모델 순위에 큰 변화를 초래할 수 있음을 밝혀냈습니다. 저자들은 이러한 문제를 완화하기 위한 여러 가지 최선의 방법을 제안하여, LLM에 대한 더 견고한 평가 체계 개발을 위한 길을 제시합니다. 이 논문은 AI 분야의 실무자와 연구자에게 필수적인 읽을 거리로, 단순한 벤치마크 평가에 대한 과도한 의존성의 위험을 강조하고 더 정확하고 신뢰할 수 있는 모델 평가 방법으로 나아가는 길을 제시합니다.

벤치마크(Benchmark)와 리더보드(Leaderboard)에 대한 설명

벤치마크(Benchmark) 는 특정 작업에서 다양한 모델의 성능을 비교하는 표준화된 테스트로, 다양한 모델의 성능을 평가 및 비교할 수 있게 해줍니다. 이러한 벤치마크는 데이터셋과 평가 지표로 구성되며, 정확성, 속도 및 견고성과 같은 것을 포함합니다. 예를 들어, 대규모 언어 모델(LLM)을 위한 벤치마크는 텍스트 완성, 질문 응답 및 언어 이해와 같은 작업을 포함하여 다양한 모델의 능력을 체계적으로 측정할 수 있게 합니다.

리더보드(Leaderboard) 는 벤치마크를 통해 측정한 정확도 또는 기타 성능 지표를 기반으로 모델 순위를 제공합니다. 리더보드는 모델의 능력에 대한 객관적인 척도를 제공한다는 가정하에 작동합니다.

주요 내용

이 논문은 벤치마크 변동에 따른 모델 순위의 영향을 체계적으로 조사함으로써 LLM 평가에 대한 새로운 관점을 소개합니다. 주요 기여도는 MCQ 순서, 답변 선택 방법 및 프롬프트 수정이 LLM 성능에 미치는 영향에 대한 상세한 분석을 포함합니다. 이 접근 방식은 기존의 성능 지표를 넘어서 모델 순위의 안정성과 견고성에 초점을 맞추며, 벤치마크를 보다 효과적으로 설계하는 방법에 대한 통찰력을 제공합니다.

저자들은 벤치마크 변동의 세 가지 광범위한 범주의 영향을 탐색하기 위해 포괄적인 실험 세트를 수행했습니다:

답변 선택 형식 및 순서(Answer choice format and ordering)

답안 선택의 제시 순서와 이러한 선택에 사용된 기호가 LLM 성능에 어떤 영향을 미치는지에 초점을 맞췄습니다. 특히, 모든 문제에 대해 답변이 "무작위로 나열된 경우(Random choice order)"와 "편향된 순서(Biased choice order)"로 구분하여, 각 방식이 답안 선택의 원래 순서에 대한 LLM의 의존성을 테스트하는 실험을 수행했습니다. 또한, 전체 질문에 대해 정답을 고정된 위치에 설정하여 특정 위치에서 답을 예측하는 편향성을 측정함으로써 편향된 선택 순서의 효과를 탐구하고 있습니다. 또한, 답안 선택에 사용되는 기호도 다양하여 A, B, C, D와 같은 일반적인 기호 대신, $, &, #, @와 같이 언어와 상관없이 일반적으로 사용하는 토큰이나 œ, §, Ze (Cyrillic), ü와 같이 어떠한 (순서와 관련한) 연관도 없는 희귀 토큰으로 대체하여 위치 편향과 기호 편향을 분리하는 실험을 했습니다. 이 접근 방식은 모델이 정답을 도출하기 위해 내용을 이해하기보다는 답안 배치의 패턴을 활용하는 방법을 실수로 학습하고 있는지 확인하는 데 도움이 됩니다.

프롬프트 및 채점 방식 수정(Prompt and scoring modifications)

여기에서는 프롬프트 형식 및 채점 방법의 변형에 대한 LLM의 민감도를 조사하기 위한 실험을 진행하였습니다. 저자는 MCQ의 채점 방식을 크게 기호 채점(Symbol Scoring), 하이브리드 채점(Hybrid Scoring), 폐쇄형 채점(Cloze Scoring)의 세 가지로 구분합니다:

  • 기호 채점은 답안 기호에 대한 가능성 점수를 기준으로 답을 선택하고,
  • 하이브리드 채점은 길이에 따라 정규화된 답안의 내용을 기준으로 하며,
  • 클로즈 채점은 모든 답안에 대해 정규화된 가능성 점수가 가장 큰 답을 선택하는 방식입니다.

이 실험은 프롬프트 템플릿의 지침 및 센티널 토큰의 추가 수정을 포함하여 다양한 프롬프트 템플릿과 채점 스타일이 모델 성능에 어떤 영향을 미치는지 이해하는 것을 목표로 합니다.

맥락 내 지식 조작(In-context knowledge manipulation)

몇 문장으로 구성된 예제에서 제공되는 지식을 다양하게 변경하는 것이 성능에 미치는 영향을 테스트하여 몇 문장으로 구성된 설정에서 모델과 벤치마크의 견고성을 측정하는 것을 목표로 합니다. 여기에는 정답이 문맥에 맞게 제공되거나, 오답이 제공되거나, 사소한 예제가 사용되거나, 도메인 외 예제가 몇 샷 예제로 추가되는 설정이 포함됩니다. 이러한 실험은 LLM이 문맥에 제공된 정보에 어떻게 적응하는지, 그리고 잘못된 문맥을 무시하고 독립적으로 정답을 판단할 수 있는지 관찰하기 위해 고안되었습니다.

결과

실험에 따른 모델의 순위 변화

LLM 리더보드가 사소한 벤치마크 변동에 견고하지 않으며, 모델 순위가 사소한 변경에 따라 크게 변동될 수 있음을 실험을 통해 보였습니다. 이 결과는 현재 리더보드 기반 모델 선택 관행의 신뢰성에 의문을 제기하며, 벤치마크 세부 사항에 대한 LLM의 민감성을 고려하는 더 포괄적인 평가 방법의 필요성을 강조합니다.

더 읽어보기




이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck: