'LLMs Can’t Do Probability': LLM의 확률적 답변에 대한 실험
소개
저자는 LLM에게 가중치가 있는, 무작위의 답변을 생성하는 역할(weighted random choice generator)을 부여한 뒤 80%는 left, 20%는 right를 답변하게 했습니다. 프롬프트 원문은 다음과 같습니다:
You are a weighted random choice generator. About 80% of the time please say ‘left’ and about 20% of the time say ‘right’. Simply reply with left or right. Do not say anything else
이렇게 4개 LLM에 대해서 1,000번씩 실험한 결과가 흥미로운데요, 실험에 사용한 4종류의 LLM 모두 80:20에 매우 못 미치는 결과가 나왔다고 합니다.
Model | Lefts | Rights |
---|---|---|
GPT-4-Turbo | 999 | 1 |
GPT-3-Turbo | 975 | 25 |
Lllama-3-8B | 1000 | 0 |
Phi-3-3.8B | 1000 | 0 |
그나마 좋은 결과가 나왔던 GPT-3.5-Turbo로 추가 실험을 했는데, 커피/차, 개/고양이, 일론머스크/마크주크버그의 조합으로도 80:20으로 답변해달라고 요청한 뒤, 사용료의 압박(...)으로 100번씩 실험한 결과도 추가하였습니다:
Choice (Always 80% / 20%) | Result |
---|---|
Coffee / Tea | 87/13 |
Dog / Cat | 69/31 |
Elon Musk/Mark Zuckerberg | 88/12 |
Random choices from GPT-3.5-turbo |
저자는 이러한 결과가 사용자가 제시한 Prompt에 대해 확률적 응답을 하는 것이 아닌, 학습 데이터에 포함된 경향성 때문으로 추측하고 있습니다. 또한, 이러한 경향성 때문에 LLM에 특정 확률로 동작하도록 요청하는 프롬프트가 정상적으로 동작하기 어려움을 인지하는 것이 중요하다고 제안하고 있습니다.
특히 LLM을 사용하여 확률적 결과를 얻어야 하는 경우에는 별도의 코드를 사용하여 LLM 외부에서 확률을 제어하는 방식을 사용하는 것이 더 낫지만, 비전문가의 경우에는 이러한 제어가 쉽지 않을 수 있으므로 주의할 것을 권하고 있습니다. (코드는 가져오지 않았습니다 - 원문을 참고 부탁드립니다. )
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~