베이지안 티칭(Bayesian Teaching): LLM에게 베이지안처럼 추론하는 법을 가르치는 Google Research의 연구

9bow · 4월 7, 2026, 9:30오후

Bayesian Teaching 개요

연구 소개 및 배경

대규모 언어 모델(LLM)은 텍스트 생성, 코드 작성, 질의응답 등 다양한 작업에서 뛰어난 성능을 보여주고 있습니다. 하지만 이러한 모델들이 사용자와 여러 차례 상호작용하면서 사용자의 선호도를 점진적으로 파악하고, 새로운 정보를 바탕으로 자신의 믿음(belief)을 업데이트하는 능력은 여전히 제한적입니다.

예를 들어, 개인화된 추천 시스템에서는 사용자의 선택 패턴을 관찰하면서 그 사용자가 무엇을 선호하는지 점차 추론해나가야 합니다. 사용자가 특정 식당을 선택하고, 특정 영화를 시청하고, 특정 상품을 구매할 때마다, 시스템은 이 선택들 뒤에 숨겨진 선호 패턴을 파악해야 합니다. "이 사용자는 가격보다 품질을 중시하는가?", "짧은 비행 시간을 선호하는가, 직항을 선호하는가?" 같은 질문에 대한 답을 점차 좁혀나가야 하는 것입니다.

이런 상황에서 최적의 확률 업데이트 방법으로 알려진 것이 바로 베이지안 추론(Bayesian inference)입니다. 베이지안 추론은 사전 믿음(prior belief)을 새로운 증거에 따라 체계적으로 갱신하는 수학적 프레임워크로, 불확실한 상황에서의 의사결정에 가장 합리적인 접근법으로 여겨집니다. 처음에는 사용자의 선호에 대해 균등한 확률을 부여하다가, 관찰이 축적될수록 특정 선호도에 대한 확률을 높여가는 방식입니다.

하지만 특별한 학습 없이는 LLM이 이런 베이지안 추론을 수행하기 어렵습니다. 기존 LLM들은 단순한 휴리스틱에 의존하는 경향이 있어, 한 번의 상호작용 이후에는 성능이 정체되는 한계를 보였습니다. Google Research의 Sjoerd van Steenkiste와 Tal Linzen은 이 문제를 해결하기 위해 "Bayesian Teaching"이라는 새로운 접근법을 제안했습니다. 이 연구는 Nature Communications에 "Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models"라는 제목으로 발표되었으며, LLM이 베이지안 모델의 예측을 모방하도록 훈련하면 추천 작업뿐 아니라 다른 도메인으로도 일반화할 수 있음을 보여줍니다.

기존 LLM의 베이지안 추론 능력 평가

항공편 추천 실험 설계

연구팀은 LLM의 베이지안 추론 능력을 평가하기 위해 단순화된 항공편 추천 과제를 설계했습니다. 이 과제에서 LLM은 시뮬레이션된 사용자와 5라운드에 걸쳐 상호작용합니다.

각 항공편은 출발 시간, 비행 시간, 경유 횟수, 비용이라는 4가지 속성으로 정의됩니다. 시뮬레이션된 사용자들은 각 속성에 대해 높은 값 선호, 낮은 값 선호, 강한 선호, 약한 선호, 선호 없음 등의 다양한 조합으로 특성화됩니다. 이러한 조합의 수가 매우 크기 때문에, 어시스턴트는 단 몇 번의 관찰만으로 사용자의 선호 프로필을 정확히 파악해야 하는 도전적인 과제에 직면하게 됩니다.

실험의 흐름은 다음과 같습니다. 먼저 어시스턴트가 사용자에게 항공편을 추천하면, 사용자는 제시된 옵션 중 자신의 선호에 가장 맞는 항공편을 선택합니다. 어시스턴트는 이 피드백을 바탕으로 다음 라운드에서 더 나은 추천을 시도합니다. 이 과정을 5라운드 반복하면서, 어시스턴트가 사용자의 숨겨진 선호를 얼마나 정확하게 파악해 나가는지를 측정합니다.

여기서 핵심적인 비교 대상은 베이지안 어시스턴트(Bayesian Assistant) 입니다. 이 어시스턴트는 베이즈 정리(Bayes' rule)를 사용하여 매 라운드마다 사용자의 선호에 대한 확률 분포를 최적으로 업데이트합니다. 사용자가 선택한 항공편 정보를 바탕으로, 아직 관찰하지 못한 선호도에 대해서도 불확실성을 유지하면서 점진적으로 추론을 정교화해 나갑니다.

구체적으로, 베이지안 어시스턴트는 사용자의 선호에 대한 모든 가능한 조합에 대해 사전 확률(prior)을 균등하게 설정한 뒤, 사용자가 특정 항공편을 선택할 때마다 그 선택이 각 선호 조합에서 관찰될 가능성(likelihood)을 계산하여 사후 확률(posterior)을 갱신합니다. 라운드가 진행될수록 특정 선호 조합에 대한 사후 확률이 수렴하게 되고, 이에 따라 추천의 정확도가 높아집니다.

성능 평가: 베이지안 어시스턴트 vs. 기존 LLM

연구팀은 624명의 사용자와의 3세트 상호작용에서 첫 번째 라운드와 마지막 라운드의 추천 정확도를 비교했습니다. 비교 대상에는 여러 종류의 기성(Off-the-Shelf) LLM과 인간 참여자, 그리고 베이지안 어시스턴트가 포함되었습니다.

그 결과, 베이지안 어시스턴트가 마지막 라운드에서 81%의 정확도를 달성한 반면, 기존의 다양한 LLM들은 이보다 현저히 낮은 성능을 보였습니다. 인간 참여자들도 비교 대상에 포함되었는데, LLM과 유사한 수준의 성능을 기록하며 베이지안 어시스턴트에 크게 뒤처졌습니다. 이는 확률적 추론이 인간에게도 직관적이지 않은 어려운 과제임을 시사합니다.

특히 주목할 점은, LLM의 성능이 단 한 번의 상호작용 이후 정체되어, 새로운 정보에 적응하는 능력이 제한적이라는 발견입니다. 베이지안 어시스턴트는 라운드가 진행될수록 꾸준히 정확도가 상승한 반면, LLM은 첫 라운드 이후 성능 향상이 거의 없었습니다. 5라운드의 상호작용 끝에도 LLM의 정확도는 첫 라운드와 크게 다르지 않았던 것입니다.

이는 마치 학생이 시험 문제를 풀 때 첫 번째 힌트만 보고 답을 결정한 뒤, 이후의 추가 힌트들은 무시하는 것과 비슷합니다. 기존 LLM들은 첫 상호작용에서 얻은 정보를 바탕으로 패턴을 매칭하지만, 후속 상호작용에서 얻는 새로운 증거를 자신의 추론에 효과적으로 통합하지 못하는 것입니다.

이러한 한계는 LLM의 근본적인 작동 방식과 관련이 있습니다. LLM은 사전 훈련 과정에서 대규모 텍스트 데이터의 통계적 패턴을 학습하지만, 이 과정에서 증거를 바탕으로 믿음을 업데이트하는 능력을 체계적으로 학습하지는 않습니다. 사전 훈련 데이터에 베이지안 추론의 예시가 포함되어 있을 수는 있지만, 그것만으로는 개별 사용자의 고유한 선호를 실시간으로 추론하는 능력을 갖추기에 충분하지 않다는 점을 이 실험이 명확히 보여주고 있습니다.

베이지안 티칭(Bayesian Teaching) 프레임워크

핵심 아이디어

베이지안 티칭의 핵심 아이디어는 LLM이 베이지안 어시스턴트의 행동을 관찰하고 모방하도록 파인튜닝(fine-tuning)하는 것입니다. LLM에게 있어 "세계 상태(World State)"란 사실, 관계, 개념에 대한 내부 표현이며, 베이지안 프레임워크에서는 이러한 사전 믿음(prior belief)을 새로운 데이터를 반영한 사후 믿음(posterior belief)으로 전환하는 것이 핵심입니다.

이 접근법의 장점은 LLM에게 베이즈 정리의 수식을 명시적으로 가르치거나 프롬프트에 포함시키는 것이 아니라, 베이지안 추론을 수행하는 에이전트의 행동 패턴을 관찰하도록 한다는 점입니다. 수식을 이해시키는 대신 "올바르게 추론하는 모습"을 보여주는 것입니다. LLM은 "왜 이 추천이 바뀌었는가", "어떤 정보가 이 변화를 이끌었는가"를 암묵적으로 학습하게 됩니다. 이는 사람이 수학 공식을 외우지 않고도 경험을 통해 직관적으로 확률적 판단을 하는 것과 유사한 학습 방식이라 할 수 있습니다.

두 가지 파인튜닝 전략

연구팀은 두 가지 파인튜닝 전략을 비교했습니다.

오라클 티칭(Oracle Teaching): 오라클 티칭에서는 LLM이 시뮬레이션된 사용자와 완벽한 지식을 가진 오라클 어시스턴트 사이의 상호작용을 관찰합니다. 오라클 어시스턴트는 사용자의 선호도를 처음부터 완벽하게 알고 있으므로, 항상 최적의 항공편을 추천합니다. 첫 라운드에서든 마지막 라운드에서든, 오라클은 동일하게 정확한 추천을 합니다. 이 방식은 LLM에게 "정답"을 직접 보여주는 교사 역할을 합니다.

베이지안 티칭(Bayesian Teaching): 베이지안 티칭에서는 LLM이 베이지안 어시스턴트와 사용자의 상호작용을 관찰합니다. 베이지안 어시스턴트는 초기에 사용자의 선호를 모르는 상태에서 시작하므로, 초반에는 최적이 아닌 선택을 할 수도 있습니다. 하지만 라운드가 진행될수록 베이즈 정리에 따라 믿음을 업데이트하며 점점 더 정확한 추천을 하게 됩니다.

연구팀은 "베이지안 어시스턴트의 최선의 추측을 모방하는 것이 LLM에게 불확실성을 유지하고 믿음을 더 효과적으로 업데이트하는 방법을 가르칠 것"이라고 가설을 세웠습니다. 오라클이 보여주는 "완벽한 정답"보다, 베이지안 어시스턴트가 보여주는 "불확실성 속에서 점진적으로 개선해 나가는 과정"이 LLM의 추론 능력 향상에 더 유익하리라는 것입니다.

베이지안 티칭(Bayesian Teaching) 프레임워크: 실험 결과

파인튜닝의 효과

연구팀은 Gemma와 Qwen 두 가지 오픈소스 LLM 계열을 대상으로 지도 파인튜닝(Supervised Fine-Tuning, SFT) 실험을 진행했습니다. 각 모델의 베이스(base) 버전과 인스트럭션 튜닝(instruction-tuned) 버전 모두를 실험에 포함시켜, 파인튜닝의 효과를 다각도로 검증했습니다.

두 가지 파인튜닝 접근법 모두 기존 LLM 대비 성능을 크게 향상시켰습니다. 파인튜닝 전에는 라운드가 진행되어도 정확도가 거의 변하지 않았던 모델들이, 파인튜닝 후에는 라운드가 진행될수록 정확도가 꾸준히 상승하는 패턴을 보였습니다. 이는 파인튜닝을 통해 LLM이 "관찰로부터 학습하여 다음 행동을 개선하는" 능력을 획득했음을 의미합니다.

특히 주목할 점은 베이지안 티칭이 오라클 티칭보다 일관되게 더 높은 성능을 달성했다는 것입니다. 이 결과는 직관적으로 놀랍습니다. 오라클 티칭은 항상 "정답"을 보여주는 반면, 베이지안 티칭은 초반에 "틀린" 추천도 포함하기 때문입니다.

그러나 이 결과에는 깊은 통찰이 담겨 있습니다. 오라클은 불확실성이 없는 상황만을 보여주므로, LLM은 "정보가 부족할 때 어떻게 행동해야 하는가"를 배우지 못합니다. 오라클의 추천은 라운드 간 변화가 없기 때문에, LLM이 "증거를 반영한 업데이트"라는 개념 자체를 학습할 기회가 없습니다. 반면 베이지안 어시스턴트의 행동에는 불확실성을 다루는 전략, 즉 정보가 부족할 때 탐색하고, 새로운 증거가 축적되면서 점진적으로 확신을 높여가는 과정이 자연스럽게 포함되어 있습니다.

베이지안 정렬도(Agreement) 향상

연구팀은 파인튜닝된 LLM이 베이지안 어시스턴트와 얼마나 유사한 예측을 하는지도 측정했습니다. "베이지안 어시스턴트의 예측으로 파인튜닝한 결과, LLM이 더 베이지안적으로 변했으며, 각 LLM의 베이지안 버전이 가장 높은 정렬도를 달성"했습니다.

이는 LLM이 단순히 특정 과제의 정답을 외운 것이 아니라, 확률적 추론의 원리 자체를 내재화했음을 시사합니다. 베이지안 티칭으로 훈련된 모델은 같은 상황에서 베이지안 어시스턴트가 내릴 결정과 가장 유사한 결정을 내렸고, 이는 오라클 티칭으로 훈련된 모델보다도 높은 정렬도를 보였습니다.

다른 도메인으로의 일반화

가장 인상적인 결과는 일반화 능력입니다. 합성 항공편 데이터로만 훈련된 모델이 호텔 추천과 실제 웹 쇼핑 과제로 성공적으로 전이(Transfer)되었습니다. 호텔 추천은 항공편과 비슷한 구조를 가지지만 속성이 다르고(위치, 가격대, 평점 등), 웹 쇼핑은 훨씬 복잡한 실제 데이터를 포함하는 과제입니다. 특히 웹 쇼핑 과제는 훈련 데이터에 포함되지 않은 완전히 새로운 도메인이었음에도 불구하고, 베이지안 티칭으로 훈련된 모델이 기존 모델 대비 확연한 성능 향상을 보여주었습니다.

이런 도메인 간 전이가 가능하다는 것은 LLM이 베이지안 추론의 핵심 원리를 내재화하여, 정적인 패턴 매칭 기계에서 적응형 에이전트로 변환될 수 있음을 보여줍니다. 모델이 "항공편 추천에서 이렇게 해라"가 아니라 "새로운 증거가 나오면 믿음을 이렇게 업데이트해라"라는 더 일반적인 원리를 학습했다는 뜻입니다.

이러한 일반화 능력은 베이지안 티칭이 단순한 도메인 특화 학습이 아니라, 추론 능력 자체를 향상시키는 접근법임을 강하게 뒷받침합니다. 기존의 많은 파인튜닝 연구에서는 훈련 도메인에 과적합(overfitting)되어 다른 도메인으로의 전이가 어려웠던 것과 대비되는 결과입니다.

정보 민감성 학습

단순히 정확도가 높아진 것뿐 아니라, 파인튜닝된 모델들은 정보에 대한 현실적인 민감성도 발달시켰습니다. 이는 모델이 단순 암기가 아닌 진정한 추론 능력을 획득했음을 보여주는 중요한 증거입니다. 파인튜닝된 모델들은 사용자의 특정 선택이 선호도를 더 명확하게 드러낼 때, 해당 선택에 더 큰 가중치를 부여하는 법을 학습했습니다.

예를 들어, 사용자가 가격이 비싸지만 직항인 항공편을 선택했다면, 이것은 직항에 대한 강한 선호를 나타내는 매우 정보적인 신호입니다. 반면 모든 면에서 우수한 항공편을 선택한 것은 특정 선호를 파악하기 어려운, 정보 가치가 낮은 관찰입니다. 베이지안 티칭으로 훈련된 모델은 이처럼 정보적 가치가 높은 선택과 낮은 선택을 구분하여, 전자에 더 큰 가중치를 부여하는 법을 학습했습니다. 이는 실제 베이지안 추론에서 우도(likelihood)가 작용하는 방식과 매우 유사하며, 모델이 확률적 추론의 핵심 메커니즘을 내재화했음을 보여주는 또 다른 증거입니다.

이처럼 베이지안 티칭은 단순한 정확도 향상을 넘어, LLM의 추론 행동 자체를 질적으로 변화시키는 효과를 가져왔습니다.

시사점과 향후 전망

기호적 모델에서 신경망으로의 지식 증류

이 연구는 LLM의 사후학습(post-training) 단계에서 최적의 확률적 전략에 대한 시연을 노출시키는 것만으로도 LLM의 확률적 추론 능력을 극적으로 향상시킬 수 있음을 입증했습니다. 이는 기호적 모델(Symbolic Model)의 추론 능력을 신경망(Neural Network)으로 성공적으로 증류(Distillation)할 수 있음을 시사하는 중요한 결과입니다. 전통적인 확률 모델이 가진 수학적 엄밀성과, LLM이 가진 자연어 이해 및 유연한 일반화 능력을 결합할 수 있는 가능성을 보여준 것입니다.

실용적 응용 가능성

특히 주목할 점은 비교적 간단한 과제(항공편 추천)에서의 학습이 더 복잡한 실제 과제(웹 쇼핑)로 전이된다는 것입니다. 이는 향후 다양한 확률적 추론이 필요한 분야에서 LLM의 활용 가능성을 크게 넓혀줄 수 있습니다.

구체적으로 기대할 수 있는 응용 분야는 다음과 같습니다:

의료 진단: 환자의 증상과 검사 결과를 순차적으로 관찰하면서, 가능한 진단을 점진적으로 좁혀나가는 과제
과학적 가설 검증: 실험 결과를 관찰할 때마다 가설에 대한 확신도를 갱신하는 과제
금융 리스크 평가: 시장 데이터와 경제 지표가 업데이트될 때마다 포트폴리오 리스크를 재평가하는 과제
대화형 AI 에이전트: 사용자와의 대화가 진행될수록 사용자의 의도를 더 정확히 파악하는 과제

이러한 과제들은 모두 "불확실성 하에서의 순차적 의사결정"이라는 공통된 구조를 가지고 있으며, 베이지안 티칭을 통해 학습된 추론 능력이 유용하게 적용될 수 있습니다.

과정 학습의 중요성

또한 이 연구는 LLM 학습에서 "완벽한 정답"보다 "추론 과정"을 보여주는 것이 더 효과적일 수 있다는 교육학적 시사점도 제공합니다. 오라클 티칭(정답 제공)보다 베이지안 티칭(추론 과정 제공)이 더 효과적이었다는 것은, 결과만이 아니라 과정을 학습하는 것의 가치를 다시 한번 확인시켜 줍니다. 이는 최근 LLM 분야에서 활발히 연구되고 있는 체인 오브 사고(Chain-of-Thought) 추론이나, 과정 기반 보상 모델(Process Reward Model) 등과도 맥을 같이하는 흥미로운 방향입니다.

한계와 향후 연구 방향

다만 이 연구에는 몇 가지 한계점도 존재합니다. 우선 실험에 사용된 과제가 비교적 제한된 속성 공간(4가지 속성)에서의 추천이라는 점에서, 수십~수백 개의 속성이 관여하는 실제 추천 시스템으로의 확장 가능성은 추가 연구가 필요합니다. 또한 사용자의 선호가 고정되어 있다고 가정했지만, 실제로는 선호도가 시간에 따라 변화하거나 맥락에 따라 달라질 수 있습니다.

속성 간 상호작용이 복잡한 경우(예: "가격이 저렴하면 경유도 감수하지만, 비싸면 반드시 직항이어야 한다"와 같은 조건부 선호)에서도 베이지안 티칭이 효과적인지 역시 향후 검증이 필요합니다. 그럼에도 불구하고, 비교적 단순한 합성 데이터에서의 훈련이 실제 웹 쇼핑 과제로 전이되었다는 결과는 이 접근법의 잠재력을 충분히 보여줍니다. 앞으로 더 복잡한 베이지안 모델(예: 계층적 베이지안 모델이나 비모수 베이지안 모델)로부터 생성된 시연 데이터를 활용한다면, LLM의 확률적 추론 능력을 더욱 정교하게 발전시킬 수 있을 것으로 기대됩니다.

결론적으로, 베이지안 티칭(Bayesian Teaching)은 LLM이 단순한 패턴 매칭을 넘어 진정한 확률적 추론 능력을 갖출 수 있는 길을 제시합니다. "정답"을 가르치는 것이 아니라 "추론하는 법"을 가르치는 이 접근법은, LLM 연구의 새로운 방향을 열어줄 수 있는 의미 있는 연구입니다.

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models 논문

Teaching LLMs to Reason Like Bayesians 소개 블로그

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~