SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구

9bow · 2월 4, 2025, 9:00오후

SFT Memorizes, RL Generalizes 연구 배경

최근 기반 모델(Foundation Model)이라 불리는 인공지능 모델은 강력한 성능을 발휘하기 위해 기본적인 사전 학습(Pre-training) 이후 추가적인 사후 학습(Post-training)을 진행하는 것이 필수적입니다. 이러한 사후 학습의 대표적인 방법에는 지도학습 기반 미세 조정(SFT, Supervised Fine-tuning)과 강화학습(RL, Reinforcement Learning)이 있습니다. 각 방법을 대략적으로 살펴보면 다음과 같습니다:

지도학습 기반 미세조정(SFT, Supervised Fine-tuning)

지도학습 기반 미세조정(SFT)은 정답(Label)이 존재하는 다수의 예시를 포함하는 대규모 데이터셋을 가지고 모델을 학습하는 방법입니다. 즉, 어떠한 입력에 대해서 어떠한 답변이 출력되는지에 대한 정답을 포함하는 데이터셋을 가지고 학습하는 방법입니다. SFT의 예시로는 ChatGPT가 사용자 질문에 더 적절하게 답변하도록 QA 데이터셋으로 추가 학습하는 것이 있습니다. 하지만 이러한 SFT는 훈련 데이터의 패턴을 그대로 암기하는 경향이 있어, 새로운 데이터(Out-of-Distribution, OOD)에는 성능이 크게 저하될 수 있습니다.

강화학습(RL, Reinforcement Learning)

강화학습(RL)은 좋은 행동에 보상(Reward)을 주고 실수에 불이익(Penalty)을 줌으로써 모델이 보상을 최적화하는 방식으로 학습합니다. 즉, 정답을 직접 제공하지 않고, 모델이 생성한 출력이 얼마나 좋은지를 평가하는 보상 함수를 사용하는 것이 주요 차이점입니다. RL의 예시로는 ChatGPT가 RLHF(Reinforcement Learning from Human Feedback) 기법을 사용하여 사람이 평가한 점수를 기반으로 답변 품질을 개선하는 것이 있습니다. 이러한 RL은 단순한 패턴 암기가 아니라 일반적인 문제 해결 원리를 학습하는 방식이므로, 단순한 암기 이상의 패턴을 탐구하고 학습하도록 장려합니다.

RL 개념 적용 방법

이 연구에서는 대규모 언어 모델(LLM) 및 시각-언어 모델(VLM)의 학습을 효과적으로 수행하기 위해 검증기(Verifier) 개념을 도입하여 RL과 SFT를 결합하는 방식을 채택하는 방식으로 RL을 적용하였습니다. 검증기(Verifier)는 모델이 생성한 출력을 분석하고, 특정 기준에 따라 점수를 부여하는 방식으로 동작하며, 예를 들어 산술 추론 문제에서는 정답 여부를 판단하고, 길찾기 문제에서는 올바른 방향으로 이동했는지를 평가합니다. 또한, 검증기를 사용하여 텍스트의 논리적 일관성, 문법적 정확성 등을 고려하여 추가적인 피드백을 제공할 수 있습니다. 강화학습 알고리즘에는 PPO(Proximal Policy Optimization)을 사용하였는데, 이는 기존의 정책을 조금씩 수정하여 보다 나은 성능을 보장하면서도 급격한 변화로 인한 학습 불안을 방지하는 것이 특징입니다.

또한, 순차적 수정(Sequential Revision) 기법을 통해 모델이 생성한 출력과 검증기의 피드백을 결합하여 모델이 점직적으로 개선되도록 하였습니다. 이 방법은 모델이 한 번의 출력이 아닌 여러 번의 시도를 통해 최적의 응답을 찾을 수 있는 것으로, 검증기의 피드백을 활용하며 점진적으로 학습할 수 있습니다.

연구 목표

이 연구에서는 SFT와 RL 중 어떠한 방법이 모델의 일반화(Generalization) 능력을 향상시키는지를 알아봅니다. SFT는 학습 데이터를 기억하고(memorize), RL은 일반화(generalize)한다는 다음의 주장들에 대해서 실험적으로 분석합니다:

SFT는 학습 데이터에 포함된 패턴을 잘 암기하지만, 새로운 데이터(미분포 데이터, Out-of-Distribution, OOD)에는 약하다.
RL은 학습 데이터에서 원리를 파악하고 일반화하는 능력이 뛰어나다.
RL을 활용하면 모델의 시각적 인식 능력(visual recognition capability)도 향상된다.
그러나 SFT는 여전히 RL 학습을 안정화(stabilization)하는 데 중요한 역할을 한다.

즉, 이 연구에서는 SFT와 RL은 학습하지 못했던(Unseen) 상황/패턴을 각각 얼마나 잘 일반화하는지와 시각적 데이터(이미지 기반 환경)에서도 이러한 차이가 유지되는지를 실험을 통해 확인합니다.

SFT와 RL 비교를 위한 실험 설계 및 환경

'SFT Memorizes, RL Generalizes' 연구에서는 두 가지 작업 환경을 사용하여 SFT와 RL의 일반화 성능을 분석했습니다. 각각은 GeneralPoints와 V-IRL로, 각각은 산술 문제를 해결하는 것과 목표지점까지 길을 찾는 작업입니다.

GeneralPoints는 기호(Symbol) 및 숫자 변형이 포함된 텍스트 기반 규칙 일반화를 평가하는 방식으로, V-IRL은 길찾기 및 공간적 추론을 포함한 시각적 일반화를 평가하는 방식으로 모델의 일반화 능력을 평가합니다. 특히, 각 환경에서 모델의 규칙 기반 일반화(Textual Rule-Based Generalization) 및 시각적 일반화(Visual Generalization) 능력을 평가합니다.

GeneralPoints 환경: 텍스트 기반 문제 해결 능력 평가

GeneralPoints는 산술적 추론(Arithmetic Reasoning) 능력을 학습하고 일반화할 수 있는지를 측정하기 위한 환경입니다. 이는 기존의 Points24 환경을 기반으로 확장되었으며, 모델이 트럼프 카드(4가지 문양의 A, 2~10, J, Q, K 카드 52종)와 산술 연산 기호를 조합하여 주어진 목표 숫자를 만들 수 있는지를 평가하는 방법입니다.

이 환경에서는 모델이 4장의 카드를 입력으로 받아 이를 조합하여 특정 목표 숫자(기본적으로 24)를 만드는 연산식을 만드는 방식을 학습합니다. 이를 위해서는 주어진 4장의 카드에 표시된 숫자를 정확하게 인식하고, 각 숫자를 한 번씩만 사용하여 목표 숫자를 만들 수 있도록 산술 연산을 수행해야 합니다. 이 과정에서 괄호와 사칙 연산(+, -, *, /)을 적절히 활용해야 합니다.

연구자들은 GeneralPoints 환경에서 일반화 성능을 평가하기 위해서는 2가지 변형을 도입하였습니다:

규칙 변형(Rule Variation): 모델이 학습한 규칙과 다른 방식으로 카드를 해석할 때에도 올바른 답을 도출할 수 있는지를 확인하는 변형 방식입니다. 예를 들어, J, Q, K 카드를 각각 11, 12, 13으로 취급할지, 모두 10으로 취급할지 등의 변형을 통해 일반화 능력을 평가합니다. 이를 위해 학습 시에는 한가지 규칙만 사용하고, 평가 시에는 다른 규칙을 적용하여 모델이 규칙을 일반화할 수 있는지를 분석합니다.
시각적 변형(Visual Variation): 모델이 학습한 카드와 다른 색상/문양을 갖는 카드에서도 숫자를 잘 인식할 수 있는지를 확인하는 변형 방식입니다. 예를 들어, 학습 시에는 특정 색상의 카드(예. , )만 사용한 뒤, 평가 시에는 새로운 색상의 카드(예. , )를 사용하여 일반화 능력을 평가합니다. 시각-언어 모델(VLM)의 경우 카드의 숫자를 정확히 인식하는 것이 중요한 평가요소입니다.

V-IRL 환경: 시각적 공간 추론 능력 평가

V-IRL(Virtual Interactive Real-Life)은 실제 길찾기(Navigation) 및 공간 추론(Spatial Reasoning) 능력을 측정하기 위한 환경입니다. 이전의 GeneralPoints가 산술적 추론 능력을 평가하는 반면, V-IRL은 실제 환경에서 경로를 따라 이동하는 능력을 테스트하는 실험 환경입니다.

이 환경에서 모델은 복잡한 도시 환경에서 특정 목적지까지 올바르게 이동하기 위해 현재 위치 및 방향을 인식하고, 주어진 텍스트 기반 길찾기 지침(NLP-based Instruction)을 해석하여 올바른 방향으로 이동하는 결정을 내려야 합니다. 이 실험에서 모델은 순차적인 의사 결정(Sequential Decision Making) 과정을 거쳐야 하며, 주어진 경로를 정확하게 따라서 목적지까지 도착해야 합니다.

연구자들은 V-IRL 환경에서 일반화 성능을 평가하기 위해서 2가지 변형을 도입하였습니다:

규칙 변형(Rule Variation): 방향을 표현하는 방식을 바꿔가며 효과적으로 길찾기를 수행할 수 있는지를 평가하는 변형 방식입니다. 이러한 규칙 변형은 방향을 표현할 때 동/서/남/북과 같이 절대 방향(Absolute Orientation)으로 표현하는 방식과 왼쪽/오른쪽/약간왼쪽/약간오른쪽 등과 같이 현재 방향을 기준으로 회전하는 상대 방향(Relative Orientation)으로 표현하는 방식으로 구분하여 평가합니다.
시각적 변형(Visual Variation): 길찾기 시 모델이 주요한 랜드마크(Landmark)를 정확히 인식할 수 있는지를 평가하기 위한 변형 방식입니다. 학습 시에는 뉴욕시(New York City)의 거리 데이터를 사용하고, 평가 시에는 다른 도시(예. 홍콩, 런던, 밀라노 등)의 데이터를 사용하여 모델의 공간적 일반화 능력을 평가합니다. 시각-언어 모델(VLM)의 경우 이미지 기반 시각 정보를 효과적으로 활용할 수 있는지가 중요한 평가요소입니다.

실험 결과

앞서 설정한 GeneralPoints와 V-IRL에서 각각 규칙 기반 일반화(Textual Rule-Based Generalization) 및 시각적 일반화(Visual Generalization) 측면에서 SFT와 RL의 성능을 측정하고 비교하였습니다. 특히, 학습 시 보지 못한 새로운 데이터(OOD, Out-of-Distribution) 변형에 대해 어떻게 반응하는지를 집중적으로 평가하였습니다. 이러한 OOD 테스트를 통해 모델이 새로운 데이터에서도 일반화하는 능력을 갖추었는지를 평가할 수 있습니다.

규칙 변형에 대한 일반화 (Generalization across Rules)

먼저 규칙 변형(Rule Variations) 환경에서 지도학습 기반 미세조정(Supervised Fine-Tuning, SFT)과 강화학습(Reinforcement Learning, RL)이 기초 모델(Foundation Model)의 일반화 성능에 미치는 영향을 분석하였습니다. 앞서 살펴본 것과 같이 GeneralPoints(GP-)와 V-IRL(VIRL-) 환경에서 각각 다른 규칙 변형(Rule Variation)을 적용하여 모델의 OOD 일반화 능력을 평가하였습니다:

RL을 적용한 모델은 보지 않은 새로운 규칙에 대해 일정 수준의 일반화 성능을 유지하는 반면, SFT 기반 모델은 OOD 상황에서 성능이 급격히 저하되는 것을 확인할 수 있었습니다.
- GP-L 실험에서 RL은 OOD 환경에서 성능이 +3.5% (11.5% → 15.0%) 개선되었으나, SFT는 -8.1% (11.5% → 3.4%)로 성능이 감소하였습니다.
- V-IRL-L 실험 결과 RL은 OOD 환경에서 성능이 +11.0% (80.8% → 91.8%) 증가하였지만, SFT는 -79.5% (80.8% → 1.3%)로 급격히 감소하였습니다.

이상의 실험을 통해 SFT는 학습 데이터의 규칙을 그대로 기억하는 경향이 강하기 때문에, 새로운 규칙을 적용했을 때 적응하지 못하고 성능이 저하되는 반면, RL은 보상 기반 학습을 통해 보다 일반화된 문제 해결 전략(Problem-Solving Strategy)을 학습하기 때문에, 학습하지 않은 규칙 변형에도 적절히 대응할 수 있음을 확인하였습니다

시각 변형에 대한 일반화 (Generalization in Visual Out-of-Distribution Tasks)

이러한 경향은 시각-언어 모델(VLM)로 학습 데이터에서 학습한 시각적 정보와 다른 변형된 시각적 데이터를 테스트하는 시각적 OOD(Visual Out-of-Distribution) 작업에서도 확인할 수 있었습니다:

GP-VL 실험에서 RL을 적용한 모델은 새로운 카드 색상에서도 일정 수준 이상의 성능을 유지했으며, OOD 환경에서 성능이 +17.6% (23.6% → 41.2%) 개선되었으며, 이는 RL이 시각적 패턴을 보다 일반화된 개념으로 학습할 수 있음을 시사합니다. 반면, SFT 기반 모델은 색상이 변경되었을 때 숫자 인식이 저하되며 성능이 -9.9% (23.6% → 13.7%) 감소하여, SFT가 훈련 데이터에서 학습한 시각적 패턴을 벗어나면 일반화하지 못한다는 점을 확인할 수 있었습니다.
V-IRL-VL 실험에서 RL을 적용한 모델은 학습 데이터에서 본 적 없는 도시에서도 내비게이션 지침을 올바르게 따랐으며, OOD 환경에서 성능이 +61.1% (16.7% → 77.8%) 증가하여, RL이 공간적 추론을 학습하는 데 효과적임을 보여주었습니다. 반면, SFT 기반 모델은 훈련된 환경(뉴욕)과 다른 도시(런던, 홍콩)에서 OOD 환경에서 성능이 -5.6% (16.7% → 11.1%) 감소하여, SFT가 시각적 변화에 적응하지 못함을 확인할 수 있었습니다.

이상의 실험을 통해 RL은 시각적 OOD에서도 우수한 성능을 보이는 것을 확인할 수 있었습니다. 이는 RL이 보상 기반 학습을 통해 추론(reasoning)과 패턴 분석(pattern recognition) 을 강화할 수 있기 때문으로 해석됩니다. 즉, 모델이 단순한 지도 정보를 암기하는 것이 아니라, 일반화 가능한 공간적 이해(Spatial Generalization) 를 학습했다는 것을 의미합니다. 반면 SFT 모델은 데이터 패턴을 암기하는 경향이 강해, V-IRL-VL 실험에서는 학습한 도시와 다른 환경에서는 거의 동작하지 않음을 확인할 수 있었습니다.

또한, RL을 확장하여 계산량을 증가시킬수록 시각적 인식 성능과 OOD 일반화 성능이 함께 향상됨을 확인할 수 있었습니다. 즉, RL 연산량의 증가는 숫자 인식 정확도가 증가하는 경향을 보이는 것에 반해, SFT 연산량의 증가는 숫자 인식 정확도 감소하는 경향을 보였습니다. 이러한 경향성은 SFT의 연산이 반복될수록 단순한 패턴 암기 방식으로 학습이 진행되지만, RL의 연산은 피드백을 기반으로 개선되기 때문에 더 많은 계산량을 투입할수록 성능이 향상됨을 의미합니다.

RL 학습 시 SFT의 역할: SFT+RL vs. End-to-End RL

추가로, 지도학습 기반 파인튜닝(Supervised Fine-Tuning, SFT) 이 강화학습(RL) 학습 과정에서 어떤 역할을 수행하는지 분석해보았습니다. 즉, SFT 없이 RL을 단독으로 적용할 경우 학습이 정상적으로 진행될 수 있는지를 검증하기 위해 실험으로, GeneralPoints-L 환경에서 'SFT 후 RL 적용(SFT → RL)'과 'RL 단독 학습(End-to-End RL)'의 성능을 비교하였습니다.

그 결과, RL을 단독으로 적용한 경우 모델이 정상적인 출력을 생성하지 못하고 비정상적인 응답을 생성하는 등, SFT 없이 RL을 적용한 경우 모든 실험이 실패하였습니다. 반면, SFT 후 RL 적용(SFT + RL)은 효과적으로, RL의 성능이 안정적으로 향상되었습니다.

즉, SFT는 모델이 기본적인 출력 형식을 유지할 수 있도록 도와주며, RL 학습이 더 효과적으로 이루어질 수 있도록 지원하는 것을 확인할 수 있었습니다.

검증 반복 횟수(Verification Iterations)의 역할

검증 과정은 RL 학습 시 모델의 출력을 검토하고, 검증기의 피드백을 반영하며 학습을 점진적으로 개선하는 과정입니다. 기존의 RL 학습에서는 모델의 출력에 대한 보상이 즉시 제공되며 정책을 업데이트하므로 모델을 수정할 기회가 적은 반면, 이 연구에서는 위 그림과 같이 모델 출력에 대한 피드백을 반영하여 다시 출력하도록 여러번의 검증을 수행합니다. 이러한 검증 반복 횟수는 모델이 동일한 문제를 얼마나 많이 학습할 수 있는지를 나타냅니다.

실험 시 1회 검증(VIter 1, )은 모델이 한 번의 예측에 대해 즉시 보상을 받는 방식으로 기존의 RL 학습 방식과 동일하며, 3회 검증(VIter 3, 녹색)은 예측에 대한 검증기 피드백을 통해 2번 더 출력을 수정합니다. 동일하게 5회 검증(VIter 5, )과 10회 검증(VIter 10, 갈색)은 모델이 최대 5번과 10번 수정합니다.

이와 같이 반복을 거듭했을 때 검증 반복 횟수가 증가할수록 RL의 일반화 성능이 향상되는 것을 확인할 수 있었습니다. 특히, OOD 환경에서는 성능 개선 효과가 +0.48% → +2.15% → +2.99% → +5.99% (1회 → 3회 → 5회 → 10회)로 개선 효과가 두드러지게 나타났습니다. 이는 모델이 하나의 문제에 대해서 여러번 학습할 기회를 가지면서 더 깊이 학습할 수 있었기 때문으로, 사람이 시험 문제를 틀린 뒤 다시 풀어보면서 점점 더 나은 답을 찾는 과정과 유사합니다.

결론 및 의미

지도학습 기반 파인튜닝(SFT, Supervised Fine-Tuning)과 강화학습(RL, Reinforcement Learning)의 비교 분석을 통해 사후 학습(Post-Training) 방식이 일반화 성능(Generalization)에 미치는 영향을 평가한 결과, 다음과 같은 내용들을 확인할 수 있었습니다:

RL은 규칙 변형(Rule Variations) 환경에서 일반화 성능이 뛰어납니다. SFT는 특정한 규칙을 암기하는 경향이 강하며, 훈련 데이터에서 벗어난 새로운 규칙이 적용될 경우 성능이 급격히 하락하였습니다. 반면, RL은 보상 기반 학습을 통해 학습한 개념을 일반화할 수 있으며, OOD(Out-of-Distribution) 환경에서도 일정 수준 이상의 성능을 유지하하였습니다.
RL은 시각적 변형(Visual Variations) 환경에서도 뛰어난 일반화 성능을 보입니다. V-IRL(비전-언어 내비게이션 환경) 실험에서 RL 모델은 새로운 도시 환경에서도 효과적인 내비게이션을 수행할 수 있었으나, SFT 모델은 훈련된 환경과 다른 환경에서는 거의 실패하였습니다. GeneralPoints-VL 실험에서도 RL이 새로운 색상의 숫자 카드에서도 인식 정확도를 유지한 반면, SFT 모델은 시각적 변형에 적응하지 못하고 성능이 하락하였습니다.
RL은 시각적 인식(Visual Recognition) 능력을 향상시키며, 시각적 피드백을 통한 학습이 효과적입니다. 연산량을 증가시켜 RL을 확장할수록 시각적 인식 성능이 향상되었으나, SFT는 오히려 성능이 저하되는 경향을 보습니다. 이는 RL이 피드백을 활용하여 점진적으로 시각적 정보를 일반화할 수 있는 능력을 학습하기 때문으로 해석할 수 있습니다.
SFT는 RL 학습을 위한 필수적인 역할을 합니다. RL을 단독으로 적용할 경우 학습이 실패하였으며, 모델이 정상적인 출력을 생성하지 못하는 현상이 관찰되었습니다. SFT 후 RL을 적용한 경우, RL 학습이 안정적으로 이루어지며 일반화 성능이 향상됨을 확인할 수 있었습니다. 이는 SFT가 모델이 올바른 출력 형식을 따르도록 안정화하는 역할을 수행함을 시사합니다.
검증 반복 횟수(Verification Iterations)를 늘릴수록 RL 모델의 일반화 성능이 향상됩니다. 검증 횟수가 많아질수록 OOD 환경에서의 성능이 개선되었으며, 특히 검증 10회 수행 시 OOD 성능이 +5.99% 향상됨을 확인할 수 있었습니다. 하지만 무한정 검증 횟수를 증가시키는 것은 비효율적이며, 최적의 검증 횟수 설정이 필요합니다.

위와 같은 결과를 통해, RL은 모델의 일반화 능력을 향상시키는 강력한 학습 기법이며, 특히 SFT와 결합할 경우 보다 효과적으로 학습을 진행할 수 있음을 확인하였습니다.

(더 자세한 실험 환경 구성 및 실험 설정에 대해서는 논문 Appendix를 참고해주세요.)

SFT Memorizes, RL Generalizes 연구 홈페이지

SFT Memorizes, RL Generalizes 연구 논문

SFT Memorizes, RL Generalizes GitHub 저장소

SFT Memorizes, RL Generalizes 모델 및 데이터셋

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~