[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서

9bow · 2월 12, 2025, 9:20오전

들어가며

최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기법들, 그리고 LLM에서의 활용 및 발전 방향에 대해서 Deep Research에게 요청하여 정리한 보고서를 아래와 같이 공유합니다.

강화학습의 개념과 주요 기법 분석

1. 강화학습이란 무엇인가?

강화학습(Reinforcement Learning, RL)은 기계학습의 한 분야로, 에이전트(Agent)가 환경(Environment) 과 상호작용하면서 보상(Reward) 이라는 피드백을 받으며 시행착오(trial and error) 를 통해 최적의 행동 전략을 학습하는 방법입니다 (Day 62: Reinforcement Learning Basics — Agent, Environment ...) (Reinforcement Learning Agents - MathWorks). 이는 지도학습처럼 정답 레이블이 주어지는 것이 아니라, 에이전트가 수행한 행동에 대해 환경이 제공하는 보상 신호만으로 학습이 이루어진다는 점에서 다릅니다. 에이전트의 목적은 장기적으로 얻는 누적 보상(cumulative reward), 즉 반환(Return) 을 최대화하는 것입니다 (Any difference between return and cumulative reward in RL? - Reddit). 매 시점(time step)마다 에이전트는 환경으로부터 현재 상태에 대한 관측(observation)과 보상을 받고, 그에 따라 한 가지 행동(action)을 선택하여 환경에 영향을 미칩니다 (Reinforcement Learning Agents - MathWorks). 그러면 환경은 새로운 상태로 전이되고(next state), 이에 따른 보상을 다시 에이전트에게 반환하며, 이러한 상호작용이 연속적으로 반복됩니다.

예를 들어, 미로를 학습하는 로봇을 생각해봅시다. 로봇(에이전트)은 미로(환경) 안에서 움직이며(행동), 출구를 찾으면 +1의 보상을 받고 벽에 부딪히면 -1의 보상을 받는다고 합시다. 로봇은 처음에는 무작위로 움직이겠지만, 시행착오를 거치며 어떤 행동이 보상을 더 가져오는지 학습하게 됩니다. 궁극적으로 로봇은 출구를 찾는 행동을 최대한 취하고 불필요하게 벽에 부딪히는 행동을 피하도록 학습하여, 장기적인 보상의 합(예를 들어 출구에 도달하면 얻는 +1 보상)을 최대화하려고 합니다. 이러한 과정에서 로봇은 탐험(exploration)을 통해 새로운 경로를 시도하기도 하고, 이미 보상을 준 경로를 활용(exploitation)하여 반복하기도 하는데, 이를 탐험-활용 균형(exploration-exploitation trade-off)이라고 부릅니다.

강화학습은 사람의 학습 방식과 유사한 측면이 있어 다양한 문제에 적용됩니다. 특히 정답을 명시적으로 알 수 없지만 행동의 결과에 대한 평가지표(보상) 는 얻을 수 있는 경우에 유용합니다. 예를 들어, 알파고(AlphaGo)는 바둑에서 이기면 +1, 지면 0의 보상을 주는 방식으로 자기 대국(self-play) 을 통해 강화학습을 수행함으로써 인간 챔피언을 이기는 수준의 성능을 달성했습니다 ([PDF] A general reinforcement learning algorithm that masters chess ...). 이처럼 강화학습은 게임 플레이, 로봇 제어, 자율 주행, 그리고 대규모 언어 모델의 미세조정 등 폭넓은 영역에서 활용되며, 보상을 극대화하는 방향으로 에이전트의 정책(policy) 을 지속적으로 개선해나갑니다.

2. 강화학습의 이론적 기초

강화학습 문제는 일반적으로 마코프 결정 과정(Markov Decision Process, MDP)으로 공식화됩니다. MDP는 (S, A, P, R, \gamma) 의 튜플로 정의되며, 각 요소는 다음과 같습니다:

상태 S: 에이전트가 인식할 수 있는 환경의 상태들의 집합입니다. 한 상태 s \in S 는 현재 환경의 정황을 나타냅니다.
행동 A: 에이전트가 취할 수 있는 행동들의 집합입니다. 특정 상태 s 에서 취할 수 있는 행동을 a \in A(s) 로 나타낼 수 있습니다.
상태 전이 확률 P: 특정 상태 s 에서 행동 a 를 취했을 때 다음 상태 s' 로 전이될 확률 분포를 나타냅니다. 즉 P(s'|s,a) 는 상태 s 에서 a 를 하면 s' 로 이동할 확률입니다. (MDP에서는 마코프 속성에 따라 다음 상태 s' 는 현재 상태 s 와 행동 a 에만 의존하고 그 이전 역사에는 의존하지 않습니다.)
보상 함수 R: 상태 s 에서 행동 a 를 취하여 다음 상태 s' 로 이동했을 때 주어지는 보상값을 나타냅니다. 보상은 일반적으로 실수값으로, 에이전트의 목적은 이 보상의 총합을 최대화하는 것입니다.
할인율 \gamma: 미래 보상의 현재 가치에 대한 할인 비율로, 0 \le \gamma \le 1 의 값을 가집니다. \gamma 가 1에 가까울수록 미래의 보상을 현재와 거의 동일시하고, 0에 가까울수록 눈앞의 보상에만 집중합니다.

에이전트의 정책 \pi 는 주어진 상태에서 어떤 행동을 취할지 결정하는 전략으로, 상태를 입력받아 행동의 확률 분포를 출력합니다. 즉, 확률론적 정책의 경우 \pi(a|s) 는 상태 s 에서 행동 a 를 선택할 확률을 의미합니다. 정책이 결정론적이라면 각 상태에 대해 단일 행동을 지정할 수도 있지만, 일반적으로는 확률적 정책을 가정하고 이를 신경망 등으로 표현하여 학습합니다.

강화학습의 목표는 누적 보상(Return) 의 기대값을 최대화하는 정책을 찾는 것입니다. 시간 t 부터 시작했을 때의 반환 G_t 는 그 시점부터 얻는 보상의 합으로 정의됩니다. 유한한 에피소드(episode)의 경우 G_t = R_{t+1} + R_{t+2} + \dots + R_T, 혹은 보통은 무한 혹은 장기 과제를 위해 할인율을 적용하여 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots 형태로 정의됩니다. 할인율 0 < \gamma < 1 를 사용하면 무한 합도 수렴하며, \gamma 값은 미래 보상의 중요도를 결정합니다. 반환은 한 에피소드에서 얻은 총 누적 보상이며, 때로는 이 반환값 G_t 자체를 목적 함수(J) 로 삼아 그 기댓값 J = E[G_0] 을 최대화하는 정책을 학습합니다 (Any difference between return and cumulative reward in RL? - Reddit).

가치 함수(Value Function) 는 특정 상태나 상태-행동 쌍의 장기적 가치를 추정한 함수로, 정책의 품질을 평가하는데 사용됩니다. 일반적으로 두 가지 가치 함수를 정의합니다:

상태 가치 함수 V^\pi(s): 정책 \pi 를 따를 때, 상태 s 에서 시작하여 미래에 받을 누적 보상의 기댓값입니다. 수식으로 표현하면 V^\pi(s) = E_\pi[\,G_t \mid S_t = s\,], 즉 "상태 s 에 있는 것이 얼마나 좋은지"를 나타내는 값입니다 (Fundamentals of Reinforcement Learning: Policies, Value Functions ...).
행동 가치 함수 Q^\pi(s,a): 정책 \pi 를 따를 때, 상태 s 에서 특정 행동 a 를 취한 이후 받을 누적 보상의 기댓값입니다. Qπ(s,a)=Eπ[ Gt∣St=s,At=a ] ,Q^\pi(s,a) = E_\pi[,G_t \mid S_t = s, A_t = a,],, 이는 "상태 s 에서 행동 a 를 하면 얼마나 좋은 결과가 기대되는지"를 나타냅니다 (Fundamentals of Reinforcement Learning: Policies, Value Functions ...).

가치 함수는 벨만(Bellman) 방정식이라는 자기 참조적 관계를 만족합니다. 예를 들어, 상태 가치 함수에 대한 벨만 기대 방정식(Bellman expectation equation) 은 다음과 같습니다 ( \mathcal{P} 는 상태 전이 확률, \mathcal{R} 은 보상 함수로 간주합니다.):

V^\pi(s) = \sum_{a \in A} \pi(a|s) \sum_{s' \in S} P(s'|s,a) \big[ R(s,a,s') + \gamma V^\pi(s') \big].

이는 "현재 상태의 가치는 현재 취한 행동으로 얻은 즉시보상 + 다음 상태들의 미래가치(할인 적용)의 기대값" 임을 나타낸 식입니다. 최적 정책(optimal policy) \pi^* 하에서의 최적 가치 함수 V^*(s) 는 벨만 최적 방정식(Bellman optimality equation) 을 만족합니다:

V^*(s) = \max_{a \in A} \Big\{ R(s,a) + \gamma \sum_{s' \in S} P(s' \mid s,a)\,V^*(s') \Big\}\,.

즉, 어떤 상태에서 최적으로 행동할 때 얻을 가치 V^*(s) 는 가능한 모든 행동에 대해 즉시보상 + 미래가치의 합을 계산해본 뒤 그 중 최대값을 선택한 것과 같습니다 (Bellman equation - Wikipedia). 이 방정식은 최적의 원리(principle of optimality) 를 보여주며, 최적 정책은 각 상태에서 저 극대값을 실현하는 행동을 택하는 정책이라고 할 수 있습니다 (수식에서 \max 를 달성하는 행동).

벨만 방정식은 동적계획법을 통해 이론적으로 풀 수 있지만, 현실에서는 상태공간이 거대하거나 보상/전이함수를 사전에 모를 때가 많아 직접 계산이 어렵습니다. 대신, 강화학습에서는 벨만 방정식을 근사적으로 풀기 위해 샘플링과 함수 근사(신경망 등)을 활용합니다. 이때 중요한 개념이 바로 탐험 대 활용의 균형입니다. 에이전트는 더 나은 보상을 찾기 위해 미지의 상태나 행동을 탐험해야 하지만, 동시에 현재 학습한 최선의 행동을 활용하여 보상을 모으기도 해야 합니다. 탐험이 부족하면 지역 최적해에 머물 수 있고, 활용이 부족하면 쓸데없이 보상을 놓칠 수 있기 때문에, 효율적인 강화학습 알고리즘은 이 두 가지를 적절히 균형잡는 전략을 갖추고 있습니다.

3. 강화학습 알고리즘의 종류 개요

강화학습 알고리즘은 가치 함수나 정책을 어떻게 학습하는지에 따라 여러 가지 방식으로 나뉩니다. 주요하게 가치 기반 방법(Value-Based)과 정책 기반 방법(Policy-Based), 그리고 이 둘을 합친 액터-크리틱(Actor-Critic) 방법으로 구분할 수 있습니다.

가치 기반 방법: 에이전트가 각 상태(혹은 상태-행동)의 가치를 학습하고, 그 값을 기반으로 최적 행동을 선택하는 방식입니다. 대표적으로 Q-러닝(Q-learning) 알고리즘이 있습니다. Q-러닝에서는 상태-행동 가치함수 Q^*(s,a) 를 직접 근사하여 학습하고, 매 상태마다 Q 값이 최대인 행동을 선택함으로써 정책을 암묵적으로 결정합니다. 딥러닝을 접목한 딥 Q-네트워크(DQN) 알고리즘은 신경망을 이용해 Q함수를 근사하여, 인간 수준으로 아타리 게임을 플레이할 정도의 성과를 거두었습니다. 가치 기반 방법은 보통 벨만 최적 방정식을 근사적으로 풀어가는 부트스트래핑(bootstrapping) 업데이트 공식을 사용하며, 행동 선택은 \epsilon-탐욕(\epsilon-Greedy) 정책 등으로 탐험을 섞어가며 진행합니다.
정책 기반 방법: 가치 함수를 통하지 않고 정책 자체를 직접 최적화하는 접근입니다. 즉, 파라미터로 표현된 정책 \pi_\theta(a|s) 에 대해 성능 측도 J(\theta) = E_\pi[,G_0,] (정책에 따른 에피소드의 기대 반환)을 최대화하도록 \theta 를 갱신합니다. 정책 기반 방법의 핵심은 정책 경사 정책 반복(Policy Gradient) 기법으로, 정책의 성능에 대한 그래디언트를 추정하여 경사 상승(gradient ascent)으로 정책 파라미터를 업데이트합니다. 정책 경사 정리는 다음과 같은 형태로 나타낼 수 있습니다:

\nabla_\theta J(\theta) = E_\pi \big[\, \nabla_\theta \log \pi_\theta(A_t \mid S_t)\, G_t \,\big] \

여기서 G_t 는 t 시점부터의 반환입니다. 이 식은 직관적으로 "보상을 많이 받은 행동들의 확률을 높이는 방향"으로 정책을 업데이트한다는 의미입니다. 가장 간단한 알고리즘인 REINFORCE (몬테카를로 정책 경사법)는 에피소드 한 개를 실행해서 나온 실제 반환 G_t 를 위 식에 대입해 \theta 를 갱신합니다 (How to simplify policy gradient theorem to - AI Stack Exchange). 구체적인 갱신식은 \theta \leftarrow \theta + \alpha\, G_t \, \nabla_\theta \log \pi_\theta(A_t \mid S_t) 의 형태로, 에피소드에서 얻은 보상이 크면 그 때 실행했던 행동의 확률을 늘리고, 보상이 나쁘면 그 확률을 줄이는 방향으로 학습합니다 (How to simplify policy gradient theorem to - AI Stack Exchange).정책 기반 방법은 고차원 연속 행동 공간에서도 직접 정책을 파라미터화하여 적용할 수 있다는 장점이 있으며, 비교적 안정적인 학습이 가능합니다. 하지만 단순한 REINFORCE는 보상 신호의 분산이 크면 학습이 불안정하고 느릴 수 있습니다. 이를 개선하기 위해 baseline을 사용하는데, 보상의 평균 수준을 빼주어 편차만 갖고 학습하는 기법입니다. 대표적으로 상태 가치함수 V^\pi(s) 를 baseline으로 사용하면, 위 식의 G_t 를 G_t - V^\pi(S_t) (이를 어드밴티지 함수 A_t 라고 부릅니다)로 치환하여 분산을 줄일 수 있습니다. 이때 가치함수를 별도로 학습시켜야 하는데, 이러한 아이디어가 바로 다음에 설명할 액터-크리틱 방법입니다.
액터-크리틱(Actor-Critic) 방법: 이름 그대로 행동자(Actor) 와 비평가(Critic) 라는 두 모듈을 가진 접근법입니다. Actor는 정책 \pi_\theta 에 해당하며, Critic은 가치함수(주로 상태가치 V_w 또는 상태-행동가치 Q_w)를 추정합니다. Critic이 현재 정책의 행동에 대해 "얼마나 좋은지" 평가한 가치 추정치를 baseline으로 활용하고, Actor는 Critic이 알려준 어드밴티지(실제 받은 보상 + 다음 상태가치 - 현재 상태가치 등)를 사용해 정책을 업데이트합니다. 이 방식은 REINFORCE에 비해 낮은 분산으로 안정적인 학습이 가능하며, 현대의 많은 강화학습 알고리즘들이 Actor-Critic 구조를 채택하고 있습니다.

이러한 기본 알고리즘들을 바탕으로, 연구자들은 학습 안정성과 효율을 높이기 위한 여러 고급 기법들을 개발해왔습니다. 아래에서는 그 중에서도 중요한 기법인 PPO, 그리고 대규모 언어 모델(LLM) 의 학습에 활용되는 RLHF와 최신 기법 GRPO를 중점적으로 살펴보겠습니다.

4. 주요 강화학습 기법 소개

4.1 근접 정책 최적화 (PPO: Proximal Policy Optimization)

근접 정책 최적화(PPO) 는 현재 가장 널리 쓰이는 정책 기반 강화학습 알고리즘 중 하나로, OpenAI의 슐만(Shulman) 등이 2017년에 제안했습니다. PPO는 앞서 언급한 Actor-Critic 방식의 한 변형으로, 이전 알고리즘인 신뢰 영역 정책 최적화(TRPO) 의 개선판이라 볼 수 있습니다. TRPO는 정책 업데이트 시 KL 발산(Kullback-Leibler divergence) 제약을 두어 새로운 정책이 기존 정책에서 너무 벗어나지 않도록 (=너무 크게 변하지 않도록) 보장했는데, PPO는 이와 유사한 효과를 내면서 구현을 간소화한 클리핑(clipping) 기법을 도입했습니다.

PPO에서 핵심이 되는 것은 클리핑된 서로그레디언 목표 함수(clipped surrogate objective) 입니다. 구체적인 수식은 다소 복잡하지만, 개념을 요약하면 다음과 같습니다. 먼저 이전 정책 대비 현재 정책의 행동확률 비율을 r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} 로 정의합니다. 이상적인 정책 그래디언트 업데이트는 이 비율 r_t 를 그대로 곱해 어드밴티지 A_t 에 대한 기대값을 최대화하는 것인데, PPO에서는 r_t 가 1 (기존 정책과 동일)에서 크게 벗어나는 것을 막기 위해 r_t 를 일정 범위로 잘라줍니다. 예를 들어 \epsilon = 0.2 라 하면, r_t 를 [1-\epsilon,,1+\epsilon] 범위로 클립하여 그 범위 밖에서는 이득이 더 이상 증가하거나 감소하지 못하도록 합니다. 이렇게 함으로써 한 번의 업데이트로 정책이 과도하게 변화하지 않게 하고, 결과적으로 학습의 안정성을 보장합니다 (OpenAI PPO Paper Insights | Restackio).

PPO 알고리즘은 다음과 같은 절차로 수행됩니다:

현재 정책으로 여러 에피소드(혹은 스텝)를 시뮬레이션하여 상태, 행동, 보상, 그리고 Critic을 통해 계산한 어드밴티지 A_t 등의 데이터를 모읍니다.
수집된 데이터로부터 위에서 언급한 클리핑된 목표 함수에 따라 정책 파라미터를 업데이트합니다. (여기서 일반적으로 확률적 경사상승 방법을 사용합니다.)
필요에 따라 Critic의 가치함수 파라미터도 실제 보상으로부터 부트스트랩하여 갱신합니다 (예: TD(error)로 학습).
일정 단계 업데이트 후, 새 정책을 기반으로 다시 데이터를 모으고 반복합니다.

PPO는 샘플 효율성은 떨어질 수 있으나(매 업데이트마다 새로운 샘플 사용, on-policy), 구현이 비교적 간단하고 튜닝이 용이하며, 다양한 문제에서 안정적으로 좋은 성능을 내는 것으로 알려져 있습니다 (Proximal Policy Optimization - OpenAI). 실제로 OpenAI에서는 PPO를 "자사의 기본 강화학습 알고리즘"으로 채택할 만큼 그 성능과 사용 편의성을 높이 평가하고 있습니다 (Proximal Policy Optimization - OpenAI). 클립핑 기법 덕분에 큰 하이퍼파라미터 튜닝 없이도 정책이 망가지는 현상 없이 수렴하는 경향이 있어, 현재까지도 게임 플레이(예: Atari, 로봇제어) 부터 언어 모델 미세조정에 이르기까지 폭넓게 활용됩니다.

정리: PPO의 이론적 배경은 정책 경사 방법의 일종이며, TRPO의 신뢰 영역 보장을 근사적으로 구현한 알고리즘입니다. 수식적으로는 기존 정책 대비 확률 비율 r_t 와 어드밴티지 A_t 의 곱을 최대화하되 r_t 가 1에서 크게 벗어나면 이득 함수를 일정하게 (flat) 만들어버리는 기법으로 볼 수 있습니다. 이러한 간단한 아이디어로 PPO는 높은 성능과 안정성을 확보했고, 실제 대형 AI 모델의 학습에도 기본 알고리즘으로 쓰일 만큼 신뢰받는 기법이 되었습니다.

PPO의 장단점:

장점: 구현과 튜닝이 비교적 간단하며, 기존 정책에서 크게 벗어나지 않도록 업데이트를 제한함으로써 학습이 안정적입니다 (OpenAI PPO Paper Insights | Restackio). 여러 문제에 대한 경험적으로 검증된 성능 덕분에 사실상 강화학습의 기본 알고리즘으로 채택되고 있습니다 (Proximal Policy Optimization - OpenAI).
단점: on-policy 방법이므로 매 업데이트마다 새로운 데이터를 생성해야 해 샘플 효율(sample efficiency) 이 낮을 수 있습니다. 또한 클립 파라미터 등의 설정에 따라 성능이 미세하게 영향을 받을 수 있고, 너무 보수적으로 설정하면 학습이 느려질 수 있습니다. 하지만 전반적으로 단점보다 장점이 부각되어 널리 쓰입니다.

4.2 인간 피드백을 통한 강화학습 (RLHF: Reinforcement Learning from Human Feedback)

인간 피드백을 통한 강화학습(RLHF) 은 특히 대규모 언어 모델(LLM) 의 미세조정(fine-tuning)에 많이 활용되는 방법론으로, 인간의 선호도나 피드백을 보상 신호로 활용하여 모델을 훈련시키는 접근입니다 ([PDF] Training language models to follow instructions with human feedback). 전통적인 강화학습에서는 보상 함수를 사람이 수동으로 설계하거나 환경으로부터 자동으로 얻어지지만, RLHF에서는 사람이 모델의 행동에 점수를 매기거나 선호도를 표시하여 그 정보를 학습에 활용합니다. 이는 거대 신경망 모델을 사람에게 보다 유용하고 우호적으로 만들기 위한 AI Alignmen(정렬) 노력의 핵심 기법입니다 (Personalizing Reinforcement Learning from Human Feedback with ...).

특히 자연어 처리 분야에서 사용자 지시를 잘 따르는 언어 모델을 만들기 위해 OpenAI가 도입한 RLHF 파이프라인이 유명한데, 2022년 발표된 InstructGPT 모델이 그 대표 사례입니다 (Improving Reinforcement Learning from Human Feedback ... - arXiv). RLHF의 일반적인 절차는 다음과 같습니다 (Fine-Tuning Language Models with Reward Learning on Policy - arXiv):

인간 피드백 데이터 수집: 우선 사전 학습된 언어 모델이 생성한 응답에 대해 사람 평가자들이 선호도 표시나 랭킹을 매깁니다. 예를 들어, 어떤 질문에 대해 모델이 생성한 여러 답변을 사람에게 보여주고 가장 적절한 답변이 어떤 것인지 순위를 매기도록 합니다. 이러한 데이터로 인간 선호 데이터셋을 구축합니다.
보상 모델 학습: 수집된 인간 선호 데이터를 활용해 보상 모델(Reward Model) 을 학습시킵니다. 보상 모델은 언어 모델의 출력(답변)을 입력받아 사람이 얼마나 선호할만한지 점수(보상 값)를 예측하도록 훈련됩니다. 이때 두 답변 중 어느 쪽을 사람이 더 선호했는지에 대한 데이터로 보상 모델을 학습하므로, 랭킹 학습이나 시그모이드 회귀 등을 통해 모델이 인간 선호도를 모사하도록 만듭니다.
강화학습을 통한 정책 미세조정: 이제 고정된 보상 모델을 환경으로 삼고, 기존의 언어 모델(정책 역할)을 강화학습으로 미세조정합니다. 구체적으로, 현재 정책이 여러 후보 답변을 생성하면 보상 모델이 각각에 점수를 매겨줍니다. 이 점수를 보상 신호로 사용하여, 정책을 PPO 등의 알고리즘으로 업데이트합니다 (Fine-Tuning Language Models with Reward Learning on Policy - arXiv). 정책 업데이트 시에 KL 벌점 등을 추가하여 모델이 기존 사전학습 분포에서 너무 일탈하지 않도록 제어합니다 (아래 설명).

이 과정을 거치면, 최종 정책(언어 모델)은 사람의 선호에 맞게 응답을 구성하도록 조정됩니다. InstructGPT 및 ChatGPT의 학습에 바로 이 RLHF가 사용되었습니다. 그 결과 모델이 이전보다 사용자 지시를 따르고 도움이 되는 방식으로 응답하게 되었으며, 이는 인간 평가에서 높은 점수로 확인되었습니다. 요약하면, RLHF는 "사람이 원하는 방향" 으로 모델의 출력 경향을 조율하기 위한 방법으로, 강화학습을 도구로 활용한 것입니다 ([PDF] Training language models to follow instructions with human feedback).

이론적으로 보면, RLHF는 표준 강화학습 문제에서 보상 함수 R(s,a) 를 명시적으로 주는 대신 학습된 보상 모델 R_\phi(x) (모델 출력 x 에 대한 점수) 로 대체한 것이라 할 수 있습니다. 다시 말해, 환경의 보상 신호를 사람이 만든 별도 신경망(보상 모델)이 생성해주는 것으로 바꾼 셈입니다. 이 때 발생하는 중요한 이슈 중 하나는 분포 이동(distribution shift) 입니다. 보상 모델은 주어진 인간 피드백 데이터 분포에서 학습되었는데, 강화학습을 통해 정책이 변화하면 새로운 정책이 생성하는 출력 분포가 보상 모델 학습 시의 분포와 달라집니다. 이로 인해 오프-폴리시(off-policy) 학습 문제가 발생할 수 있고, 모델이 보상 모델의 허점을 악용하는 방향으로 나아갈 위험도 있습니다 (PPO is off-policy in RLHF(LLM)? : r/reinforcementlearning - Reddit). 이를 방지하기 위해, RLHF 단계에서는 흔히 KL 발산 페널티를 적용합니다. 즉, 현재 정책 \pi_\theta 가 초기 언어모델(예: Supervised Fine-Tuning까지 거친 모델) \pi_{\text{ref}} 과 너무 달라지지 않도록, 보상에 - \beta \mathrm{KL}(\pi_\theta ,|, \pi_{\text{ref}}) 항을 추가하거나 제한합니다 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen). 이 페널티 항은 모델이 극단적으로 이상한 분포로 치우쳐 학습이 불안정해지는 것을 막아주며, 실제로 RLHF의 손실 함수에는 기본 보상 외에 이런 KL 페널티(term)가 명시적으로 포함됩니다 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen). (β는 하이퍼파라미터로 KL 페널티 강도를 조절합니다.)

RLHF의 장단점:

장점: 인간이 선호하는 방향으로 AI를 직접 조율할 수 있기 때문에, 모델의 응답 품질이나 사용 적합성을 크게 향상시킬 수 있습니다 (Personalizing Reinforcement Learning from Human Feedback with ...). 예를 들어 RLHF를 거친 ChatGPT는 거치지 않은 GPT 모델보다 훨씬 유저 친화적인 답변을 제공합니다. 또한, 정형화된 평가 metric으로 측정하기 어려운 안전성, 도움됨(helpfulness) 같은 측면도 사람 피드백을 통해 반영할 수 있습니다. RLHF는 현재 거대 언어모델 alignment의 주류 방법으로 자리잡았습니다 (Personalizing Reinforcement Learning from Human Feedback with ...).
단점: 사람으로부터 일일이 데이터를 얻어야 하므로 비용과 시간이 많이 듭니다. 또한 보상 모델이 완벽하지 않기 때문에, 에이전트(모델)가 보상 모델의 약점을 악용하는 현상이 보고됩니다. 이를테면, 실제 인간은 선호하지 않을 답변이라도 보상 모델을 속이는 방식으로 점수만 높이는 답변(보상 해킹)을 강화학습이 학습해버릴 위험이 있습니다 (DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any ...). 이런 경우 모델 출력의 품질이 저하되거나 예상치 못한 부작용(예: 특정 문구를 남용하거나, 사실과 무관한 내용을 자신있게 말함)이 나타날 수 있습니다 (DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any ...). RLHF 적용 시 이러한 문제를 완화하기 위해 엄격한 모니터링과 별도의 검증 단계가 필요하며, 최근에는 인간 피드백 대신 AI가 피드백을 주는 방법(RLAIF)이나 헌법에 기반한 AI(Constitutional AI) 등 인간 의존도를 줄이는 대안도 연구되고 있습니다 ([2309.00267] RLAIF vs. RLHF: Scaling Reinforcement Learning from ...).

4.3 그룹 상대 정책 최적화 (GRPO: Group Relative Policy Optimization)

그룹 상대 정책 최적화(GRPO) 는 2023년경 제안된 비교적 새로운 강화학습 알고리즘으로, 특히 대형 언어 모델의 고급 능력(예: 추론, 수학 문제 해결 등)을 향상시키기 위해 고안되었습니다. GRPO는 앞서 설명한 PPO 알고리즘의 변형인데, 핵심 아이디어는 별도의 가치망(critic)을 두지 않고 현재 정책의 출력들 간 상대적 비교를 통해 정책을 업데이트한다는 점입니다 (Can anybody explain how the RL portion of DeepSeek works?). 이름에서도 알 수 있듯 "Group Relative"란, 한 번의 환경 상호작용에서 여러 개의 결과물(응답)을 그룹으로 생성하고, 그 그룹 내에서 상대적인 우열을 판단해 학습에 활용한다는 의미입니다.

전통적인 Actor-Critic 방식(PPO 포함)에서는 정책(actor)과 더불어 가치를 예측하는 critic 신경망이 필요합니다. 그러나 언어 모델과 같은 거대 모델의 경우, actor와 크기와 복잡도가 유사한 critic을 추가로 두면 메모리와 연산 비용이 두 배로 증가하는 문제가 있습니다 (DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any ...). 실제로 PPO로 거대 언어모델을 미세조정할 때, 정책과 동일한 모델 아키텍처를 가진 가치망을 병렬로 학습시켜야 하므로 자원 소모가 큽니다. GRPO는 이러한 비용 문제를 해결하기 위해 critic을 없애고, 대신 그룹 내 샘플들의 보상 점수로부터 baseline을 추정하는 방식을 취했습니다 (Can anybody explain how the RL portion of DeepSeek works?). 조금 풀어서 설명하면 다음과 같습니다:

어떤 프롬프트(질문)에 대해 현재 정책 \pi 를 이용해 다수의 응답을 생성합니다 (예: 한 프롬프트에 대해 k 개의 다양한 답변 생성). 그리고 각 응답에 대해 보상 점수를 부여합니다. 이 보상은 문제에 따라 다르게 정의될 수 있는데, 예컨대 수학 문제라면 정답 여부에 따라 +1/0을 주거나, 요약 생성이라면 품질 평가 점수를 줄 수 있습니다. 이렇게 얻은 하나의 그룹(동일 프롬프트에서 나온 k 개의 응답)의 보상들을 비교하여, 그룹 내 평균 혹은 최고 점수 등을 기준으로 개별 응답의 어드밴티지(advantage) 를 계산합니다. 예를 들어 가장 높은 보상을 받은 응답은 긍정적인 어드밴티지를 갖고, 가장 낮은 보상을 받은 응답은 부정적인 어드밴티지를 갖도록 상대적으로 평가합니다. 이렇게 계산된 어드밴티지를 이용해 정책을 업데이트하는데, 목표는 한 프롬프트에 대해 상대적으로 더 나은 응답이 나올 확률을 높이고, 열등한 응답의 확률은 낮추는 것입니다. 이 과정에서 그룹 내 평가를 일종의 baseline으로 삼기 때문에, 별도로 훈련된 critic 네트워크가 필요하지 않습니다 (Can anybody explain how the RL portion of DeepSeek works?).

GRPO의 이러한 접근은 몇 가지 장점으로 이어집니다: (1) 메모리/계산 효율성 – critic 모델을 없앴기 때문에 학습 시 필요한 메모리와 연산량이 크게 감소합니다 (Aman's AI Journal • LLM Alignment). 대형 모델의 미세조정 시 자원 부담을 줄여주는 중요한 이점입니다. (2) 단순성 – 상대평가를 하기 때문에 절대적인 가치 예측이 불필요합니다. 어드밴티지를 그룹 내 점수로부터 직접 계산하므로 알고리즘이 직관적이며, 보상 함수만 잘 정의되면 추가 네트워크 설계가 단순해집니다 (Aman's AI Journal • LLM Alignment). (3) 효과성 – 처음 이 알고리즘을 제안한 연구(DeepSeek)의 결과에 따르면, PPO로 학습한 모델 대비 수학적 추론 능력이 향상되고, 복잡한 문제에서 더 높은 성능을 보였습니다.

물론 단점/고려사항도 있습니다: (1) 보상 설계의 어려움 – 그룹 내에서 상대적인 우열을 평가하려면 보상 함수가 그 차이를 잘 반영해야 합니다. 특히 복잡한 언어 생성 작업에서 무엇을 "더 나은" 응답으로 볼지 정량화하기 어려운 경우, 보상함수(혹은 별도 보상모델)의 품질에 따라 학습 성능이 좌우됩니다. (2) 샘플 효율 – 한 프롬프트에 대해 여러 샘플을 생성해야 하므로, 같은 데이터에서 더 많은 추론을 수행해야 합니다. 다만 병렬 연산이 가능하기에 실제 벽시계 시간 효율은 괜찮을 수 있습니다. (3) 이론적 분석의 부족 – 새로운 방법인 만큼 수렴 보장이나 안정성에 대한 이론 연구는 PPO 등 기존 기법에 비해 부족합니다. 향후 더 다양한 과제에 적용해 검증할 필요가 있습니다.

현재까지 알려진 GRPO의 가장 대표적인 활용은 DeepSeek 프로젝트입니다. DeepSeek에서는 수학 문제 해결 능력을 향상시키기 위해 GRPO를 사용하였고, 여기서 보상은 증명이나 풀이의 논리적 정합성과 최종 답의 정확성을 기반으로 주어졌다고 알려져 있습니다. 이 GRPO 기반으로 훈련된 DeepSeek-R1 모델은 일부 수학 분야 벤치마크에서 GPT-4 수준에 근접하는 성과를 보이기도 했습니다. GRPO를 통해 복잡한 추론 태스크에서도 LLM의 성능을 끌어올릴 수 있음을 입증한 사례라고 할 수 있습니다.

GRPO의 장단점 요약:

장점:
- 효율성: Critic 네트워크가 필요 없어 메모리와 연산 비용이 절감됩니다 (Aman's AI Journal • LLM Alignment). 거대 모델 미세조정 시에도 추가 파라미터가 거의 없으므로 비용 면에서 유리합니다.
- 단순성: 어드밴티지를 그룹 내 보상들의 상대적 차이로 계산하므로, 절대적인 가치 추정보다 구현이 간결합니다 (Aman's AI Journal • LLM Alignment). PPO처럼 복잡한 트릭 없이도 동작하며, 정책만 업데이트하면 됩니다 (Can anybody explain how the RL portion of DeepSeek works?).
- 성과: 초기 실험에서 PPO를 대체하여 LLM의 특정 능력(예: 수학적 추론)을 향상시키는 데 성공, 복잡한 문제에서도 유의미한 성능 향상을 보였습니다.
단점:
- 보상모델 의존: RLHF와 마찬가지로, 결국 보상 신호의 정의나 품질에 학습 성능이 달려 있습니다. 그룹 내 상대평가라고 해도 보상 함수가 부정확하면 잘못된 방향으로 강화될 위험이 있습니다.
- 대규모 샘플 필요: 매 업데이트마다 여러 후보를 생성해야 하므로, 충분한 연산 자원이 필요합니다. 또한 그룹 크기 등의 하이퍼파라미터를 문제에 맞게 튜닝해야 합니다.
- 검증 범위 제한: 아직 몇몇 제한된 영역(수학, 논리 추론 등)에서 주로 시험되었으므로, 범용적인 언어 과제나 다른 환경에 동일한 효과가 나타나는지는 지속적인 연구가 필요합니다.

5. 대규모 언어 모델(LLM)에서의 강화학습 활용 및 발전 방향

앞서 설명한 기법들(PPO, RLHF, GRPO 등)은 최근 대규모 언어 모델의 성능 향상과 안전한 활용에 핵심적인 역할을 하고 있습니다. 기본적으로 GPT-3와 같은 대형 언어 모델은 방대한 코퍼스에 대한 지도학습(자기지도학습) 으로 예측 모델을 만들지만, 이러한 모델을 실제 사용자 상호작용에 최적화하거나 특정 과제 성능을 높이기 위해 강화학습이 접목됩니다.

5.1 LLM의 사용자 지시 이행 및 품질 향상: RLHF의 역할

대형 언어모델을 실제 애플리케이션 (예: 챗봇, 가상비서)에 투입하려면, 단순한 언어 모형 확률에 따른 출력 대신 사람이 만족하는 응답을 생성하도록 조율해야 합니다. RLHF는 이러한 모델 정렬(alignment) 에 핵심 기법으로 사용되어 왔습니다 (Personalizing Reinforcement Learning from Human Feedback with ...). OpenAI의 ChatGPT, Anthropic의 Claude 등 최근 대화형 LLM들은 모두 일정 수준의 RLHF 과정을 거쳐 유해한 발언을 회피하고 유용한 답변을 우선 생성하도록 미세조정되었습니다. 예를 들어, ChatGPT는 인종차별적이거나 폭력적인 발언에 대해 거절하도록 학습되어 있는데, 이는 인간 피드백을 통해 그런 발언에는 높은 페널티(음의 보상)를 주고, 정중하고 유익한 답변에는 보상을 주는 식으로 RLHF를 적용한 결과입니다. 그뿐만 아니라 사용자로부터 받은 지시(프롬프트)를 충실히 따르는지도 RLHF로 강화됩니다. InstructGPT 연구에서 RLHF를 거친 모델은 그렇지 않은 모델보다 사람 선호도 평가에서 훨씬 높은 점수를 받았으며, 결과적으로 상용 서비스에 투입될 수 있었습니다 (Improving Reinforcement Learning from Human Feedback ... - arXiv).

LLM에서 RLHF를 적용할 때 고려해야 할 점으로, 모델의 지식과 유창함 유지가 있습니다. 잘못된 RLHF 설정은 모델이 언어 유창함이나 사실적 정확성을 해치면서까지 사람의 단편적 선호에 맞추려고 들게 할 수 있습니다. 이를 방지하기 위해 앞서 언급한 KL 페널티를 활용하거나, 일정 수준 이상으로는 응답을 변화시키지 않도록 보수적인 업데이트 전략이 취해집니다 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen). 예컨대, OpenAI는 RLHF 시 기존 SFT(지도학습으로 미세조정된 모델)의 출력과 RLHF 후 모델 출력 사이의 차이를 KL로 측정하여, 그 차이가 너무 커지면 보상을 낮추는 방식을 사용했습니다. 이런 정규화는 강화학습이 가져올 수 있는 분포 붕괴(collapsing) 를 막아주어, 모델이 원래 학습된 언어 능력을 유지하면서도 사용자 선호에 맞게 조정되도록 돕습니다 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen).

RLHF의 또 다른 한계는 확장성입니다. 인간 피드백 데이터를 많이 확보하기 어렵거나, 어떤 주제는 전문 지식이 필요한 경우 사람 평가자도 실수를 할 수 있습니다. 최근 연구에서는 이를 보완하기 위해 AI 피드백을 통한 강화학습(RLAIF) 이 시도되고 있습니다. RLAIF는 말 그대로 인간 대신 AI(예: GPT-4 같은 상위 모델)가 모델의 출력을 평가하여 보상신호로 사용하는 방법입니다 (RLAIF: What is Reinforcement Learning From AI Feedback?). 예를 들어 Anthropic의 Constitutional AI 접근법에서는 몇 가지 헌법 조항(규칙) 을 정하고, 모델이 생성한 답을 그 규칙에 비춰 스스로 평가하도록 (즉, AI가 AI를 평가) 하여 보상 신호로 삼았습니다 (How Reinforcement Learning from AI Feedback works - AssemblyAI). 이러한 방법은 인간 노동을 줄이고 RLHF의 확장성 문제를 완화하지만, 결국 상위 AI의 신뢰성에 의존한다는 점에서 한계와 도전과제가 존재합니다. 초기 연구 결과에 따르면 RLAIF로도 RLHF에 필적하는 성능을 낼 수 있다는 보고가 있어 향후 발전 방향의 하나로 주목받고 있습니다 ([2309.00267] RLAIF vs. RLHF: Scaling Reinforcement Learning from ...).

5.2 LLM의 특정 능력 강화: 예시로서 GRPO와 추론 능력

강화학습은 LLM의 특정 능력을 향상시키는 데에도 활용됩니다. 예를 들어 수학 문제 해결이나 프로그래밍 코드 작성/수정 같은 작업에서는, 단순한 다음 단어 예측만으로는 높은 정확도를 달성하기 어렵습니다. 이러한 경우 환경으로부터 명확한 성공 신호(정답 여부, 테스트 케이스 통과 등)를 얻을 수 있기 때문에, 그 신호를 보상으로 정의하여 모델을 강화학습으로 더 훈련시킬 수 있습니다. 즉, LLM에게 문제를 풀게 하고 정답을 맞히면 보상 +1, 틀리면 0을 주는 식입니다. 모델은 이 보상을 최대화하기 위해 더욱 논리적으로 일관된 추론 과정을 생성하거나, 틀리기 쉬운 부분을 개선하려 노력하게 됩니다.

DeepMind 등의 연구에서는 생각의 사슬(CoT, Chain-of-Thought) 유도와 강화학습을 결합하여, 모델이 복잡한 문제를 단계적으로 풀도록 훈련시키기도 했습니다. 앞서 설명한 DeepSeek 프로젝트 역시 이러한 맥락에서, 정답 검증이 가능한 수학 문제에 대해 GRPO 알고리즘을 적용했습니다. 이 경우 환경은 수학 문제 출제자 및 풀이 검증기로 볼 수 있고, 모델은 여러 풀이안을 생성한 후 그 중 정답에 가까운 방향으로 정책이 강화됩니다. 그 결과 모델이 스스로 논증을 전개하는 능력이 향상되어, 이전에는 잘 못 풀던 고난도 문제를 더 잘 풀게 되었습니다. 이는 강화학습이 비용 함수로 표현하기 어려운 목표(예: "논리적으로 생각해서 정확한 답 도출")를 달성하도록 모델을 훈련시킬 수 있음을 보여줍니다. 요약하자면, RL은 LLM의 잠재력을 특정 과제에서 끌어올리는 도구로 활용될 수 있습니다.

한편, 강화학습을 LLM에 적용할 때 주의할 점은 기존 지식의 보존과 편향 발생 여부입니다. 만약 보상을 잘못 설계하면 모델이 편향된 방향으로 응답을 쏟거나(예: 점수만 쫓아 너무 과한 탐색을 한다거나, 일부 주제에 치우친 표현을 쓴다거나), 또는 강화학습 과정에서 모델의 언어 능력이 저하되는 경우도 있습니다 (DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any ...). 예를 들어, 사실관계를 무시하고 보상모델이 높게 채점하는 말투만 학습하면 그럴듯하지만 사실이 아닌 답변을 늘어놓을 위험이 있습니다. 이를 피하려면 보상 함수를 면밀히 검토하고, 강화학습 후에는 다양한 검증(사실 검사, 편향 테스트 등)을 수행하여 부작용을 모니터링해야 합니다.

5.3 종합적 비교 및 이론적 고찰

마지막으로 PPO, RLHF, GRPO 등의 방법론을 체계적으로 비교하면서 이론적 배경을 정리해보겠습니다:

PPO: 정책 경사 계열의 대표 알고리즘으로, 이론적으로는 TRPO의 접근(신뢰구간 내 최적화)을 1차 근사로 구현한 것입니다. 변분 바운드나 콘주게이트 그래디언트 등을 썼던 TRPO에 비해 PPO는 단순 SGD로 구현 가능하도록 만든 현실적 선택입니다. 이론적으로 완벽한 정책 향상을 보장하진 않지만, 실제로 작은 스텝으로 학습하여 수렴한다는 것이 수많은 실험으로 검증됐습니다. PPO는 LLM 미세조정에도 적용되었는데, 거대 행동공간(어휘 분포)에 대해서도 클리핑 기법이 유효함이 확인되었습니다. 다만 PPO는 on-policy 알고리즘이기에, LLM 학습처럼 데이터가 풍부한 상황에서는 괜찮지만, 데이터 생성 비용이 매우 큰 로봇학습 등에서는 효율이 떨어질 수 있습니다.
RLHF: 이는 알고리즘이라기보다 프레임워크에 가까우며, 지도학습과 강화학습을 결합한 형태로 이해할 수 있습니다. RLHF를 통해 우리는 인간의 주관적 평가를 손쉽게 모델 학습에 통합할 수 있게 되었고, 이는 기존의 명시적 손실함수(예: 크로스 엔트로피)에 담기 어려웠던 요구사항을 학습시킬 수 있다는 의의가 있습니다 ([PDF] Training language models to follow instructions with human feedback). 이론적인 측면에서는, RLHF는 MDP의 보상 함수를 학습하는 메타문제로 볼 수 있습니다. 즉, 먼저 인간 선호도를 근사하는 보상 모델 학습(일종의 메타-학습 단계)을 거친 후, 고정된 보상 모델 하에서 표준 RL을 푸는 2단계 절차입니다. 이 분리된 접근이 항상 최적이라는 보장은 없습니다. 실제로 보상모델이 불완전하면 최적 정책도 불완전하게 수렴할 수밖에 없습니다. 최근에는 보상 모델 학습과 정책 학습을 동시에 또는 반복적으로 개선하는 연구도 이루어지고 있습니다. 이론 연구자들은 또한 KL-정규화된 RL에 대한 수학적 해석을 제시하는데, KL 페널티가 들어간 목적함수는 특정한 prior(초기 모델)에 대한 베이지안 업데이트로 해석될 수 있다는 분석도 있습니다 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen). 이러한 시각은 RLHF에서 왜 KL 제어가 필요한지를 이론적으로 뒷받침합니다.
GRPO: GRPO는 아직 연구 초기 단계이지만, 기존 Actor-Critic 이론에서 baseline으로서 critic 대신 샘플 평균을 쓰는 경우로 해석할 수 있습니다. 정책 경사 공식을 떠올려보면, \nabla J(\theta) = E[\hat{A}*t \nabla \log \pi*\theta(a_t|s_t)] 이고, \hat{A}_t (어드밴티지 추정치)를 계산할 때 일반적으로 \hat{A}_t = G_t - b(s_t) 형태로 baseline b(s) 를 빼줍니다. PPO 등에서는 이 baseline을 학습된 가치함수 V(s) 로 두었다면, GRPO에서는 동일한 프롬프트에서 얻은 응답들에 대한 평균 보상 정도로 두는 셈입니다. 큰 샘플(limit)에서는 이 평균이 실제 V(s) 에 수렴할 수도 있지만, 작은 그룹으로 근사한다는 차이가 있습니다 (Can anybody explain how the RL portion of DeepSeek works?). 그럼에도 불구하고 GRPO는 실용적으로 성능을 보였는데, 이는 아마도 LLM 미세조정 문제에서 critic을 학습하기가 특히 어려웠기 때문일 수 있습니다. LLM의 경우 상태가 곧 지금까지 생성된 텍스트이며 매우 고차원인데, 이를 입력으로 가치망을 정확히 예측하도록 학습시키기는 어렵습니다. 차라리 즉석에서 시뮬레이션한 그룹 샘플을 통해 상대적 우열을 판단하는 편이 안정적일 수 있다는 뜻입니다. 이러한 맥락에서 GRPO는 LLM 강화학습의 실용적인 해법으로 주목받고 있으며, 앞으로 이론적 분석(예: 수렴 조건, 최적 정책 특성 등)과 다양한 응용에 대한 검증이 추가로 이뤄질 것으로 보입니다.

6. 결론

강화학습은 에이전트가 스스로 행동하며 배운다는 점에서 매우 흥미롭고 강력한 개념이며, 기초적인 MDP 이론부터 시작하여 현대의 다양한 알고리즘(PPO, DQN, A3C 등)으로 발전해왔습니다. 특히 최근에는 인간과 상호작용하는 거대 언어모델의 품질 개선과 안전성 확보라는 실용적인 목표에 적용되면서, RLHF와 같은 방법을 통해 큰 성과를 거두고 있습니다 (Personalizing Reinforcement Learning from Human Feedback with ...). RLHF는 기존에 불가능해보이던 "모델에게 인간의 가치관을 가르치는 것"을 어느 정도 가능하게 했고, ChatGPT와 같은 시스템의 탄생을 이끌었습니다. 더 나아가, 강화학습 커뮤니티는 LLM의 추론 능력이나 특정 작업 전문화를 위해 새로운 알고리즘(예: GRPO (Can anybody explain how the RL portion of DeepSeek works?))을 개발하여 적용하는 등 지속적으로 혁신하고 있습니다.

강화학습 기법들의 장단점을 정확히 이해하고 활용하는 것이 중요합니다. PPO와 같은 알고리즘 덕분에 우리는 큰 어려움 없이 안정적인 RL 훈련을 할 수 있게 되었지만, 여전히 보상 신호 설계나 장기 신뢰도 측면에서 어려움이 있습니다. 인간 피드백을 활용하는 RLHF는 효과가 크지만 데이터 확보와 모델 악용 방지에 비용이 들며, 이를 개선하기 위한 RLAIF 등의 연구가 활발합니다 ([2309.00267] RLAIF vs. RLHF: Scaling Reinforcement Learning from ...). GRPO는 효율적인 대안으로 부상하고 있지만, 모든 문제에 만능은 아니므로 기존 방법들과 적절히 병용하거나 문제 특성에 맞게 변형해야 할 것입니다.

마지막으로, 강화학습 이론은 여전히 발전 중인 영역입니다. 현장의 경험적 성공들을 이론이 뒤따라 설명하고 일반화하는 과정이 진행되고 있습니다. 예를 들어 KL 정규화된 RL의 베이지안 해석 (RLHF: Reinforcement Learning from Human Feedback - Chip Huyen), 상대적 평가 기반 RL의 수렴 특성 등이 연구되고 있습니다. 이러한 이론적 이해는 향후 더욱 강력하고 견고한 알고리즘을 만드는 토대가 될 것입니다.

요약하면, 강화학습은 개념적으로 보상을 최대화하는 행동 학습으로 정의되며, MDP와 가치함수, 정책 경사 등의 이론으로 뒷받침됩니다. 현대의 주요 기법인 PPO, RLHF, GRPO 등은 각기 안정성, 인간 선호 반영, 효율성이라는 측면에서 발전해온 사례들입니다. 이들 기법을 통해 대형 언어모델을 비롯한 AI 시스템의 성능과 인간 적합성을 크게 향상시킬 수 있었으며, 앞으로도 이 방향의 연구는 AI의 능동적 학습과 인간과의 조화를 위해 더욱 중요한 역할을 할 것으로 기대됩니다.

참고자료: 강화학습의 기본 개념과 수식은 Sutton&Barto의 교과서와 OpenAI Spinning Up 자료 등을 참조하였으며, PPO 알고리즘의 배경과 효과는 OpenAI 및 관련 블로그의 설명을 인용했습니다 (Proximal Policy Optimization - OpenAI). RLHF와 GRPO에 대한 설명은 각각 OpenAI InstructGPT 논문 ([PDF] Training language models to follow instructions with human feedback)와 DeepSeek 관련 자료 (Can anybody explain how the RL portion of DeepSeek works?)를 기반으로 정리되었습니다. 최신 경향으로 RLAIF 등의 아이디어도 소개되었으며 ([2309.00267] RLAIF vs. RLHF: Scaling Reinforcement Learning from ...), 강화학습 이론의 해석에 관한 연구도 참고하였습니다. 전체적으로, 강화학습은 여전히 활발히 진화하는 분야이며, 이 글에서는 2024년까지 보고된 주요 내용들을 요약하여 전달하였습니다.

더 읽어보기

이 글은 OpenAI의 Deep Research 기능으로 정리한 글로, 참고 문헌의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 각 링크의 참고 문헌들도 함께 읽어주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

9bow · 2월 16, 2025, 7:49오전

동일 프롬프트를 사용하여 Perplexity의 Deep Research에서 작성한 내용입니다. (이 글이 레퍼런스로 달려있네요):

LLM 분야에서의 강화학습(RL) 종합 분석: 기초부터 최신 기법 GRPO까지

1. 강화학습(RL)의 기본 원리

1.1 RL의 핵심 개념

강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 전략을 학습하는 기계학습 분야입니다. 기본 요소는 다음과 같습니다:

에이전트: 학습 주체 (예: 게임 AI)
환경: 상호작용 대상 (예: 게임 월드)
상태(s): 현재 상황 (예: 캐릭터 위치)
행동(a): 가능한 선택지 (예: 이동 방향)
보상(r): 행동 평가 (예: 점수 획득)

목적 함수:

\max \sum_{t=0}^\infty \gamma^t r_t

γ(감마)는 0.9 정도의 할인 계수로, 미래 보상의 현재 가치를 조절합니다^[1]^[2].

1.2 마르코프 결정 과정(MDP)

RL의 수학적 기반인 MDP는 다음 요소로 구성됩니다:

상태 전이 확률: P(s'|s,a)
보상 함수: R(s,a,s')

LLM에 적용 시:

상태 = 생성된 텍스트 시퀀스
행동 = 다음 단어 선택
보상 = 생성 품질 점수^[3]^[1:1]

2. LLM에 RL을 적용하는 방법

2.1 핵심 접근법

RLHF(인간 피드백 강화학습):
- 인간 평가 데이터로 보상 모델 훈련
- PPO 알고리즘으로 정책 최적화
- InstructGPT에서 85% 성능 향상^[4]^[5]
자동화 보상 시스템:
- 규칙 기반 평가 (예: 코드 실행 결과)
- 다중 지표 통합 (정확성, 형식 등)^[6]^[7]

2.2 학습 파이프라인

3단계 프로세스:

사전학습: 대량 텍스트 데이터 기반
지도학습 미세조정: 고품질 응답 데이터
RL 최적화: 보상 모델 기반 정책 개선^[4:1]^[8]

3. 최신 RL 기법: GRPO 분석

3.1 GRPO의 혁신적 특징

DeepSeek-R1에서 도입한 GRPO의 핵심^[9]^[6:1]:

그룹 비교 메커니즘: 8개 응답 동시 평가
크리틱 모델 제거: 계산 비용 50% 감소
상대적 평가: 그룹 내 순위 기반 학습

수식 표현:

J_{GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \min\left(\frac{\pi_\theta(a_i|s)}{\pi_{old}(a_i|s)} A_i, \text{clip}\left(\frac{\pi_\theta}{\pi_{old}}, 1-\epsilon, 1+\epsilon\right)A_i\right) \right]

여기서 A_i 는 그룹 내 상대적 이점 점수입니다^[6:2]^[10].

3.2 GRPO vs PPO 비교

항목	PPO	GRPO
크리틱 모델	필요	불필요
메모리 사용량	2x	1x
학습 속도	기준	3.2x 향상
적합 작업	일반적 작업	전문적 추론

4. 실제 적용 사례 연구

4.1 수학 문제 해결

DeepSeek-R1 결과:

MATH 벤치마크: 58% → 82%
AIME 2024: 15.6% → 71.0%
보상 함수^[6:3]^[11]:

R_{total} = 0.7R_{accuracy} + 0.3R_{format}

4.2 코드 생성

Eureka 프레임워크:

로봇 제어 작업 성공률 34% 향상
자동 생성 보상 함수^[3:1]^[12]:

R_{new} = \arg\max_R \mathbb{E}_{\tau \sim p(\tau|R)}[성능(\tau)]

5. 도전 과제 및 해결 전략

5.1 주요 문제점

다양성 감소: 생성 편향 발생
계산 비용: 대규모 모델 학습 어려움
보상 해킹: 시스템 악용 가능성

5.2 혁신적 해결책

혼합 손실 함수:

\mathcal{L}_{total} = 0.7\mathcal{L}_{RL} + 0.3\mathcal{L}_{LM}

언어모델 손실과 결합해 다양성 유지^[3:2]^[6:4]
2. ReaLHF 시스템:
- 동적 파라미터 재배치
- 분산 학습 효율 10.6배 향상^[9:1]^[6:5]
3. 다단계 검증:
- 초기 생성 → 정제 → 최종 검증
- 3단계 파이프라인으로 오류 감소^[11:1]

6. 미래 전망

6.1 기술 발전 방향

RLAIF: AI 피드백 시스템 (GPT-4 활용)
멀티모달 RL: 텍스트+이미지 결합 평가
분산 RL: 연합 학습 기반 대규모 훈련

6.2 예측 가능한 영향

개발 생태계: AutoRL 프레임워크 확산
하드웨어: RL 전용 가속기 등장
교육: RL 통합 AI 교육과정 필요

7. 입문자 실습 가이드

7.1 시작 단계

환경 설정:

!pip install gymnasium transformers
import torch
from stable_baselines3 import PPO

간단한 예제:

env = gym.make('CartPole-v1')
model = PPO('MlpPolicy', env, verbose=1)
model.learn(total_timesteps=10000)

7.2 고급 활용

GRPO 구현 핵심:

class GRPOLearner:
    def __init__(self, policy, lr=1e-4):
        self.policy = policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
    
    def update(self, batch):
        states, actions, rewards = batch
        advantages = (rewards - rewards.mean()) / (rewards.std() + 1e-8)
        
        # 정책 손실 계산
        log_probs = self.policy.get_log_prob(states, actions)
        loss = -(log_probs * advantages).mean()
        
        # 파라미터 업데이트
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

8. 결론

강화학습은 LLM 발전의 핵심 동력으로 진화하고 있습니다. 기초 이론부터 GRPO 같은 최신 기법까지 이해하는 것은 AI 연구자에게 필수적입니다. 초보자는 간단한 환경에서 시작해 점진적으로 복잡한 시스템으로 확장해나가는 것을 추천하며, 지속적인 기술 발전에 발맞추어 학습해야 합니다.

⁂