OAT ์๊ฐ
OAT(Online Alignment for LLMs) ํ๋ ์์ํฌ๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM, Large Language Model)์ ์จ๋ผ์ธ ์ ๋ ฌ(Online Alignment) ๊ณผ์ ์ ์คํํ๊ณ ์ฐ๊ตฌํ๊ธฐ ์ํ ํ๋ ์์ํฌ๋ก, ๊ฐ๋ณ๊ณ (lightweight) ํ์ฅ ๊ฐ๋ฅํ ๊ฒ์ด ํน์ง์ ๋๋ค. ์ด ํ๋ก์ ํธ๋ ์ฑ๊ฐํฌ๋ฅด ๊ตญ๋ฆฝ๋ํ AI ์ฐ๊ตฌ ๊ทธ๋ฃน(SAIL-SG) ์ด ์ฃผ๋ํ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ฌผ๋ก, โSample-Efficient Alignment for LLMsโ (arXiv:2411.01493)์์ ์ ์๋ ์์ด๋์ด๋ฅผ ์ค์ฉ์ ์ธ ์ฝ๋๋ฒ ์ด์ค๋ก ๊ตฌํํ์์ต๋๋ค.
๊ธฐ์กด์ RLHF(Reinforcement Learning from Human Feedback)๋ DPO(Direct Preference Optimization)์ ๊ฐ์ LLM ์ ๋ ฌ ๋ฐฉ์์ ์ฃผ๋ก ์ ์ ์ธ ๋ฐ์ดํฐ์ (offline dataset) ์ ๊ธฐ๋ฐํ์ต๋๋ค. ์ฆ, ์ฌ์ ์ ์์ง๋ ์ธ๊ฐ ํผ๋๋ฐฑ(Human Feedback) ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ ๋ฒ ํ์ตํ๊ณ ์ข ๋ฃํ๋ ๊ตฌ์กฐ๋ก, ์ด๋ฌํ ๊ณ ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ช ๊ฐ์ง ๋จ์ ์ ๊ฐ๊ณ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ก์ด ํผ๋๋ฐฑ์ด๋ ์ํธ์์ฉ์ ์ฆ์ ๋ฐ์ํ์ง ๋ชปํ๊ฑฐ๋, ํ์ต ํจ์จ์ด ๋ฎ๊ณ ์คํ ์ฌํ์ฑ์ด ๋ฎ์ ๋ฑ, ๋ชจ๋ธ์ด ์ผ๋ง๋ ํจ์จ์ ์ผ๋ก ํผ๋๋ฐฑ์ ํ์ฉํ๋์ง๋ฅผ ํ๊ฐํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค.
์ด์ ๋ฐํด, OAT๋ LLM ์ ๋ ฌ์ CDB(Contextual Dueling Bandits) ๋ฌธ์ ๋ก ๋ณด๊ณ ์ ๊ทผํ๋ ๋ฐฉ์์ ์ทจํ์ต๋๋ค. ์ฆ, LLM์ด ์์ฑํ ์ฌ๋ฌ๊ฐ์ง ์๋ต ์ค, ์ด๋ ํ ์๋ต์ด ๋ ์ธ๊ฐ์ ์ ํธ์ ๊ฐ๊น์ด์ง๋ฅผ ๋น๊ต(Pairwise Preference) ํํ๋ก ํ์ตํฉ๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํตํด OAT๋ ์คํ ์ค ๋ชจ๋ธ์ด ์์ฑํ๋ ์๋ต์ ์ค์๊ฐ์ผ๋ก ํ๊ฐํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ(๋ณด์ยท์ ํธ)๋ฅผ ์ฆ์ ํ์ต์ ๋ฐ์ํ๋ โ์จ๋ผ์ธ ์ ๋ ฌโ ๋ฐฉ์์ ์ง์ํฉ๋๋ค. ์ด๋ก์จ, ๋ชจ๋ธ์ ๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ ์์กดํ์ง ์๊ณ ์ค์ค๋ก ํ์ํ๋ฉฐ ์ง์์ ์ผ๋ก ๊ฐ์ ๋๋ โ์๊ธฐ ํ์ตํ(Active Learning)โ ์ ๋ ฌ ๊ตฌ์กฐ๋ฅผ ํ์ฑํ ์ ์์ต๋๋ค.
LLM Alignment ๊ฐ๋ ๋ฐ ์ฐ๊ตฌ ๋ํฅ
LLM Alignment(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ ๋ ฌ) ์ด๋, ์ธ์ด ๋ชจ๋ธ์ด ์ธ๊ฐ์ ์๋์ ๊ฐ์น, ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๋ง๊ฒ ํ๋ํ๋๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.
LLM์ ๋๋์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ๋ฅ ์ ์ผ๋ก ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ๋ จ๋์ง๋ง, ์ด๋ฌํ ๋ฐฉ์๋ง์ผ๋ก๋ โ์ธ๊ฐ์ด ๊ธฐ๋ํ๋ ๋ฐฉ์โ์ ์๋ต์ ๋ณด์ฅํ์ง ๋ชปํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ด ์ ํดํ๊ฑฐ๋ ํธํฅ๋ ๋ต๋ณ์ ์์ฑํ๊ฑฐ๋, ๋ ผ๋ฆฌ์ ์ผ๋ก ํ๋นํ์ง ์์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด RLHF(Reinforcement Learning from Human Feedback), DPO(Direct Preference Optimization), RLAIF(Reinforcement Learning from AI Feedback) ๋ฑ์ ์ ๋ ฌ ๊ธฐ๋ฒ์ด ๋ฑ์ฅํ์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ๋ค์ ์ธ๊ฐ(๋๋ AI)์ ํผ๋๋ฐฑ์ ๋ณด์ ์ ํธ๋ก ํ์ฉํด ๋ชจ๋ธ์ด ๋ฐ๋์งํ ์๋ต์ ์ ํํ๋๋ก ํ๋ จํฉ๋๋ค.
์ต๊ทผ ์ฐ๊ตฌ ๊ฒฝํฅ์ ์คํ๋ผ์ธ ์ ๋ ฌ(offline alignment) ์์ **์จ๋ผ์ธ ์ ๋ ฌ(online alignment)**๋ก ์งํํ๊ณ ์์ต๋๋ค. ๊ธฐ์กด์๋ ๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ผ๊ด ํ์ตํ์ง๋ง, ์ต์ ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ์ด ํ์ต ์ค ์ค์๊ฐ ํผ๋๋ฐฑ์ ๋ฐ๊ณ ์ด๋ฅผ ์ฆ์ ๋ฐ์ํ๋ ์ค์๊ฐ ํผ๋๋ฐฑ ๋ฃจํ(online feedback loop) ์ ์ง์คํ๊ณ ์์ต๋๋ค. ๋ํ, LLM-as-a-Judge(๋ชจ๋ธ์ด ์ค์ค๋ก ๋ณด์ ํ๊ฐ์ ์ญํ ์ ํ๋ ๊ตฌ์กฐ), ์๊ธฐ๊ฐํ(Self-play), ๋ฅ๋์ ํ์(Active Exploration), ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(Verifiable Reward) ๋ฑ์ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ๋ฉฐ, ์ธ๊ฐ ์์กด๋๋ฅผ ์ค์ด๊ณ ํจ์จ์ ์ธ ์ ๋ ฌ ํ๋ก์ธ์ค๋ฅผ ๊ตฌ์ถํ๋ ค๋ ์๋๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค.
OAT์ ์ค๊ณ ์ฒ ํ ๋ฐ ๋ชฉํ
OAT์ ๊ธฐ๋ฐ์ด ๋๋ 'Sample-Efficient Alignment for LLMs' ๋ ผ๋ฌธ์์๋ ๋ค์ 3๊ฐ์ง ์์ด๋์ด๋ฅผ ์ ์ํ์์ต๋๋ค:
-
๋ฅ๋์ ํ์(Active Exploration): ๋จ์ํ ๋ฌด์์ ์ํ๋งํ๋ ๊ฒ์ด ์๋๋ผ,๋ชจ๋ธ์ด โ๋ถํ์ค์ฑ์ด ๋์ ์์ญ(uncertain region)โ์์ ๋ ๋ง์ ์ํ์ ์์ฒญํ์ฌ ํ์ต ํจ์จ์ ๋์ด๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ OAT์์๋ Active Alignment ๋ชจ๋๋ก ๊ตฌํ๋์ด ์์ผ๋ฉฐ, ํ์ต ์ค ๋ถํ์ค์ฑ์ด ๋์ ๋ฐ์ดํฐ์ ๋ ๋์ ์ฟผ๋ฆฌ ํ๋ฅ ์ ๋ถ์ฌํฉ๋๋ค.
-
ํผํฉ ์ ํธ ํ์ต(Mixed Preference Learning): SEA๋ ๋ชจ๋ธ์ ํ์ฌ ์ ์ฑ (policy)์ ๊ณผ๊ฑฐ์ ํผ๋๋ฐฑ์ ํจ๊ป ์ฌ์ฉํ์ฌ, ๋ณด์ ์์ธก๊ธฐ์ ๋ถํ์ค์ฑ์ ์ค์ ๋๋ค. ์ด๋ OAT์์๋ Learner๊ฐ Oracle์ ํผ๋๋ฐฑ ๋ก๊ทธ๋ฅผ ์ง์์ ์ผ๋ก ๋์ ํ๋ฉฐ '์ฆ์ ํ์ต + ์ฅ๊ธฐ ํ๊ท ๋ณด์'์ ํจ๊ป ์ต์ ํํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋์์ต๋๋ค.
-
์ํ ํจ์จ์ฑ(Sample Efficiency): ๋ชฉํ๋ ๊ฐ๋ฅํ ์ ์ ํผ๋๋ฐฑ(์: 1,000ํ ์ดํ์ ํ๊ฐ)์ผ๋ก ์ต๋์ ์ ๋ ฌ ํจ๊ณผ๋ฅผ ๋ด๋ ๊ฒ์ ๋๋ค. OAT์ ๋ถ์ฐ ํ์ต ์์ง์ ๋น๋๊ธฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋์ด ๋์ผํ ํผ๋๋ฐฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ์ ์ฑ ์ ๋ฐ์ดํธ์ ์ฌํ์ฉํ ์ ์๋๋ก ๊ตฌํ๋์์ต๋๋ค.
์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ OAT๋ ๋ค์๊ณผ ๊ฐ์ ์ค๊ณ ์ฒ ํ์ ๊ฐ์ต๋๋ค:
-
Simple but Scalable (๋จ์ํ์ง๋ง ํ์ฅ ๊ฐ๋ฅํ ๊ตฌ์กฐ) LLM ์ ๋ ฌ ์คํ์ ํ์ดํ๋ผ์ธ์ ๋จ์ํํ์ฌ, ์ฐ๊ตฌ์๊ฐ ๋น ๋ฅด๊ฒ ์คํ์ ์ค๊ณํ๊ณ ํ์ฅํ ์ ์๋๋ก ์ง์ํฉ๋๋ค.
-
Online by Design (๋ณธ์ง์ ์ผ๋ก ์จ๋ผ์ธ ์ค์ฌ) ์ ๋ ฌ ์๊ณ ๋ฆฌ์ฆ์ด ์ค์๊ฐ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.์ฆ, ๋ชจ๋ธ์ ์ถ๋ ฅ๊ณผ ๋ณด์ ์ ํธ๊ฐ ๋์์์ด ์ํํ๋ฉฐ ํ์ต๋ฉ๋๋ค.
-
Research-Friendly (์ฐ๊ตฌ ์นํ์ฑ ๊ทน๋ํ) ์๊ณ ๋ฆฌ์ฆ, ๋ณด์ ๋ชจ๋ธ, ํ์ ์ ๋ต ๋ฑ์ ๋ชจ๋ ๋จ์๋ก ๊ต์ฒดยทํ์ฅํ ์ ์์ต๋๋ค. ์ฆ, PPO, DPO, GRPO ๋ฑ ์ต์ ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ง์ ์คํํ๊ฑฐ๋ ๋ณํํด ๋ณผ ์ ์์ต๋๋ค.
๊ณ ํจ์จ ๋ถ์ฐ ActorโLearnerโOracle ๊ตฌ์กฐ
OAT ๋ ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ ์์คํ ์์ ์์ฃผ ์ฌ์ฉ๋๋ ActorโLearnerโOracle ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ด ๊ตฌ์กฐ๋ LLM ์ ๋ ฌ์ ๊ฐ ๋จ๊ณ๋ฅผ ๋ ๋ฆฝ๋ ๋ชจ๋๋ก ๋ถ๋ฆฌํจ์ผ๋ก์จ ๋ณ๋ ฌํ์ ๋ถ์ฐ ์คํ์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๊ฐ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
-
Actor: Actor๋ ๋ชจ๋ธ์ ์๋ต์ ์์ฑํ๊ณ , ์คํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ์ญํ ์ ์ํํฉ๋๋ค. vLLM์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ์ํ๋ง ๋ฐ ๋ฐฐ์นญ์ ์ง์ํ๋ฉฐ, ๋ค์ค GPU(Multi-GPU) ํ๊ฒฝ์์ ์์ฒ ๊ฐ์ ๋ฌธ์ฅ์ ์ค์๊ฐ์ผ๋ก ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ๊ฑฐ์ณ ์์ฑ๋ ์๋ต์ Learner์ Oracle๋ก ์ ๋ฌ๋์ด ๋ณด์ ํ๊ฐ ๋ฐ ํ์ต์ ํ์ฉ๋ฉ๋๋ค.
-
Learner: Learner๋ Actor๊ฐ ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. DeepSpeed์ ZeRO ์ ๋ต์ ํตํด GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ต์ ํํ๋ฉฐ, ์ค์๊ฐ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ๋น๋๊ธฐ ํ์ต(Asynchronous Training) ๊ตฌ์กฐ๋ฅผ ์ฑํํ์ต๋๋ค. Learner๋ PPO, DPO, SimPO, IPO, GRPO ๋ฑ์ ๋ค์ํ ์จ๋ผ์ธ ์ ๋ ฌ ์๊ณ ๋ฆฌ์ฆ์ ์ง์ํฉ๋๋ค.
-
Oracle: Oracle์ ๋ชจ๋ธ์ ์๋ต์ ํ๊ฐํ๊ณ ๋ณด์ ์ ํธ๋ฅผ ๋ฐํํ๋ ์ปดํฌ๋ํธ์ ๋๋ค. Mosec์ ์๊ฒฉ ์๋น์ค๋ก ํ์ฉํ๋ฉฐ, ๋์ ๋ฐฐ์นญ ๋ฐ ๋ณ๋ ฌ ํ๊ฐ๋ฅผ ์ง์ํฉ๋๋ค. Oracle์ LLM์ ํ๊ฐ์๋ก ์ฌ์ฉํ๋ LLM-as-a-Judge ํํ๋ก, OpenAI API๋ ์์ฒด ๋ชจ๋ธ์ ์ฐ๊ฒฐํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค. ๋ํ, ๊ท์น ๊ธฐ๋ฐ(rule-based) ๋๋ ๊ฒฝ๋ํ๋ ๋ก์ปฌ ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์๋ ์์ต๋๋ค.
์ด๋ฌํ Actor-Learner-Oracle์ ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ ํ์ต, ํ๊ฐ, ๋ณด์ ๊ณ์ฐ์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก, ์๋ฒ ์์์ด ๋ถ์ฐ๋์ด ์๊ฑฐ๋ ๋ค์ํ ์ฐ๊ตฌ ํ๊ฒฝ์์ ์ฝ๊ฒ ํ์ฅํ ์ ์์ต๋๋ค.
๊ธฐ์กด ์ ๋ ฌ ํ๋ ์์ํฌ์์ ๋น๊ต
OAT๋ Hugging Face์ TRL(Transformers Reinforcement Learning) , OpenRLHF , DeepSpeed-Chat ๋ฑ ๊ธฐ์กด RLHF ๊ตฌํ๊ณผ ๋ค์๊ณผ ๊ฐ์ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค:
| ๊ตฌ๋ถ | ๊ธฐ์กด RLHF/DPO | OAT |
|---|---|---|
| ํ์ต ๋ฐฉ์ | ์คํ๋ผ์ธ (์ ์ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ) | ์จ๋ผ์ธ (์ค์๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ) |
| ๋ณด์ ๋ชจ๋ธ | ๊ณ ์ ๋ reward model | ๋์ reward/oracle ๊ตฌ์กฐ |
| ์ํคํ ์ฒ | ๋จ์ผ ํ๋ก์ธ์ค ์ค์ฌ | ๋ถ์ฐ ActorโLearnerโOracle |
| ์คํ ํธ์์ฑ | ์๋ ํ๊ฐ ๋ฐ checkpoint ๊ด๋ฆฌ ํ์ | ์ค์๊ฐ wandb ์๊ฐํ ๋ฐ ์๋ ํ๊ฐ |
| ํ์ฅ์ฑ | ์ ํ์ | ๋ชจ๋ํ ๊ตฌ์กฐ๋ก ์คํ ์์ ๋ ๋์ |
| ์ฐ์ฐ ํจ์จ์ฑ | ํ์ค HuggingFace ํธ๋ ์ด๋ | TRL ๋๋น ์ต๋ 2.5๋ฐฐ ํจ์จ์ (๋ ผ๋ฌธ ๊ธฐ์ค) |
์ฆ, OAT๋ ๋จ์ํ ๋น ๋ฅธ RLHF ๊ตฌํ ๋๊ตฌ๊ฐ ์๋๋ผ, LLM์ ์ ๋ ฌ ์๊ณ ๋ฆฌ์ฆ ์์ฒด๋ฅผ ํ๊ตฌํ๊ธฐ ์ํ ์คํ ํ๋ซํผ(Research Framework) ์ผ๋ก ์ค๊ณ๋์์ต๋๋ค.
LLM ์ ๋ ฌ ์คํ ์์
Oat๋ ๋ค์ํ LLM ์ ๋ ฌ ์๋๋ฆฌ์ค๋ฅผ ๋ฐ๋ก ์คํํ ์ ์๋ ์์ ๋ฅผ ์ ๊ณตํฉ๋๋ค:
-
์ํ์ ์ถ๋ก ๊ฐํ๋ฅผ ์ํ Dr.GRPO (R1-Zero ์คํ์ผ)
- ์ฝ๋: oat/experiment/run_math_rl.py
- ์คํ ์คํฌ๋ฆฝํธ: examples/math_rl.sh
-
๋ค์ค ํด SFT(Multi-turn Supervised Fine-Tuning)
- ์คํฌ๋ฆฝํธ: examples/multi_turn_sft.sh
-
์จ๋ผ์ธ ์ ํธ ํ์ต(Active Preference Learning)
- ์ค๋ช ๋ฌธ์: docs/alignment_as_cdb.md
์ด์ธ์๋ ์ ์ฅ์์ examples/ ๋๋ ํ ๋ฆฌ์๋ ๋ค์ํ ์คํ ์๋๋ฆฌ์ค๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ด๋ฌํ ์์ ๋ค์ ์ฐธ๊ณ ํ์ฌ ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฅํ๊ฑฐ๋ ์ปค์คํฐ๋ง์ด์งํ ์ ์์ต๋๋ค.
OAT์ ์ค์ ํ์ฉ ์ฌ๋ก
OAT๋ ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ฐ๊ตฌ ํ๋ก์ ํธ์ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก ํ์ฉ๋๊ณ ์์ต๋๋ค:
-
Understanding R1-Zero-Like Training: GRPO์ ์ต์ ํ ํธํฅ ๋ฌธ์ ๋ฅผ ๋ถ์
-
VeriFree: Verifier ์์ด ๊ฐํ ํ์ต์ ์ํํ๋ ๋ณด์ ๋ชจ๋ธ๋ง ์ฐ๊ตฌ
-
SPIRAL: ๋ค์ค ์์ด์ ํธ ์๊ธฐ๊ฒฝ์(Self-play) ๊ฐํํ์ต
-
GEM: LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์๋ฎฌ๋ ์ด์ ์ ์ํ ํ๊ฒฝ
๋ผ์ด์ ์ค
OAT ํ๋ก์ ํธ๋ Apache 2.0 ๋ผ์ด์ ์ค ํ์ ๊ณต๊ฐ๋์ด ์์ต๋๋ค. ์์ ์ ์ด์ฉ, ์์ ๋ฐ ์ฌ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํ์ง๋ง, ์ ์๊ถ ํ์์ ๋ผ์ด์ ์ค ๊ณ ์ง๋ฅผ ์ ์งํด์ผ ํฉ๋๋ค.
OAT ๊ด๋ จ ๋
ผ๋ฌธ: Sample-Efficient Alignment for LLMs
OAT ํ๋ก์ ํธ GitHub ์ ์ฅ์
์ด ๊ธ์ GPT ๋ชจ๋ธ๋ก ์ ๋ฆฌํ ๊ธ์ ๋ฐํ์ผ๋ก ํ ๊ฒ์ผ๋ก, ์๋ฌธ์ ๋ด์ฉ ๋๋ ์๋์ ๋ค๋ฅด๊ฒ ์ ๋ฆฌ๋ ๋ด์ฉ์ด ์์ ์ ์์ต๋๋ค. ๊ด์ฌ์๋ ๋ด์ฉ์ด์๋ผ๋ฉด ์๋ฌธ๋ ํจ๊ป ์ฐธ๊ณ ํด์ฃผ์ธ์! ์ฝ์ผ์๋ฉด์ ์ด์ํ๊ฑฐ๋ ์๋ชป๋ ๋ด์ฉ์ ๋ฐ๊ฒฌํ์๋ฉด ๋ง๊ธ๋ก ์๋ ค์ฃผ์๊ธฐ๋ฅผ ๋ถํ๋๋ฆฝ๋๋ค. ![]()
ํ์ดํ ์น ํ๊ตญ ์ฌ์ฉ์ ๋ชจ์
์ด ์ ๋ฆฌํ ์ด ๊ธ์ด ์ ์ฉํ์
จ๋์? ํ์์ผ๋ก ๊ฐ์
ํ์๋ฉด ์ฃผ์ ๊ธ๋ค์ ์ด๋ฉ์ผ
๋ก ๋ณด๋ด๋๋ฆฝ๋๋ค! (๊ธฐ๋ณธ์ Weekly์ง๋ง Daily๋ก ๋ณ๊ฒฝ๋ ๊ฐ๋ฅํฉ๋๋ค.)
์๋
์ชฝ์ ์ข์์
๋ฅผ ๋๋ฌ์ฃผ์๋ฉด ์๋ก์ด ์์๋ค์ ์ ๋ฆฌํ๊ณ ๊ณต์ ํ๋๋ฐ ํ์ด ๋ฉ๋๋ค~ ![]()

