Hugging Face R1 μκ°
Hugging Faceμμ 곡κ°ν Open R1 νλ‘μ νΈλ DeepSeek-R1μ μ€νμμ€ μ¬νμ λͺ©νλ‘ ν©λλ€. Open R1μ DeepSeek-R1μ ꡬμ±μμλ₯Ό μμ ν μ¬ννκΈ° μν κ³ νμ§ μ½νΌμ€ μ¦λ₯(Distillation), κ°ννμ΅(RL) κΈ°λ° νμ΄νλΌμΈ ꡬμΆ, λκ·λͺ¨ λ°μ΄ν°μ κΈ°λ° λ¬Έμ ν΄κ²° λͺ¨λΈ κ°λ° λ±μ κ° λ¨κ³λ₯Ό κ°λ° λ° κ³΅κ°νκ³ μμ΅λλ€. λν, μ΄λ₯Ό λ°νμΌλ‘ μΆκ°μ μΈ μ°κ΅¬μ κ°λ°μ μ΄μ΄λκ° μ μλλ‘ λμ΅λλ€.
Open R1μ DeepSeek-R1 κΈ°μ λ¬Έμλ₯Ό μ°Έκ³ νμ¬ λ€μκ³Ό κ°μ λ¨κ³λ₯Ό μ£Όμ λͺ©νλ‘ μ€μ νκ³ μμ΅λλ€:
-
1λ¨κ³: R1-Distill λͺ¨λΈ μ¬ν: DeepSeek-R1μμ κ³ νμ§ μ½νΌμ€λ₯Ό μ¦λ₯(distillation)νμ¬ μλ‘μ΄ R1-Distill λͺ¨λΈμ μ¬νν©λλ€.
- λͺ©μ : μλμ DeepSeek-R1 λͺ¨λΈμ΄ κ°μ§ λ°μ΄ν° μ¦λ₯ κΈ°λ²μ μ¬ννμ¬ κ³ μ±λ₯ λͺ¨λΈμ λ§λλ κ²μ λλ€.
- νμ© λ°©λ²: μ¦λ₯λ λ°μ΄ν°λ₯Ό κΈ°λ°μΌλ‘ κΈ°μ‘΄ λͺ¨λΈμ μΈλ°νκ² νλ(SFT)νμ¬ R1-Distill λͺ¨λΈμ μμ±ν©λλ€.
- μμ : Bespoke-Stratos-17kμ κ°μ λ°μ΄ν°μ
μ νμ©ν΄ λͺ¨λΈ νμ΅μ μν΄
src/open_r1
λλ ν 리μ νλ ¨ λ° νκ° μ€ν¬λ¦½νΈλ₯Ό ν¬ν¨νλ©°,Makefile
μ ν΅ν΄ μ£Όμ νμ΄νλΌμΈμ κ°λ¨νκ² μ€νν μ μμ΅λλ€.
-
2λ¨κ³: R1-Zeroλ₯Ό μμ±νλ μμ RL νμ΄νλΌμΈ μ¬ν: DeepSeek-R1μ΄ κ°λ°ν R1-Zeroμ κ°μ RL(κ°ννμ΅) κΈ°λ° λͺ¨λΈ μμ± κ³Όμ μ μ¬νν©λλ€.
- λͺ©μ : μλ‘μ΄ λκ·λͺ¨ λ°μ΄ν°μ μ μν, μΆλ‘ , μ½λ© μμ μ λ§κ² νλ μ΄μ νκ³ , μ΄λ₯Ό κΈ°λ°μΌλ‘ κ°ννμ΅μ μνν©λλ€.
- ν΅μ¬ μμ: κ°ννμ΅ μκ³ λ¦¬μ¦κ³Ό ν¨κ» κ³ μ±λ₯ νλμ¨μ΄(μ: H100 GPU)λ₯Ό νμ©νμ¬ ν¨μ¨μ μΌλ‘ νμ΄νλΌμΈμ ꡬμΆ.
-
3λ¨κ³: κΈ°λ³Έ λͺ¨λΈμμ RL νλλ λͺ¨λΈλ‘μ μ ν: κΈ°λ³Έ(base) λͺ¨λΈμμ μμνμ¬, λ©ν°μ€ν μ΄μ§ νμ΅ κ³Όμ μ ν΅ν΄ RL νλλ μ΅μ’ λͺ¨λΈμ λ§λλ κ²μ λͺ©νλ‘ ν©λλ€.
- λͺ©μ : κΈ°λ³Έ λͺ¨λΈμ κ°ννμ΅κ³Ό μΆκ°μ μΈ νλμ ν΅ν΄ μ±λ₯μ κ·Ήλννκ³ λ€μν μμ μμ νμ© κ°λ₯ν μ΅μ’ λͺ¨λΈλ‘ μ νν©λλ€.
- νΉμ§: λ¨κ³λ³ νμ΅ μ€κ³λ₯Ό ν΅ν΄ νλμ ν¨μ¨μ±κ³Ό νμ₯μ±μ μ¦λͺ ν©λλ€.
Open R1μ νλ‘μ νΈ κ΅¬μ‘°
Open R1μ λ€μκ³Ό κ°μ ν΅μ¬ κ΅¬μ± μμλ₯Ό ν¬ν¨ν©λλ€:
grpo.py
: λ°μ΄ν°μ μμ GRPO μκ³ λ¦¬μ¦μΌλ‘ λͺ¨λΈμ νλ ¨ν©λλ€.sft.py
: λ¨μν Supervised Fine-Tuning(SFT)μ μ€νν©λλ€.evaluate.py
: λͺ¨λΈμ νκ°νκΈ° μν μ€ν¬λ¦½νΈλ₯Ό μ 곡ν©λλ€.generate.py
: Distilabelμ μ¬μ©ν΄ λͺ¨λΈμμ λ°μ΄ν° μμ±μ μ§μν©λλ€.
λΌμ΄μ μ€
μ΄ νλ‘μ νΈλ Apache 2.0 Licenseλ‘ λ°°ν¬λκ³ μμ΅λλ€. μμ μ μ¬μ©μ μ νμ΄ μμ΅λλ€.
Hugging Face Open R1 GitHub μ μ₯μ
https://github.com/huggingface/open-r1
λ μ½μ΄λ³΄κΈ°
μ΄ κΈμ GPT λͺ¨λΈλ‘ μ 리ν κΈμ λ°νμΌλ‘ ν κ²μΌλ‘, μλ¬Έμ λ΄μ© λλ μλμ λ€λ₯΄κ² μ 리λ λ΄μ©μ΄ μμ μ μμ΅λλ€. κ΄μ¬μλ λ΄μ©μ΄μλΌλ©΄ μλ¬Έλ ν¨κ» μ°Έκ³ ν΄μ£ΌμΈμ! μ½μΌμλ©΄μ μ΄μνκ±°λ μλͺ»λ λ΄μ©μ λ°κ²¬νμλ©΄ λ§κΈλ‘ μλ €μ£ΌμκΈ°λ₯Ό λΆνλ립λλ€.
νμ΄ν μΉ νκ΅ μ¬μ©μ λͺ¨μ
μ΄ μ 리ν μ΄ κΈμ΄ μ μ©νμ
¨λμ? νμμΌλ‘ κ°μ
νμλ©΄ μ£Όμ κΈλ€μ μ΄λ©μΌ
λ‘ λ³΄λ΄λ립λλ€! (κΈ°λ³Έμ Weeklyμ§λ§ Dailyλ‘ λ³κ²½λ κ°λ₯ν©λλ€.)
μλ
μͺ½μ μ’μμ
λ₯Ό λλ¬μ£Όμλ©΄ μλ‘μ΄ μμλ€μ μ 리νκ³ κ³΅μ νλλ° νμ΄ λ©λλ€~