논문 소개
생성 모델은 데이터로부터 유도된 조건부 확률 분포를 모방하는 단순한 목표로 학습됩니다. 따라서 모델이 생성한 데이터(synthetic data)로 학습하는 경우, 최종 모델이 데이터를 생성한 원래 모델보다 나은 성능을 보일 것이라고 기대하기 어렵습니다.
이 논문에서는 생성 모델이 데이터를 생성하는 전문가의 능력을 능가하는 현상(초월성, transcendence)에 대해 살펴봅니다. 여기에서는 체스 게임의 경기 기록을 바탕으로 Autoregressive Transformer (자기회귀 트랜스포머) 모델을 학습하는 방식으로 이 초월성을 입증하고 있으며, 학습된 모델이 때때로 데이터셋의 모든 플레이어보다 더 나은 성능을 보일 수 있음을 보여줍니다.
초월성(transcendence)에 대한 정의
초월성(transcendence)은 학습된 예측 모델이 데이터를 생성하는 전문가(또는 모델) 중 최고의 성능을 능가할 때를 설명합니다. 이상적인 설정에서 무한한 데이터를 사용할 수 있고 임의의 함수를 선택할 수 있다고 가정할 때도, 추가적인 변경없이는 초월성을 달성하는 것이 불가능할 수 있습니다. 저자들은 데이터를 라벨링하는 k명의 전문가를 가정하고, 이들로부터 샘플링된 데이터에 대한 평균 보상을 통해 초월성을 정의합니다. 초월성이 달성되기 위해서는 예측 모델이 각 전문가의 편향과 오류를 제거하고, 다수의 전문가로부터 학습한 지식을 통합하여 더 나은 예측을 할 수 있어야 합니다.
저자들은 이러한 초월성에 대한 정의를 바탕으로 체스 도메인에서 모델의 성능을 평가했습니다. 각 전문가의 성능을 측정하고, 모델이 이들의 성능을 얼마나 초과하는지 분석했습니다. 연구 결과, 특정 조건에서 모델이 데이터셋의 최고 전문가를 능가할 수 있음을 확인했습니다. 이러한 결과는 모델이 단순히 데이터를 모방하는 것을 넘어서, 데이터를 통해 학습한 지식을 기반으로 더 나은 성능을 발휘할 수 있음을 시사합니다.
연구 소개
생성 모델(GM, Generative Models)은 일반적으로 인간의 행동을 모방하도록 학습됩니다. 예를 들어, 질문에 적절히 대답하거나 예술 작품을 창작하거나, 노래를 부르는 등, 인간의 행동을 작업의 목표로 삼고 학습을 통해 능숙한 성능을 보일 수 있습니다. 이를 위해 생성 모델은 출력 분포와 관련된 교차-엔트로피 손실(Cross-Entropy Loss)을 최소화하는 쪽으로 학습하게 됩니다.
낮은 샘플링 온도(low sampling temperature)에서 노이즈 제거 효과에 대한 시각화: 샘플링 온도 τ가 감소함에 따라 성벽(룩)으로 여왕(퀸)을 가두는 높은 보상의 움직임으로 확률 질량(probability mass)이 이동
이렇게 학습한 모델이 인간 전문가의 목표 성능을 능가하는 것은 가능할까요? 저자들은 이 질문에 대한 답을 체스 분야에서 찾아보려고 하였습니다. 체스는 이해하기 쉽고, 적절한 제약(rule)이 있는 작업으로, 공공 데이터셋의 체스 기록을 사용하여 Autoregressive Transformer 모델을 학습하여 실험을 진행하였습니다. 실험 결과, 특정한 샘플링 온도 설정(temperature sampling)에서 학습한 모델이 데이터셋의 최고 수준 플레이어보다 더 높은 성능을 발휘할 수 있음을 확인했습니다.
체스 도메인에서의 이러한 저자들의 실험은 모델이 학습 데이터의 다양성(diversity)과 질(quality)을 어떻게 활용하는지를 보여줍니다. 저자들이 사용한 학습 데이터셋은 lichess.org에 공개된 데이터셋으로, 이 데이터셋을 통해 다양한 수준의 체스 게임 기록을 모델에 제공했습니다. 이를 통해 모델은 다양한 플레이어의 전략과 실수를 학습하였습니다. 저자들의 이러한 접근 방식은 체스 도메인 외의 다른 분야에도 적용될 수 있으며, 생성 모델의 잠재력을 한층 더 확장할 수 있는 가능성을 열어줄 것으로 보입니다.
제안하는 방법
논문에서 제안된 방법은 체스 게임 기록을 사용하여 학습된 Autoregressive Transformer(자기회귀 트랜스포머) 모델입니다. ChessFormer라는 이름의 이 모델은 다양한 실력 수준의 인간 플레이어가 포함된 데이터셋을 학습하여 데이터셋의 최고 평점 플레이어보다 더 나은 성능을 발휘할 수 있는지를 조사합니다.
주요 아이디어는 다음과 같습니다:
생성 모델의 초월성(Transcendence): 논문은 생성 모델이 학습 데이터 소스를 능가할 수 있는 초월성 개념을 소개합니다. 이는 다양한 인간 전문가의 집단 지혜를 활용하여 이루어집니다.
저온 샘플링(Low-Temperature Sampling): 연구에서는 저온 샘플링의 중요성을 강조하고 있습니다. 낮은 샘플링 온도는 무작위성을 줄이고 높은 보상 행동에 확률 질량(probability mass )을 집중시키는 효과가 있습니다. 또한, 이 방법은 다수결 투표처럼 작동하여 개별 인간 플레이어의 오류를 제거합니다.
이론적 및 실험적 검증: 연구에서는 초월성이 발생할 수 있는 조건을 보여주는 엄격한 이론적 프레임워크를 제공합니다. ChessFormer를 사용한 실험은 이론적 예측을 확인하고, 특정 샘플링 온도에서 모델이 인간 성능을 초과할 수 있음을 보여줍니다.
ChessFormer의 구현 및 실험 개요
논문에서는 다음의 단계들을 거쳐 ChessFormer를 구현하고 실험을 진행하였습니다:
-
데이터 준비: 데이터셋은 lichess.org에서 가져온 체스 게임 기록으로 구성되며, 플레이어 평점은 서로 다른 수준(예: 1000, 1300, 1500)에서 제한됩니다. 게임은 PGN(Portable Game Notation)으로 인코딩되며 문자 수준에서 토큰화됩니다.
-
모델 학습: ChessFormer는 50M 파라미터를 가진 Autoregressive Transformer 모델로, 다음 토큰 예측 목표를 사용하여 학습됩니다. 학습은 대형 모델 학습을 위한 최상의 관행을 따르며, 코사인 학습률 스케줄 및 적절한 배치 크기-학습률 비율을 포함합니다.
-
평가 설정: 모델은 유명한 오픈소스 체스 엔진인 Stockfish를 사용하여 다양한 실력 수준에서 평가됩니다. 성능은 불확실성을 고려한 Glicko-2 평점 시스템을 사용하여 측정됩니다.
-
저온 샘플링(Low-Temperature Sampling): 평가 중 모델의 샘플링 온도를 조정하여 성능에 미치는 영향을 관찰합니다. 낮은 온도는 모델의 출력을 최고의 움직임에 집중시켜 개별 플레이어의 오류를 제거하여 성능을 향상시킵니다.
ChessFormer 모델은 자기회귀(autoregressive) 방식으로 체스 게임 기록을 처리하여 이전 움직임의 시퀀스를 기반으로 다음 움직임을 예측합니다. 학습 중 모델은 데이터셋의 인간 플레이어가 한 움직임을 모방하도록 학습합니다. 추론 시 모델은 새로운 체스 위치에 대해 움직임을 생성할 수 있으며, 샘플링 온도를 조정하여 성능을 향상시킬 수 있습니다.
샘플링 온도 τ가 1.0보다 낮은 설정(τ=0.75, τ=0.001)에서의 확률 분포 및 기대 보상의 변화
샘플링 온도(sampling temperature)를 낮추면 모델 출력의 무작위성이 줄어들어 학습 데이터에서 학습한 최고의 움직임에 확률 질량(probability mass)이 집중됩니다. 이러한 접근 방식은 ChessFormer가 데이터셋의 개별 인간 플레이어보다 더 나은 성능을 발휘할 수 있게 합니다.
실험 결과
ChessFormer를 활용한 초월성 실험 결과: 서로 다른 샘플링 온도(sampling temperature)에서의 성능 비교
논문의 성능 분석 결과는 ChessFormer가 특정 샘플링 온도를 사용할 때 학습 데이터에서 본 최고 평점보다 더 높은 평점을 달성할 수 있음을 보여줍니다. 주요 결과는 다음과 같습니다:
-
ChessFormer 1000 및 ChessFormer 1300 모델은 학습 데이터에서 최고 평점을 기록한 플레이어보다 훨씬 높은 평점을 달성합니다.
-
그러나 ChessFormer 1500 모델은 초월하지 못하며, 이는 해당 평점 수준에서 데이터셋의 다양성이 부족하기 때문일 수 있습니다.
-
저온 샘플링은 초월에 매우 중요하며, 높은 보상 움직임에 확률 질량을 집중시켜 모델의 성능을 향상시킵니다.
이러한 실험 결과는 초월성을 달성하기 위해 데이터셋 다양성(dataset diversity)이 중요하다는 점을 강조합니다. 보다 다양한 데이터셋(예: ChessFormer 1000 및 1300)을 학습한 모델은 더 잘 일반화할 수 있으며 최고 평점 플레이어보다 더 나은 성능을 발휘합니다. 반면, 덜 다양한 데이터셋(예: ChessFormer 1500)은 필요한 다양한 경험을 제공하지 못하여 모델의 초월 능력을 제한합니다.
위 실험 결과를 통해 생성 모델이 학습 데이터 소스를 능가할 수 있음을 보여줌으로써, 이 연구는 이러한 모델을 다양한 도메인에 적용하여 인간 전문성을 초과하는 모델을 개발할 수 있다는 것을 확인하였습니다. 특히, 초월성 개념은 생성 모델이 인간 전문성을 단순히 복제하는 것이 아니라 이를 개선할 수 있도록 하여 복잡한 의사결정 작업 및 창의적 작업에서 그 유용성을 높일 수 있다는 점에서 주목해볼만 합니다.
원본 논문 읽기
논문에는 이론 및 검증을 위한 수식들이 많습니다. 관심있으신 분들께서는 위 논문 원문을 참고하시기 바랍니다. (+ 여유되시면 덧글로 설명도 부탁드립니다 )
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~