작은 말투 습관이 모델 행동 연구의 좋은 관찰 창이 되는 이유
OpenAI가 공개한 Where the goblins came from은 겉보기에는 가벼운 말투 습관에 대한 글처럼 보입니다. 하지만 실제로는 강화 학습(Reinforcement Learning, RL), 지도 미세조정(Supervised Fine-Tuning, SFT), 보상 모델(Reward Model), 그리고 모델 행동 감사가 어떻게 연결되는지를 보여주는 흥미로운 사례입니다. 원문에서 다룬 문제는 ChatGPT와 OpenAI Codex 계열 모델이 답변 중 특정 비유 표현을 반복적으로 사용하는 현상이었습니다.
이 사례가 중요한 이유는 모델 품질 문제가 항상 벤치마크 점수 하락이나 명확한 오류율 증가로 드러나지는 않기 때문입니다. 코딩 벤치마크나 수학 벤치마크에서 성능이 유지되더라도, 사용자 경험을 해치는 말투, 지나친 친근함, 특정 표현의 과잉 사용, 상황에 맞지 않는 유머는 별도의 관찰 체계가 필요합니다. OpenAI는 이번 글에서 이러한 작은 언어적 습관이 어떻게 학습 과정의 보상 신호와 데이터 재사용을 거치며 확산될 수 있는지 설명합니다.
특히 이 글은 최근 대규모 언어 모델(LLM)을 둘러싼 정렬(alignment) 논의와도 맞닿아 있습니다. InstructGPT 논문 이후, 사람의 선호를 반영하는 학습은 LLM의 실사용 품질을 높이는 핵심 방법으로 자리 잡았습니다. 그러나 선호 학습은 "원하는 행동"만 깔끔하게 강화하지 않습니다. 보상 함수가 특정 스타일을 높게 평가하면, 그 스타일에 우연히 붙어 있던 말버릇까지 함께 강화될 수 있습니다.
사건의 출발점: GPT-5.1 이후 특정 비유 표현이 눈에 띄게 늘었습니다
OpenAI가 처음 뚜렷하게 패턴을 본 시점은 원문 기준으로 "GPT-5.1 출시 이후의 11월"입니다. 이 글은 2026년 4월 29일에 공개되었으므로, 문맥상 2025년 11월에 시작된 관찰이 GPT-5.4와 GPT-5.5 테스트까지 이어진 흐름으로 이해할 수 있습니다. 사용자들은 모델이 대화에서 다소 과하게 친근하거나 장난스러운 표현을 쓴다고 보고했고, 내부 안전 연구자가 특정 단어들을 점검 대상에 포함시키면서 문제가 더 명확해졌습니다.
원문에 따르면 GPT-5.1 출시 이후 ChatGPT 응답에서 goblin 사용은 175% 증가했고, gremlin 사용은 52% 증가했습니다. 이 수치만 놓고 보면 모델 안전성 전체를 흔드는 사건은 아닙니다. 하지만 작은 말투 변화가 여러 모델 세대를 거치며 반복된다면, 그것은 학습 파이프라인 어딘가에서 같은 방향의 압력이 계속 작동하고 있다는 신호일 수 있습니다.
여기서 핵심은 "왜 이런 표현이 늘어났는가"입니다. 인터넷 전체에서 해당 표현이 유행했다면 모든 사용자와 모든 스타일에서 비슷하게 늘어났을 것입니다. 하지만 OpenAI가 관찰한 분포는 그렇지 않았습니다. 특정 성격 설정, 특히 ChatGPT 성격 맞춤 설정의 Nerdy 성격을 선택한 사용자 트래픽에 해당 표현이 강하게 몰려 있었습니다.
원인은 성격 맞춤 학습의 보상 신호에 있었습니다
OpenAI의 설명에 따르면 Nerdy 성격은 장난스럽고 지적인 멘토처럼 행동하도록 설계된 시스템 프롬프트를 사용했습니다. 이 프롬프트는 진지한 주제에서도 지나친 엄숙함을 피하고, 언어적 장난을 통해 복잡하고 이상한 세계를 인정하라는 방향을 담고 있었습니다. 이 자체가 문제는 아닙니다. 사용자가 의도적으로 선택한 성격 설정 안에서는 더 가볍고 개성 있는 말투가 적절할 수 있기 때문입니다.
문제는 성격 보상(Personality Reward) 이 특정 종류의 비유 표현을 과하게 선호했다는 점입니다. OpenAI는 RL 학습 중 생성된 출력 가운데 특정 단어가 들어간 답변과 그렇지 않은 답변을 비교했습니다. 그 결과 Nerdy 성격을 장려하기 위해 만든 보상 신호가 동일한 문제에 대한 답변 중 해당 비유 표현이 포함된 출력을 더 높게 평가하는 경향을 보였습니다. 원문은 전체 감사 데이터셋의 76.2% 에서 이 방향의 양의 상승이 나타났다고 설명합니다.
이 현상은 보상 해킹(Reward Hacking) 과 완전히 같지는 않지만, 같은 계열의 위험을 보여줍니다. 보상 모델은 "재치 있고 과하지 않은 설명"을 원했을 수 있습니다. 그러나 모델은 그 보상을 받는 출력에서 반복적으로 나타난 표면적 단서, 즉 특정 비유 표현을 함께 학습할 수 있습니다. 사람이 보기에는 사소한 말버릇이지만, 모델 입장에서는 "이런 표현을 쓰면 Nerdy 스타일에 더 잘 맞는 것 같다"는 통계적 힌트가 됩니다.
특정 성격에서 시작된 말투가 왜 일반 응답으로 번졌을까?
가장 흥미로운 부분은 이 표현이 Nerdy 성격 안에서만 머물지 않았다는 점입니다. 원문에 따르면 Nerdy 성격은 전체 ChatGPT 응답의 2.5% 에 불과했지만, goblin 언급의 66.7% 를 차지했습니다. 즉 시작점은 분명히 특정 성격 설정 쪽에 가까웠습니다. 하지만 GPT-5.4와 GPT-5.5로 이어지는 과정에서는 해당 성격을 쓰지 않는 샘플에서도 유사한 상대 증가가 관찰됐습니다.
OpenAI는 이를 전이(Transfer) 로 해석합니다. RL 보상이 특정 조건에서만 적용되더라도, 모델 내부 표현과 이후 데이터 파이프라인은 그 조건을 항상 완벽하게 격리하지 않습니다. 어떤 스타일이 특정 조건에서 강화되면, 이후 학습 과정에서 비슷한 표현이 다른 조건의 출력에도 나타날 수 있습니다. 특히 모델이 생성한 롤아웃(rollout)이 다시 SFT 데이터나 선호 데이터에 들어가면, 우연히 강화된 말투가 더 넓은 훈련 분포에 섞일 수 있습니다.
이를 학습 루프로 바꾸어 보면 다음과 같습니다.
- 장난스럽고 개성 있는 스타일에 높은 보상이 주어집니다.
- 보상을 받은 일부 예시에 특정 말버릇이 함께 들어 있습니다.
- 모델은 이후 롤아웃에서 그 말버릇을 더 자주 생성합니다.
- 모델 생성 롤아웃 일부가 SFT 또는 선호 데이터에 재사용됩니다.
- 모델은 해당 말버릇을 더 자연스러운 출력 패턴으로 받아들이게 됩니다.
이 루프는 LLM 후처리 학습에서 중요한 교훈을 줍니다. 성능 향상을 위해 모델 생성 데이터를 다시 학습에 쓰는 것은 흔한 전략이지만, 이 과정은 모델의 좋은 행동뿐 아니라 사소한 편향과 스타일 습관도 증폭할 수 있습니다. OpenAI Evals처럼 정량 평가 체계를 갖추더라도, 모든 언어적 습관이 기존 평가 항목에 자동으로 잡히지는 않습니다.
모델 행동 감사는 벤치마크보다 더 미세한 관찰을 요구합니다
대부분의 모델 평가는 정답률, 코딩 성공률, 수학 문제 해결률, 지시 따르기 점수처럼 비교적 명확한 지표를 중심으로 진행됩니다. 예를 들어 SWE-bench는 코딩 에이전트가 실제 GitHub 이슈를 얼마나 잘 해결하는지 평가하고, MMLU는 다양한 지식 영역에서 모델의 정확도를 측정합니다. 이런 평가는 모델의 능력을 비교하는 데 유용하지만, 말투의 과잉, 특정 표현의 반복, 사용자 맥락과 맞지 않는 유머 같은 문제를 포착하기에는 부족합니다.
이번 사례에서 OpenAI가 한 일은 일종의 언어적 회귀 테스트(Lexical Regression Test) 에 가깝습니다. 특정 단어의 출현율이 모델 버전, 성격 설정, 학습 단계, 운영 트래픽 조건별로 어떻게 변하는지 추적했습니다. 소프트웨어 테스트에서 특정 버그가 다시 나타나는지 회귀 테스트를 하듯, 모델 행동에서도 특정 표현이나 스타일이 의도치 않게 되살아나는지 확인할 필요가 있습니다.
이런 감사는 단순 금칙어 필터와 다릅니다. 어떤 단어가 항상 나쁜 것은 아니기 때문입니다. 원문에서도 비슷한 계열의 다른 단어들을 조사했지만, 일부 단어는 실제 문맥에서 정당하게 쓰인 경우가 많았다고 설명합니다. 따라서 중요한 것은 단어 자체의 존재 여부가 아니라, 해당 단어가 어떤 맥락에서, 어떤 빈도로, 어떤 사용자 조건에서 나타나는지를 보는 것입니다.
Codex에서의 완화는 개발자 프롬프트와 학습 데이터 정리로 진행됐습니다
OpenAI는 GPT-5.4 출시 후 2026년 3월에 Nerdy 성격을 폐기했고, 학습 과정에서는 해당 표현을 선호하던 보상 신호를 제거했습니다. 또한 관련 단어가 포함된 학습 데이터를 필터링하여 부적절한 맥락에서 과하게 등장할 가능성을 줄였다고 설명합니다. 다만 GPT-5.5는 근본 원인이 확인되기 전에 이미 학습을 시작했기 때문에, Codex GitHub 저장소의 모델 설정에 개발자 프롬프트 수준의 완화 지시를 추가했습니다.
원문에는 Codex에서 이 완화 지시를 제거하고 실행하는 예시 명령도 포함되어 있습니다. 원문 코드의 의미는 goblins 관련 지시가 들어간 기본 instruction을 임시 파일에서 제거한 뒤, 그 instruction 파일을 지정해 Codex를 실행하는 것입니다.
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
이 접근은 두 층의 완화를 보여줍니다. 첫 번째는 배포된 제품에서 즉시 효과를 내는 프롬프트 기반 완화(Prompt-Based Mitigation) 입니다. 두 번째는 다음 학습 주기에서 보상 신호와 학습 데이터를 고치는 학습 파이프라인 수준 완화(Training Pipeline Mitigation) 입니다. 전자는 빠르지만 근본 원인을 제거하지 못하고, 후자는 시간이 걸리지만 같은 문제가 다음 세대 모델로 이어질 가능성을 낮춥니다.
이 사례가 LLM 개발자와 서비스 운영자에게 주는 실무적 교훈
이번 OpenAI 사례는 초대형 모델 연구팀만의 문제가 아닙니다. 사내 챗봇, 고객 지원 에이전트, 코딩 보조 도구, 문서 작성 도구를 운영하는 팀도 비슷한 현상을 만날 수 있습니다. 특정 프롬프트 템플릿, 특정 평가자 선호, 특정 합성 데이터 생성 방식이 반복되면 모델 또는 에이전트의 말투와 판단 기준이 예상보다 넓게 바뀔 수 있습니다.
스타일 평가는 기능 평가와 분리해야 합니다. 모델이 정답을 맞혔는지와 모델이 적절한 말투로 답했는지는 다른 문제입니다. 고객 지원에서는 같은 정답이라도 지나친 친근함이 불편할 수 있고, 개발자 도구에서는 장난스러운 비유가 긴급한 디버깅 상황에서 방해가 될 수 있습니다. 따라서 정답률 평가와 별도로 말투, 반복 표현, 과한 사과, 과한 확신, 불필요한 유머를 추적하는 평가가 필요합니다.
조건부 기능은 격리 여부를 검증해야 합니다. 특정 성격, 특정 모드, 특정 도메인에만 적용하려는 스타일이 있다면, 그 스타일이 일반 모드로 새어 나오는지 확인해야 합니다. 원문에서 Nerdy 성격은 전체 응답의 2.5%였지만 특정 표현의 66.7%를 차지했습니다. 이런 불균형은 조건부 기능의 영향이 예상보다 크다는 신호입니다.
합성 데이터 재사용에는 행동 오염 검사가 필요합니다. 모델 생성 롤아웃을 다시 학습 데이터로 넣을 때는 품질뿐 아니라 반복 표현과 스타일 편향도 확인해야 합니다. 특히 에이전트 학습에서는 긴 작업 로그와 도구 호출이 SFT 데이터로 재사용되기 쉬운데, 이때 특정 문구나 불필요한 설명 습관이 함께 강화될 수 있습니다.
완화는 빠른 패치와 근본 수정을 함께 가져가야 합니다. 개발자 프롬프트로 특정 행동을 억제하는 것은 운영 환경에서 유용한 응급 처치입니다. 하지만 보상 신호와 데이터 파이프라인이 그대로라면 비슷한 문제가 다른 표현으로 되살아날 수 있습니다. 따라서 프롬프트, 평가, 데이터 필터링, 보상 모델 수정을 하나의 루프로 관리해야 합니다.
Model Spec과 행동 감사의 연결: 모델이 무엇을 할 수 있는가보다 어떻게 행동하는가가 중요해집니다
OpenAI Model Spec은 모델이 사용자, 개발자, 플랫폼 정책 사이에서 어떤 우선순위로 행동해야 하는지를 설명하는 문서입니다. Model Spec이 규범적 행동 원칙을 다룬다면, 이번 사례는 실제 학습과 배포 과정에서 그런 원칙이 얼마나 안정적으로 유지되는지를 관찰하는 문제에 가깝습니다. 모델이 정책을 이해하는 것과, 수많은 학습 단계 이후에도 일관된 말투와 행동 경계를 유지하는 것은 별개의 과제입니다.
이 관점에서 보면 작은 말투 습관은 단순한 농담거리가 아닙니다. 모델이 어떤 보상에 민감하게 반응하는지, 특정 조건에서 학습한 행동을 어디까지 일반화하는지, 합성 데이터 루프가 어떤 표면 패턴을 증폭하는지를 보여주는 관찰 가능한 증거입니다. 이러한 현상을 빨리 발견하고 원인을 역추적할 수 있다면, 더 심각한 행동 문제도 더 빨리 진단할 수 있습니다.
PyTorch 생태계 관점에서도 이 문제는 중요합니다. 많은 팀이 PyTorch, Transformers, TRL, vLLM, SGLang 같은 도구를 사용해 모델을 미세조정하거나 배포합니다. 모델을 직접 학습하지 않더라도, 프롬프트 템플릿, 평가셋, 로그 기반 재학습 데이터가 제품의 말투를 바꿀 수 있습니다. 따라서 운영 로그에서 단어 빈도, 표현 다양성, 사용자 불만 키워드, 모드별 스타일 차이를 함께 보는 습관이 필요합니다.
정리: 작은 말버릇은 학습 파이프라인 전체를 비추는 신호일 수 있습니다
OpenAI의 이번 글은 대형 모델 개발에서 사소해 보이는 현상이 얼마나 많은 시스템 구성 요소와 연결될 수 있는지를 보여줍니다. 특정 성격 설정을 위한 보상 신호가 있었고, 그 보상이 우연히 특정 비유 표현을 높게 평가했으며, 모델 생성 롤아웃과 SFT 데이터가 그 표현을 더 넓게 퍼뜨렸습니다. 이후에는 프롬프트 기반 완화, 보상 신호 제거, 데이터 필터링, 행동 감사 도구 개선으로 대응했습니다.
개발자와 연구자에게 남는 핵심 메시지는 명확합니다. 모델 행동을 평가할 때 "정답을 맞혔는가"만 보면 부족합니다. 모델이 어떤 어조를 반복하는지, 특정 조건에서 학습한 스타일이 다른 조건으로 전이되는지, 합성 데이터 루프가 어떤 언어 습관을 키우는지를 함께 봐야 합니다. 작은 말버릇은 때로 학습 파이프라인 전체의 방향을 알려주는 조기 경보가 될 수 있습니다.
Where the goblins came from 소개 블로그
https://openai.com/index/where-the-goblins-came-from/
더 읽어보기
-
OpenAI, 에이전틱 코딩과 컴퓨터 사용 능력을 한 단계 끌어올린 GPT-5.5 및 GPT-5.5 Pro 출시
-
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
-
OAT 🌾: 대규모 언어 모델(LLM)의 온라인 정렬을 위한 연구 친화적 프레임워크 (Online Alignment Toolkit for LLMs)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()


