Profile-to-PEFT(P2P): Hypernetwork를 통한 대규모 언어 모델(LLM)의 빠른 개인화(Personalization)에 대한 연구

9bow · 12월 27, 2025, 3:30오전

Profile-to-PEFT 연구 소개

최근 LLM 애플리케이션 개발의 중요한 화두 중 하나는 바로 '어떻게 하면 범용 모델을 개별 사용자의 특성에 맞춰 최적화할 수 있을까'입니다. 이러한 대규모 언어 모델(LLM)의 개인화(Personalization)는 단순히 프롬프트에 사용자 정보를 넣는 것을 넘어, 모델의 파라미터 자체를 효율적으로 조정하는 것이 필요합니다. 하지만, 실시간 서비스 환경에서 대규모 모델을 즉시 파인튜닝하기는 어렵습니다.

이번에 살펴볼 Profile-to-PEFT: 하이퍼네트워크를 통한 즉각적인 맞춤형 대규모 언어 모델 적응(Instant Personalized Large Language Model Adaptation via Hypernetwork (Profile-to-PEFT)) 이라는 제목의 논문은 이러한 대규모 언어 모델의 빠른 개인화 문제에 대한 해결책을 제시하고 있습니다. 이 논문은 기존의 개인화 방식이 가진 계산 비용과 프라이버시 문제를 획기적으로 해결하기 위해 '하이퍼네트워크(Hypernetwork)'라는 개념을 도입했습니다. 사용자의 프로필을 입력받아 즉석에서 해당 사용자에게 최적화된 LoRA(Low-Rank Adaptation) 어댑터 파라미터를 생성해내는 이 기술은, 향후 온디바이스 AI나 대규모 사용자 기반의 서비스에서 핵심적인 역할을 할 것으로 기대됩니다.

연구 배경: LLM 개인화의 딜레마와 새로운 접근

대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 일반적인 지식과 추론 능력에서 뛰어난 성능을 보여주지만, '모든 사람에게 맞는(One-size-fits-all)' 범용 모델은 개별 사용자의 고유한 선호나 문체, 관심사를 반영하는 데 한계가 있습니다. 사용자는 자신의 과거 행동 이력이나 선호도가 반영된 맞춤형 응답을 원하기 때문에, 최근 연구들은 LLM을 개인화하는 데 집중하고 있습니다. 이 개인화의 흐름은 크게 두 가지로 나뉩니다. 하나는 프롬프트에 사용자 정보를 문맥으로 넣어주는 방식(ICL, In-context Learning)이고, 다른 하나는 모델의 파라미터를 사용자 데이터로 미세 조정(FT, Fine-Tuning)하는 방식입니다.

하지만 이 두 방식 모두 명확한 단점을 가지고 있습니다. 프롬프트 기반 방식은 문맥 길이의 제약이 있고, 매번 긴 사용자 히스토리를 입력해야 하므로 추론 비용이 증가하며, 민감한 사용자 데이터를 모델에 직접 노출해야 한다는 프라이버시 문제가 있습니다. 반면, 파라미터 효율적 미세조정(PEFT, Parameter-Efficient Fine-Tuning) 방식은 사용자별로 별도의 어댑터(Adapter)를 학습시켜야 하므로, 수백만 명의 사용자가 있는 실제 서비스 환경에서는 계산 비용과 저장 공간 측면에서 감당하기 어려운 확장성 문제를 야기합니다.

이 연구에서 제안하는 Profile-to-PEFT(P2P) 는 이러한 딜레마를 해결하기 위해 등장했습니다. P2P는 사용자별로 모델을 매번 학습시키는 대신, 사용자의 프로필을 입력받아 그 사용자에게 딱 맞는 어댑터 파라미터를 '생성'해내는 하이퍼네트워크를 학습시킵니다. 즉, 한 번의 추론만으로 사용자 전용 LoRA 파라미터를 즉시 만들어낼 수 있어, 실시간성과 효율성, 그리고 개인화 성능이라는 세 마리 토끼를 동시에 잡고자 하는 시도입니다.

기존 방법론의 한계점 분석

LLM 개인화의 가장 일반적인 접근법인 프롬프트 기반 방법론은 검색 증강 생성(RAG)이나 프로필 증강 생성(PAG)과 같은 기법을 사용합니다. 예를 들어, 사용자의 과거 기록 중 현재 질문과 관련된 내용을 검색해 프롬프트에 붙여넣는 식입니다. 그러나 이 방식은 모델의 입력 문맥 길이에 제한을 받으며, 사용자의 방대한 히스토리를 모두 반영하기 어렵습니다. 또한, 모델이 불필요한 과거 정보에 주의를 빼앗겨 오히려 성능이 저하되는 현상도 발생할 수 있습니다. 무엇보다 사용자의 사적인 데이터가 중앙 서버의 LLM으로 전송되어야 한다는 점에서 프라이버시 침해 우려가 크며, 사용자가 모델을 소유한다는 개념을 구현하기 어렵습니다.

이에 대한 대안으로 주목받은 것이 사용자별 PEFT(One-PEFT-Per-User, OPPU) 방식입니다. 이 방식은 각 사용자마다 고유한 경량 파라미터(예: LoRA)를 학습시켜 저장해 두고, 해당 사용자가 접속할 때마다 이를 로드하여 사용합니다. OPPU는 프롬프트 방식보다 더 강력한 개인화 성능을 보여주며, 사용자의 행동 패턴을 파라미터에 내재화할 수 있다는 장점이 있습니다. 하지만 치명적인 단점은 '확장성'입니다. 새로운 사용자가 들어올 때마다 수십 분 이상의 학습 시간이 소요되며, 수백만 명의 사용자에 대해 개별 파라미터를 관리하고 업데이트하는 것은 엄청난 컴퓨팅 자원을 요구합니다. "과연 사용자별 학습 없이, 사용자 프로필만 보고 즉시 파라미터를 만들어낼 수는 없을까?"라는 질문이 이 논문의 출발점입니다.

위 그림은 기존의 OPPU 방식과 제안된 P2P 방식의 차이를 직관적으로 보여줍니다. 상단의 OPPU 방식은 사용자 이력을 바탕으로 계산 집약적인 미세조정(Fine-tuning) 과정을 거쳐 개인화된 LLM을 만듭니다. 반면, 하단의 P2P 방식은 사용자 프로필을 하이퍼네트워크에 통과시켜 단 한 번의 추론 패스(Single Inference Pass)만으로 개인화된 PEFT 파라미터를 생성해냅니다. 이는 배포 단계에서의 병목 현상을 제거하고 즉각적인 적응을 가능하게 합니다.

Profile-to-PEFT (P2P) 프레임워크 구조

P2P 프레임워크의 핵심은 사용자의 자연어 프로필을 입력으로 받아, LLM의 특정 레이어에 적용될 LoRA 파라미터(A,B 행렬)를 출력하는 하이퍼네트워크를 구축하는 것입니다. 이 과정은 크게 사용자 프로필 인코딩, 위치 인식 입력 형성, 그리고 파라미터 생성의 세 단계로 나뉩니다.

먼저 사용자 프로필 인코딩(User Profile Encoding) 단계입니다. 단순히 사용자의 모든 이력을 사용하는 대신, LLM을 이용해 사용자의 과거 기록을 요약한 '전역 요약(Global Summary)'과, 현재 입력과 관련된 상위 k개의 이력을 검색한 내용을 결합하여 텍스트 형태의 프로필을 구성합니다. 이 텍스트 프로필은 사전 학습된 문장 임베딩 모델(예: Qwen3-Emb)을 통해 고정된 차원의 벡터(eu)로 변환됩니다. 이 벡터는 사용자의 선호도와 행동 패턴이 압축된 핵심 정보라 할 수 있습니다.

다음은 위치 인식 입력 형성(Position-Aware Input Formulation) 단계입니다. LLM은 수많은 레이어와 모듈(Attention의 Query, Value 등)로 구성되어 있으며, 각 위치마다 필요한 어댑터 파라미터는 다릅니다. 따라서 하이퍼네트워크가 각 위치에 맞는 파라미터를 생성할 수 있도록, 사용자 임베딩(eu)에 '모듈 임베딩(Emod)'과 '깊이(레이어) 임베딩(Edep)'을 결합합니다. 예를 들어, 5번째 레이어의 Query 모듈을 위한 파라미터를 생성할 때는 사용자 벡터 뒤에 'Layer 5'와 'Query Module'을 나타내는 학습 가능한 벡터를 이어 붙여 하이퍼네트워크의 입력으로 사용합니다.

마지막으로 파라미터 생성(Parameter Generation) 단계입니다. 앞서 구성된 입력 벡터는 MLP(Multi-Layer Perceptron) 기반의 하이퍼네트워크를 통과합니다. 하이퍼네트워크는 평탄화된(flattened) 벡터를 출력하며, 이는 다시 LoRA의 저랭크 행렬인 A와 B의 형태로 재구성(Reshape)됩니다. 이렇게 생성된 파라미터들은 베이스 LLM에 즉시 장착되어 개인화된 추론을 수행하게 됩니다. 전체 모델은 다양한 사용자의 데이터에 대해 End-to-End로 학습되며, 하이퍼네트워크는 '어떤 사용자 프로필이 주어졌을 때 어떤 파라미터가 최적인지'를 학습하게 됩니다.

Profile-to-PEFT (P2P) 프레임워크 실험 및 결과

실험 설정 및 환경

연구진은 P2P의 성능을 검증하기 위해 LaMP, LongLaMP, Personal Reddit (PR), Empathetic Conversations (EC) 등 다양한 벤치마크 데이터셋을 사용했습니다. LaMP는 인용 예측, 뉴스 카테고리 분류, 영화 태깅 등 분류 태스크와 뉴스 헤드라인 생성 등의 생성 태스크를 포함하며, LongLaMP는 긴 텍스트 생성을 다룹니다. 또한, Personal Reddit (PR)과 Empathetic Conversations (EC)는 보다 자유로운 형태의 대화 및 작문 능력을 평가하기 위해 사용되었습니다. 베이스 모델로는 Qwen2.5-7B-Instruct를, 임베딩 모델로는 Qwen3-Emb-4B를 채택하였습니다.

비교 대상(Baseline)으로는 다음과 같은 방법들이 사용되었습니다. 비개인화 베이스 모델, 검색 증강 생성(RAG), 프로필 증강 생성(PAG), 전체 히스토리 입력(Full History)과 같은 프롬프트 기반 방법론들이 포함되었습니다. 또한, 사용자 문맥 없이 태스크 적응만 수행하는 MT-LoRA와, 테스트 사용자의 데이터로 직접 학습을 수행하는 OPPU(One-PEFT-Per-User)도 비교군에 포함되었습니다. 특히 OPPU는 테스트 사용자의 데이터로 직접 학습하기 때문에 일종의 '성능 상한선(Oracle)' 역할을 합니다.

실험의 공정성과 일반화 능력을 평가하기 위해 데이터 분할은 두 가지 방식으로 진행되었습니다. 첫째는 Random Split 으로, 전체 사용자 중 일부를 무작위로 테스트셋으로 선정하는 일반적인 방식입니다. 둘째는 OOD(Out-of-Distribution) Split 으로, 학습 데이터에 있는 사용자들과 성향이 크게 다른 사용자들을 클러스터링을 통해 선별하여 테스트셋으로 구성했습니다. 이는 P2P가 학습 과정에서 본 적 없는 새로운 유형의 사용자에게도 잘 적응하는지 평가하기 위함입니다.

실험 결과 및 성능 분석

실험 결과는 P2P 프레임워크의 우수성을 명확히 보여줍니다. Random Split 환경에서 P2P는 대부분의 태스크에서 프롬프트 기반 방법론(RAG, PAG)을 능가했으며, 심지어 사용자별로 직접 학습을 수행하는 OPPU보다도 더 높은 평균 성능을 기록했습니다. 예를 들어, 트윗 의역(Tweet Paraphrasing) 태스크에서 P2P는 ROUGE-1 점수 0.442를 기록하여 Full History(0.407)나 OPPU(0.353)를 크게 앞섰습니다. 이는 하이퍼네트워크가 다양한 사용자 데이터를 통해 일반적인 개인화 패턴을 효과적으로 학습했음을 시사합니다.

더욱 놀라운 점은 OOD(Out-of-Distribution) Split에서의 결과입니다. 학습 데이터와 거리가 먼 사용자들에 대해서도 P2P는 일관되게 높은 성능을 유지했습니다. 위 표의 결과를 보면, P2P는 분류 및 생성 태스크 전반에서 MT-LoRA나 OPPU보다 뛰어난 성능을 보였습니다. OPPU는 해당 사용자의 데이터로 직접 학습했음에도 불구하고, 데이터가 적거나 편향된 경우 과적합되거나 일반화에 실패하는 경향을 보인 반면, P2P는 사용자 프로필의 핵심 정보를 추출하여 안정적인 파라미터를 생성해냈습니다. 이는 P2P가 단순히 데이터를 외우는 것이 아니라, 프로필과 최적 파라미터 간의 맵핑 관계를 성공적으로 학습했음을 의미합니다.

효율성(Efficiency) 측면에서의 성과는 압도적입니다. 위 차트는 사용자 수가 증가함에 따른 누적 파라미터 생성 시간을 보여주는데, OPPU 방식은 사용자 수에 비례하여 선형적으로 시간이 증가하는 반면, P2P는 거의 0에 가까운 일정한 시간을 유지합니다. 구체적으로 OPPU(LoRA)가 사용자당 평균 20.44초가 걸리는 데 비해, P2P는 단 0.57초 만에 파라미터를 생성하여 약 33배의 속도 향상을 이루었습니다. 비록 초기 학습 비용이 존재하지만, 약 1,450명의 사용자만 넘어가도 P2P가 전체 비용 면에서 훨씬 효율적이라는 분석이 제시되었습니다.

마지막으로 어블레이션 연구(Ablation Study) 에서는 사용자 프로필 구성 요소의 중요성을 확인했습니다. 프로필을 무작위로 섞거나 엉뚱한 프로필을 입력했을 때 성능이 급격히 하락하여, 하이퍼네트워크가 실제로 프로필 내용을 이해하고 있음을 증명했습니다. 특히, 단순 검색된 이력(Retrieved History)만 사용하는 것보다 LLM이 생성한 사용자 요약(User Summary)을 사용하는 것이 성능 유지에 훨씬 중요하다는 점이 밝혀졌습니다. 이는 노이즈가 많은 원본 데이터보다 잘 정제된 요약 정보가 파라미터 생성에 더 유효한 신호를 준다는 것을 시사합니다.

결론 및 시사점

Profile-to-PEFT (P2P) 연구는 LLM 개인화의 고질적인 문제였던 '확장성'과 '실시간성'을 해결하기 위해 하이퍼네트워크(Hypernetwork)라는 기술로 제안했습니다. 이 연구의 핵심 기여는 사용자별 학습이라는 무거운 과정을 단 한 번의 추론 과정으로 대체하면서도, 성능 저하 없이 오히려 더 뛰어난 일반화 능력을 보여주었다는 점입니다. 이는 수백만 명의 사용자를 대상으로 하는 AI 서비스에서 서버 비용을 획기적으로 절감하고, 사용자 경험(UX)을 개선할 수 있는 강력한 도구가 될 것입니다.

또한, 프라이버시 측면에서도 큰 장점이 있습니다. 하이퍼네트워크 모델을 로컬 디바이스에 배포한다면, 사용자의 민감한 데이터가 외부 서버로 전송되지 않고도 사용자의 단말(On-Device)에서 즉시 개인화된 파라미터를 생성하고 적용할 수 있습니다. 이는 데이터 보안이 중요한 금융, 의료, 또는 개인 비서 애플리케이션에서 매우 유용한 특성입니다.

물론 한계점도 존재합니다. 현재 연구는 사용자당 하나의 태스크에 집중되어 있어, 다양한 도메인을 넘나드는 복합적인 사용자 행동을 반영하는 데는 추가적인 연구가 필요합니다. 또한, 생성된 파라미터에 사용자의 편향이 그대로 반영될 수 있다는 윤리적 문제도 고려해야 합니다. 하지만 P2P가 제시한 '프로필 기반의 즉각적 파라미터 생성'이라는 패러다임은 향후 개인화 LLM 연구의 중요한 이정표가 될 것임이 분명합니다.

Profile-to-PEFT 논문: Instant Personalized Large Language Model Adaptation via Hypernetwork

Profile-to-PEFT (P2P) 연구 홈페이지

Profile-to-PEFT (P2P) 프레임워크 GitHub 저장소

https://github.com/TamSiuhin/P2P

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~