Perplexity, Deep Research 기능 출시

9bow · 2월 16, 2025, 8:30오전

Perplexity의 Deep Research 소개

Perplexity가 OpenAI의 Deep Research와 유사한 기능을 출시했습니다. 기존에도 강력한 검색 및 질문 응답 기능을 제공하던 Perplexity가 이번에는 심층적인 연구와 분석까지 수행해주는 기능을 추가했습니다. 단순한 검색을 넘어 여러 소스를 분석하고 보고서까지 자동으로 생성하는 이 기능은 연구자, 마케터, 개발자 등 다양한 전문가들에게 큰 도움이 될 수 있습니다.

Perplexity Deep Research는 사용자가 질문을 입력하면 수십 개의 검색을 수행하고, 수백 개의 소스를 읽으며, 분석과 추론을 거쳐 종합적인 보고서를 생성하는 기능입니다. 이 과정은 보통 전문가가 몇 시간 동안 수행해야 하는 작업이지만, Deep Research는 단 몇 분 만에 이를 수행할 수 있습니다.

Perplexity의 Deep Research 주요 기능

고급 검색 및 분석: 검색과 코딩 기능을 활용해 문서를 읽고, 논리적으로 연구 계획을 수립하며, 필요한 정보를 선별

보고서 자동 생성: 검토한 자료를 바탕으로 체계적인 보고서를 작성

PDF 및 공유 기능: 생성된 보고서를 PDF 또는 문서로 변환해 공유 가능

Deep Research는 단순한 질문 응답을 넘어서 재무, 마케팅, 기술 분석, 여행 계획, 건강 연구 등 다양한 분야에서 전문가 수준의 분석을 제공하는 것을 목표로 합니다.

Perplexity의 Deep Research 예시

금융 / Finance

마케팅 / Marketing

기술 / Technology

시사 / Current Affairs

건강 / Health

전기 / Biography

여행 / Travel

성능

Humanity’s Last Exam에서 21.1%의 정확도 기록

Humanity’s Last Exam은 100개 이상의 과목(수학, 과학, 역사, 문학 등)에 걸쳐 3,000개 이상의 질문으로 구성된 AI 평가 벤치마크입니다. 이 시험에서 Perplexity Deep Research는 21.1%의 정확도를 기록, 다음과 같은 주요 AI 모델보다 높은 성능을 보였습니다. 이는 광범위한 지식과 논리적 사고를 요구하는 복잡한 질문들에 대해 Perplexity가 뛰어난 분석 능력을 보여주었음을 의미합니다.

SimpleQA 벤치마크에서 93.9%의 정확도 달성

SimpleQA는 사실 확인(Factuality) 능력을 평가하는 대표적인 AI 벤치마크입니다. Perplexity Deep Research는 93.9%의 정확도로 업계 최고 수준의 AI 모델을 능가하는 성과를 기록했습니다. 이는 단순한 검색을 넘어 신뢰할 수 있는 정보를 정확하게 추출하고, 이를 기반으로 응답을 생성하는 능력이 뛰어나다는 것을 보여줍니다.

빠른 실행 속도 – 대부분의 연구 작업을 3분 이내 완료

Deep Research는 높은 정확도를 자랑하면서도, 연구 및 보고서 작성 속도가 매우 빠릅니다. 대부분의 연구 질문에 대해 3분 이내에 종합적인 보고서를 생성했으며, 향후 더 빠른 속도를 목표로 개선 작업 진행 중입니다. 이는 단순한 AI 검색 엔진이 아닌, 전문가 수준의 분석을 자동으로 수행하는 도구로 활용할 수 있음을 의미합니다.

Perplexity에서 Deep Research 사용해보기

https://www.perplexity.ai/?model_id=deep_research

Perplexity의 Deep Research 기능 출시 블로그

https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

9bow · 2월 16, 2025, 8:30오전

몇 일 전 OpenAI의 Deep Research를 사용하여 강화학습(RL)의 개념과 주요 기법들에 대한 설명, 그리고 LLM에서의 활용 및 발전 방향에 대한 보고서를 작성했었는데요,

이번에는 동일한 프롬프트를 사용하여 Perplexity의 Deep Research에서 보고서를 작성해보았습니다. (이전에 OpenAI의 Deep Research를 활용해 작성했던 글이 레퍼런스로 달려있네요):

LLM 분야에서의 강화학습(RL) 종합 분석: 기초부터 최신 기법 GRPO까지

1. 강화학습(RL)의 기본 원리

1.1 RL의 핵심 개념

강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 전략을 학습하는 기계학습 분야입니다. 기본 요소는 다음과 같습니다:

에이전트: 학습 주체 (예: 게임 AI)
환경: 상호작용 대상 (예: 게임 월드)
상태(s): 현재 상황 (예: 캐릭터 위치)
행동(a): 가능한 선택지 (예: 이동 방향)
보상(r): 행동 평가 (예: 점수 획득)

목적 함수:

\max \sum_{t=0}^\infty \gamma^t r_t

γ(감마)는 0.9 정도의 할인 계수로, 미래 보상의 현재 가치를 조절합니다^[1]^[2].

1.2 마르코프 결정 과정(MDP)

RL의 수학적 기반인 MDP는 다음 요소로 구성됩니다:

상태 전이 확률: $$
P(s'|s,a)

- 보상 함수: $$ R(s,a,s')

LLM에 적용 시:

상태 = 생성된 텍스트 시퀀스
행동 = 다음 단어 선택
보상 = 생성 품질 점수^[3]^[1:1]

2. LLM에 RL을 적용하는 방법

2.1 핵심 접근법

RLHF(인간 피드백 강화학습):
- 인간 평가 데이터로 보상 모델 훈련
- PPO 알고리즘으로 정책 최적화
- InstructGPT에서 85% 성능 향상^[4]^[5]
자동화 보상 시스템:
- 규칙 기반 평가 (예: 코드 실행 결과)
- 다중 지표 통합 (정확성, 형식 등)^[6]^[7]

2.2 학습 파이프라인

3단계 프로세스:

사전학습: 대량 텍스트 데이터 기반
지도학습 미세조정: 고품질 응답 데이터
RL 최적화: 보상 모델 기반 정책 개선^[4:1]^[8]

3. 최신 RL 기법: GRPO 분석

3.1 GRPO의 혁신적 특징

DeepSeek-R1에서 도입한 GRPO의 핵심^[9]^[6:1]:

그룹 비교 메커니즘: 8개 응답 동시 평가
크리틱 모델 제거: 계산 비용 50% 감소
상대적 평가: 그룹 내 순위 기반 학습

수식 표현:

J_{GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \min\left(\frac{\pi_\theta(a_i|s)}{\pi_{old}(a_i|s)} A_i, \text{clip}\left(\frac{\pi_\theta}{\pi_{old}}, 1-\epsilon, 1+\epsilon\right)A_i\right) \right]

여기서 $$
A_i
$$는 그룹 내 상대적 이점 점수입니다^[6:2]^[10].

3.2 GRPO vs PPO 비교

항목	PPO	GRPO
크리틱 모델	필요	불필요
메모리 사용량	2x	1x
학습 속도	기준	3.2x 향상
적합 작업	일반적 작업	전문적 추론

4. 실제 적용 사례 연구

4.1 수학 문제 해결

DeepSeek-R1 결과:

MATH 벤치마크: 58% → 82%
AIME 2024: 15.6% → 71.0%
보상 함수:

R_{total} = 0.7R_{accuracy} + 0.3R_{format} $$[^7][^16] ### 4.2 코드 생성 Eureka 프레임워크: - 로봇 제어 작업 성공률 34% 향상 - 자동 생성 보상 함수:

R_{new} = \arg\max_R \mathbb{E}_{\tau \sim p(\tau|R)}[성능(\tau)]
$$^[3:1]^[11]

5. 도전 과제 및 해결 전략

5.1 주요 문제점

다양성 감소: 생성 편향 발생
계산 비용: 대규모 모델 학습 어려움
보상 해킹: 시스템 악용 가능성

5.2 혁신적 해결책

혼합 손실 함수:

\mathcal{L}_{total} = 0.7\mathcal{L}_{RL} + 0.3\mathcal{L}_{LM}

언어모델 손실과 결합해 다양성 유지^[3:2]^[6:3]
2. ReaLHF 시스템:
- 동적 파라미터 재배치
- 분산 학습 효율 10.6배 향상^[9:1]^[6:4]
3. 다단계 검증:
- 초기 생성 → 정제 → 최종 검증
- 3단계 파이프라인으로 오류 감소^[12]

6. 미래 전망

6.1 기술 발전 방향

RLAIF: AI 피드백 시스템 (GPT-4 활용)
멀티모달 RL: 텍스트+이미지 결합 평가
분산 RL: 연합 학습 기반 대규모 훈련

6.2 예측 가능한 영향

개발 생태계: AutoRL 프레임워크 확산
하드웨어: RL 전용 가속기 등장
교육: RL 통합 AI 교육과정 필요

7. 입문자 실습 가이드

7.1 시작 단계

환경 설정:

!pip install gymnasium transformers
import torch
from stable_baselines3 import PPO

간단한 예제:

env = gym.make('CartPole-v1')
model = PPO('MlpPolicy', env, verbose=1)
model.learn(total_timesteps=10000)

7.2 고급 활용

GRPO 구현 핵심:

class GRPOLearner:
    def __init__(self, policy, lr=1e-4):
        self.policy = policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
    
    def update(self, batch):
        states, actions, rewards = batch
        advantages = (rewards - rewards.mean()) / (rewards.std() + 1e-8)
        
        # 정책 손실 계산
        log_probs = self.policy.get_log_prob(states, actions)
        loss = -(log_probs * advantages).mean()
        
        # 파라미터 업데이트
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

8. 결론

강화학습은 LLM 발전의 핵심 동력으로 진화하고 있습니다. 기초 이론부터 GRPO 같은 최신 기법까지 이해하는 것은 AI 연구자에게 필수적입니다. 초보자는 간단한 환경에서 시작해 점진적으로 복잡한 시스템으로 확장해나가는 것을 추천하며, 지속적인 기술 발전에 발맞추어 학습해야 합니다.

⁂