HouYi: LLM이 통합된 애플리케이션에 대한 프롬프트 주입 공격 방법론 (Prompt Injection attack against LLM-integrated Applications)

9bow · 1월 8, 2024, 9:02오후

PyTorchKR

최근 대규모 언어 모델(LLM)에 대한 관심이 급격히 높아지면서, LLM을 통합한 서비스나 소프트웨어 또한 급증하고 있습니다. 하지만 기능 및 구현에만 초점을 맞추는 경우가 있어, 이에 대한 관심을 환기해보고자 합니다.
이 글은 프롬프트 주입 공격(Prompt Injection Attack, prompt-injection)에 대한 연구를 정리한 글로, LLM을 조작하여 민감한 정보(개인정보 또는 기업 비밀 등)가 유출하거나 의도치 않은 행동을 유도할 수 있는 공격들에 대해 알아보겠습니다.
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

HouYi: 'LLM 통합 애플리케이션에 대한 프롬프트 인젝션 공격'에 대한 연구

Prompt Injection attack against LLM-integrated Applications

연구 소개 및 배경

GPT-4와 같은 LLM은 텍스트 생성 및 이해 능력이 크게 향상되어 다양한 애플리케이션에 광범위하게 통합되고 있습니다. 그러나 이러한 통합으로 인해 보안 위험도 발생하고 있습니다. 이러한 보안 위험들 중 하나인 프롬프트 주입(prompt injection) 공격은 주요한 위험 중 하나입니다. LLM을 조작하여 의도하지 않은 작업을 수행하거나 민감한 정보를 노출할 수 있는 프롬프트 주입 공격에 대해 알아보겠습니다.

이 연구는 10개의 상용 LLM 통합 애플리케이션에 대한 파일럿 연구를 통해 다양한 유형의 프롬프트 인젝션 공격에 대한 취약성을 평가하는 것으로 시작됩니다. LLM에 대한 공격은 직접 주입(Direct Injection), 이스케이프 문자(Escape Characters), **컨텍스트 무시(Context Ignoring)**의 3가지로 분류할 수 있으며, 대부분의 기존 프롬프트 주입 기법은 다양한 방어 메커니즘으로 인해 테스트한 애플리케이션에 대해 효과가 없는 것으로 나타났습니다.

HouYi: 새로운 공격 방법론

연구진은 기존 방법의 한계를 극복하기 위해 새로운 공격 방법론인 'HouYi'를 개발했습니다. HouYi는 대규모 언어 모델(LLM)이 통합된 애플리케이션을 대상으로 한 새로운 종류의 프롬프트 주입 공격에 대한 방법론입니다. 이 방법론은 기존의 방식들이 실패하는 상황에서도 효과적으로 작동하도록 설계되었습니다. HouYi의 주요 목표는 LLM을 조작하여 민감한 정보를 추출하거나 애플리케이션을 의도하지 않은 방식으로 동작하도록 유도하는 것입니다.

HouYi는 공격 과정에서 아래 3가지 구성요소들을 유기적으로 조작하여 LLM이 공격자의 의도대로 움직이게 만듭니다. 프레임워크 컴포넌트는 공격의 기반을 마련하고, 세퍼레이터는 LLM의 응답을 조작하여 공격자가 원하는 방향으로 유도하며, 디스럽터는 실제 악의적인 행위를 실행합니다. 이런 방식으로 HouYi는 LLM을 통합한 애플리케이션의 취약점을 효과적으로 활용하여 보안 위험을 제기합니다.

프레임워크 컴포넌트 (Framework Component)

이 구성 요소는 사전에 구성된 프롬프트를 애플리케이션과 통합하는 역할을 합니다. 효과적인 공격을 위해, 애플리케이션의 특정 기능을 타겟팅하는 맞춤형 프롬프트를 생성합니다. 공격자는 LLM이 특정 작업을 수행하도록 설계된 프롬프트를 만들어, 애플리케이션에 통합합니다. 이 프롬프트는 LLM이 응답을 생성할 때 사용하는 초기 맥락을 제공합니다.

구분 기호 / 세퍼레이터 컴포넌트 (Separator Component)

이 구성 요소의 목적은 정의된 프롬프트와 사용자 입력 사이의 맥락을 분리시키는 것입니다. 이를 통해, LLM은 사용자의 입력을 별도의 새로운 명령으로 인식하게 되며, 이는 공격자가 원하는 특정 동작을 유도할 수 있도록 합니다.

디스럽터 컴포넌트 (Disruptor Component):

이 구성 요소는 공격 목표를 달성하기 위한 악성 페이로드를 포함합니다. 디스럽터는 LLM을 조작하여 보안 메커니즘을 우회하고, 민감한 데이터를 추출하거나 시스템을 손상시키는 등의 행위를 수행합니다. 즉, LLM에게 특정 정보를 유출하거나, 특정 작업을 수행하도록 지시하는 악성 페이로드를 포함합니다. 예를 들어, 사용자의 개인 정보를 요청하거나, 시스템에 해를 끼치는 명령을 내릴 수 있습니다.

평가 및 결과

36개의 실제 애플리케이션을 대상으로 HouYi를 테스트한 결과 31개 애플리케이션에서 취약점이 발견되었습니다. 이 연구는 잠재적인 금전적 손실과 개인 정보 침해를 포함하여 이러한 취약점의 심각한 영향을 강조합니다.

이 연구는 다양한 서비스에 대한 LLM 통합과 관련된 보안 위험을 조명합니다. 즉각적인 인젝션 공격에 대한 강력한 방어 메커니즘의 필요성을 강조하고 LLM이 통합된 애플리케이션의 취약점에 대한 심층적인 이해에 기여합니다.

더 읽어보기

HouYi 논문

GitHub 저장소

https://github.com/LLMSecurity/HouYi

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~