대규모 언어 모델에 대한 적대적 공격 (Adversarial Attacks on LLMs) 소개

9bow · 11월 18, 2023, 6:12오전

으앗, 죄송합니다.
어제 오늘 일이 많아서 회사 - 집 - 기절을 반복하느랴 못 들어왔네요

말씀하신 정도로 저도 이해하고 있고요,
사례들 중에는 Jailbreak가 시스템 프롬프트를 추출하는 등의 LLM이 대답하지 않도록 막아둔 내용들을 뽑아내는 것으로 알고 있고, 그 외로 리소스를 낭비(?)하거나 다른 답을 도출하도록 유도하는 것들을 통칭하는 것 같습니다.

프롬프트 엔지니어링을 통해 더 나은 결과를 가져오거나 원하는 형태로 결과를 받을 수 있어지면서,
위 게시물이나 프롬프트 인젝션 등과 같은 공격에 대한 부분들도 함께 연구가 되는 것 같습니다