대규모 언어 모델에 대한 새로운 위협: Many-shot Jailbreaking

확대이미지


최근 Anthropic, OpenAI, Google DeepMind가 개발한 대규모 언어 모델(LLM)을 대상으로 한 새로운 공격 방식, 'Many-shot Jailbreaking'(MSJ)이 공개됐습니다. 이 공격 방식은 기존의 Few-shot Learning(FSL)과 달리 수백 개의 질문을 프롬프트에 추가하여 LLM의 안전 가드레일을 우회합니다. 특히, MSJ는 모델이 일반적으로 거부할 법한 질문들을 포함시켜, 컨텍스트 윈도우가 길어질수록 공격의 효과가 증가합니다.

이 공격은 Claude 2.0, GPT-3.5, GPT-4, Llama 2 (70B), Mistral 7B와 같은 다양한 최신 모델에서 성공적으로 적용되었으며, 그 효과는 파워 법칙에 따라 예측 가능했습니다. 하지만, 현재 알려진 완화 전략으로는 모든 상황에서 유해한 행동을 완전히 차단하기 어렵다는 점이 드러났습니다.

MSJ와 같은 공격의 존재는 LLM을 사용하는 모든 이에게 새로운 도전 과제를 제시합니다. 특히 더 큰 모델들이 이러한 공격에 더욱 취약할 수 있음을 의미하며, 이에 대응하기 위한 새로운 방안을 커뮤니티가 함께 모색할 필요가 있습니다. 우리의 안전과 프라이버시를 보호하기 위해 이러한 위협을 깊이 이해하고, 효과적인 대응 전략을 개발하는 것이 중요합니다.