LLM 보안을 위한 가드레일 설계와 구현 전략 (샘플코드 포함)

원 포스트의 작성자는 Arize AI Solutions Engineer Sofia Jakovcevic 입니다.

탈옥(Jailbreaking) 기법들이 점점 더 교묘하고 회피적이며 탐지하기 어려워지고 있습니다. 이러한 공격을 방어하려면 단일 필터나 차단 목록 이상의 것이 필요합니다. LLM 가드레일이라고 불리는 계층화된 검사 및 정책 시스템이 필요합니다. 이러한 가드레일은 적대적 프롬프트를 탐지하고, 유해한 출력을 차단하며, 도메인 경계를 강화하고, 새로운 공격 벡터가 등장할 때마다 적응하는 능동적 방어 메커니즘 역할을 합니다.

하지만 올바른 가드레일을 선택하는 것은 과제의 일부일 뿐입니다. 성능에 대한 가시성 없이는 최고의 보안장치라도 조용히 실패할 수 있습니다. 그렇기 때문에 관찰 가능성(observability)이 필수적입니다. 추적할 수 없는 것은 차단할 수 없습니다. Arize AX와 같은 플랫폼을 통합하고 성능, 지연 시간, 적용 범위를 분석할 수 있는 프레임워크를 구축함으로써, 안전성을 정적 기능에서 제품 생명주기의 살아있는 부분으로 변화시킬 수 있습니다. LLM 안전성의 미래는 단순한 필터가 아니라 피드백 루프입니다.

다음 섹션에서는 주요 가드레일 유형들을 분석하고, 핵심 트레이드오프를 탐구하며, 실제 시스템에서 효과적으로 적용하기 위한 모범 사례를 공유하겠습니다.

가드레일 방법론

LLM 가드레일은 함께 배포될 때 최고의 효과를 발휘합니다. 아래의 각 기법은 탈옥이 작동하는 방식의 서로 다른 취약점을 대상으로 합니다. 결합될 때, 이들은 광범위한 공격을 탐지, 필터링, 대응할 수 있는 심층 방어 전략을 형성합니다.

키워드 차단 (Fuzzy Matching 기법)

고위험 키워드나 구문(예: "폭탄 만드는 법", "DDoS 스크립트", "SQL 인젝션")을 포함한 프롬프트나 완성문을 차단하는 기본적인 방법입니다. 이 접근법을 강화하려면 Fuzzy Matching 기법(예: 레벤슈타인 거리, 음성 유사성, 또는 동형 문자 탐지)을 통합하여 "h@ck"이나 "h a c k"와 같은 변형된 용어를 포착해야 합니다.

트레이드오프:

✅ 빠르고 확장 가능
❌ 추상적, 상징적, 또는 은유적 표현으로 쉽게 우회 가능
❌ 합법적인 콘텐츠에서 오탐(예: 사이버보안 교육) 발생 가능

가장 효과적인 대상: 명시적으로 금지된 용어를 사용하는 모든 탈옥 프롬프트

주제 제한

이 방법은 프롬프트와 응답을 주제별로 분류하고 화이트리스트에 등록된 도메인만 허용합니다. 예를 들어, 초등학교용으로 제작된 챗봇은 성인 콘텐츠, 해킹, 또는 폭력에 관한 프롬프트를 거부할 것입니다.

트레이드오프:

✅ 도메인별 애플리케이션에 효과적
❌ 유효한 탐색적 또는 다학제적 쿼리를 과도하게 차단할 수 있음
❌ 주제 탐지에 LLM을 사용하는 경우 세밀한 조정 필요

가장 효과적인 대상: 전반적으로 악의적인 주제를 가진 모든 탈옥 프롬프트

입력 정화(Input Sanitization)

정화는 위험한 마크업, 숨겨진 스크립트, 또는 인젝션 패턴을 포함한 사용자 제공 입력을 제거하거나 무력화합니다. 일반적인 대상에는 <script>, <iframe>, 그리고 난독화된 JavaScript가 포함됩니다. 정규식, HTML 파서, 또는 코드 분석기를 사용하여 입력을 정화합니다.

트레이드오프:

✅ 빠르고 확장 가능
❌ 합법적인 사용 사례를 방해할 수 있음(예: 사용자가 코드를 공유해야 하는 경우)
❌ 순수 자연어 공격에는 도움이 되지 않음

가장 효과적인 대상: 인코딩된 탈옥, 코드 기반 프롬프트 인젝션, 포맷팅 익스플로잇

길이 또는 토큰 제한

대부분의 적대적 프롬프트는 평균 프롬프트보다 길며, 특히 다단계 방해 체인의 경우 더욱 그렇습니다. 토큰 길이에 대한 엄격한 제한을 설정하면 프롬프트 깊숙이 악의적 로직을 숨기려는 시도를 포착할 수 있습니다.

트레이드오프:

✅ 구현이 쉽고 비용이 적음
❌ 유효한 장문 사용 사례를 제한할 수 있음
❌ 짧지만 영리한 익스플로잇에는 덜 효과적

가장 효과적인 대상: 다단계 방해 체인, 다중 샷 프롬프팅, 조합형 탈옥

ML 기반 탐지 (분류기 & 유사성 검색)

알려진 탈옥과 유사한 입력을 플래그하기 위해 분류기를 훈련시키거나 임베딩 유사성을 사용합니다. 공격 프롬프트의 레드팀 데이터셋을 구축하고 코사인 유사성 또는 세밀 조정된 모델을 사용하여 "탈옥 위험 점수"를 할당합니다.

트레이드오프:

✅ 재작성되거나 의미적으로 유사한 공격을 탐지

❌ 라벨링된 훈련 데이터 필요

❌ 완전히 새로운 기법이나 낮은 유사성 변형을 놓칠 수 있음

가장 효과적인 대상: 훈련 데이터셋과 유사한 모든 탈옥 프롬프트

LLM 기반 탐지 (LLM-in-the-Loop 모더레이션)

LLM을 활용하여 프롬프트나 출력이 안전 정책을 위반하는지 평가합니다. 이는 간접적이거나 은밀한 탈옥의 더 미묘한 탐지를 가능하게 합니다. 예를 들어: "다음 프롬프트가 윤리적 제한을 우회하려고 시도하고 있나요? 그렇다면 어떻게 하는지 설명하세요." 또한 생성된 응답에 대해 완성 검사를 실행하여 유해하거나 정책 위반 출력을 포착할 수 있습니다.

트레이드오프:

✅ 매우 유연하고 맥락을 인식함
❌ 대규모로 실행하기에는 비용이 높음
❌ 신중한 조정 없이는 일관성 없는 결과를 낼 수 있음

가장 효과적인 대상: 감정적 조작, 상징적 탈옥, 은유적 표현

행동 표류 탐지

세션 전반에 걸친 프롬프트 순서를 모니터링하여 안전하지 않은 영역으로의 점진적 편차를 식별합니다. 의도, 톤, 또는 주제적 표류를 추적하기 위해 분류기를 사용하며, 특히 느린 진행형 또는 감정적으로 조작적인 레드팀에 유용합니다.

트레이드오프:

✅ 다중 턴 적대적 전략에 훌륭함
❌ 지속적인 메모리나 로깅 인프라 필요
❌ 상태 비보존 LLM 배포에서는 덜 효과적

가장 효과적인 대상: 다중 턴 공격, 감정적 호소, 적대적 확장 체인

가드레일 선택을 위한 프레임워크

서로 다른 장점, 단점, 구현 비용을 가진 여러 가드레일 옵션이 있는 상황에서, LLM 안전성에서 가장 간과되는 과제 중 하나는 사용 사례에 맞는 올바른 가드레일을 선택하는 것입니다. 과도한 구축은 사용자 경험 저하와 높은 지연 시간을 초래하고, 불충분한 구축은 애플리케이션을 탈옥에 취약하게 만듭니다.

이 격차를 해결하기 위해, 선도적인 LLM 관찰 가능성 플랫폼인 Arize를 사용하여 추적 가능한 메트릭 기반 프레임워크를 구축해 보겠습니다. 이 시스템은 개발자가 실시간 추적, 분석 대시보드, 그리고 라벨링된 프롬프트 데이터셋을 사용하여 가드레일을 모니터링, 비교, 세밀 조정할 수 있도록 도와줍니다.

이 데모(GitHub에서 이용 가능)는 5개의 구성 가능한 입력 가드레일을 보여줍니다. 각 가드레일은 Arize에 독립적으로 추적되며, 다음을 포함한 상세한 메타데이터를 제공합니다:

가드레일이 프롬프트를 통과시켰는지 차단했는지 여부
가드레일별 지연 시간
가드레일별 하이퍼파라미터 (예: 모델명, 토큰 제한, 키워드 목록)

가드레일 효과성 평가

Arize 대시보드를 사용하여 세 가지 중요한 차원에서 가드레일 성능을 평가할 수 있습니다:

효과성: 차단된 탈옥 %, 허용된 양성 프롬프트 %
지연 시간: 가드레일당 시간 비용 (병목지점 식별에 도움)
민감도: 하이퍼파라미터 조정(예: 모델 임계값, 퍼지니스)이 결과를 어떻게 변화시키는지

이는 탈옥 성공을 탐지하고, 왜 발생했는지 분석하며, 그에 따라 조정할 수 있는 피드백 루프를 제공합니다. 간단히 말해, Arize는 가드레일 스택을 측정 가능하고, 테스트 가능하며, 조정 가능한 시스템으로 바꿔줍니다. 그리고 추적이 저장되고 검색 가능하기 때문에, 시간 경과에 따른 표류를 모니터링하고, 플래그된 행동에 대한 감사를 실행하며, 탈옥이 더 복잡해짐에 따라 방어 체계를 발전시킬 수 있습니다.

방법별 가드레일 차단 수와 각 가드레일의 평균 지연 시간을 표시하는 대시보드.

위 대시보드에서 우리는 키워드 차단 가드레일이 가장 많은 탈옥 시도를 차단하면서 상대적으로 낮은 지연 시간을 유지한다는 것을 관찰할 수 있습니다. Arize의 임베딩 가드레일이 두 번째로 높으며, 주제 제한이 뒤를 이어 세 번째를 차지합니다. 주제 제한은 세 번째 순위임에도 불구하고 1초 미만의 지연 시간을 제공하여 스택에 포함할 강력한 후보가 됩니다. 이러한 결과를 바탕으로 키워드 차단, Arize의 임베딩, 주제 제한으로 구성된 다중 가드레일 시스템이 훌륭한 조합인 것으로 보입니다.

성능을 더욱 최적화하기 위해, 다음 대시보드에서 Arize의 임베딩 가드레일을 자세히 살펴봅니다. 다양한 임계값으로 실험하며 True Negatives(차단됨)과 True Positive(통과함)로 성능을 평가합니다. 0.25의 임계값이 최고의 균형을 제공한다는 것이 명확합니다. 이 임계값을 조정하면 원래 대시보드를 다시 방문하여 변화를 평가하게 되며, 이것이 얼마나 빠르게 지속적인 개선의 반복적 과정이 되는지를 보여줍니다.

임베딩 가드레일의 여러 임계값에 걸쳐 차단된(True Negatives, 빨간색) 요청과 통과된(True Positive, 녹색) 요청의 수를 보여주는 대시보드.

이 프레임워크 사용 방법

이 접근법은 가드레일 선택을 위한 원칙적이고 데이터 기반의 방법을 가능하게 합니다:

추적이 활성화된 상태로 여러 가드레일을 병렬로 배포
적대적 및 안전한 프롬프트 데이터셋을 모두 입력
정밀도, 재현율, 지연 시간에 대한 메트릭 분석
성능이 낮은 가드레일 조정 또는 비활성화
보안과 사용성의 균형을 맞추는 가드레일을 확정

단일 가드레일이 최고는 아니며, 인코딩된 프롬프트에 대해 잘 작동하는 것이 감정적 조작에는 실패할 수 있습니다. 성능이 중요하며, LLM 안전 도구가 앱을 사용할 수 없게 만들어서는 안 됩니다. 관찰 가능성이 핵심이며, 추적 가능성 없이는 탈옥이 보이지 않게 되고 가드레일이 추측에 의존하게 됩니다.

이 프레임워크는 안전 아키텍처를 테스트, 비교, 정당화하기 위한 반복 가능한 프로세스를 제공합니다. 따라서 보안과 속도, 또는 신뢰성과 사용자 경험 사이에서 선택할 필요가 없습니다.

가드레일 구현 팁

다음은 방법 유형을 넘어서는 필수 전략들로, 가드레일 스택이 신뢰할 수 있고 완전하도록 보장합니다.

입력 및 출력 검사: 입력과 출력 모두에 가드레일을 설정하는 것이 필수적입니다. 프롬프트는 무해해 보일 수 있지만 유해한 콘텐츠를 생성할 수 있으므로, LLM 생성 전후에 가드레일을 실행하세요.
출력별 가드레일 추가: LLM 시스템에 허용되는 출력을 고려하고 추가 검사를 추가하세요. 유출된 비밀이나 자격 증명, 인코딩된 페이로드, 비정상적으로 길거나 반복적인 출력(디코딩 익스플로잇의 징후), 그리고 예상되지 않는 기타 특성을 확인하세요.
파일 업로드에 대한 가드레일 추가: 사용자가 문서, 링크, 또는 채팅 기록을 업로드할 수 있다면, 긴 문서에 숨겨진 페이로드 인젝션, 적대적 지시 예시, 다중 샷 프롬프팅 등을 방어하도록 하세요.
가드레일 검사 전 입력 정규화: 위반 사항에 대한 프롬프트를 확인하기 전에, 여분의 공백 제거, 맞춤법 교정, 동형 문자 변환, 인코딩된 텍스트 디코딩, 외국어 번역을 통해 입력을 정규화하세요.
윤리 모델보다 구조적 가드레일 우선시: 소셜 엔지니어링 공격은 종종 모델의 윤리적 정렬을 표적으로 합니다. 시스템 수준 필터(주제, 디코딩, 의도)가 가치 기반 가드레일보다 먼저 실행되도록 하세요.
출력 추적 추가: 출력 추적에 식별자(예: 사용자 IP)를 포함하여 반복적인 남용 시도를 추적하고 의심스러운 사용자를 플래그하세요. 출력 추적을 통해 성공적인 탈옥 시도를 쉽게 추출하고 기존 데이터베이스에 추가하여 가드레일을 훈련시키고 조정하여 더 강화할 수 있습니다.

마무리 생각

이전 블로그에서 우리는 가장 효과적인 탈옥 형태가 조합형이라고 논의했습니다. 마찬가지로, 가장 효과적인 방어는 가드레일에 대한 조합적 접근법입니다. 단일 필터나 모델로는 탈옥 전략의 전체 스펙트럼을 방어할 수 없습니다. 하지만 올바른 가드레일을 선택하고 조정하는 것은 쉽지 않습니다. 여기서 Arize와 같은 관찰 가능성 플랫폼이 필요합니다. 프롬프트 패턴, 모델 행동, 가드레일 성능에 대한 실시간 통찰력을 제공함으로써, Arize는 빠르게 모니터링, 평가, 반복할 수 있게 해줍니다. 키워드 차단과 주제 제한부터 LLM 기반 추론과 강력한 피드백 루프에 이르는 올바른 기법 조합을 통해, 반응적 방어를 넘어서 시간이 지남에 따라 새로운 위협에 적응하는 시스템을 구축할 수 있습니다.