• Turing Post Korea
  • Posts
  • '가디언 모델(Guardian Model)'이란 무엇인가?

'가디언 모델(Guardian Model)'이란 무엇인가?

'안전하고 신뢰할 수 있는 AI 시대'를 위해 사용되는 '가디언 모델'에 대해 알아봅시다

들어가며

AI가 우리 생활에 더 깊이 들어오면서, AI로 인해서 생길 수 있는 문제나 피해들에 대한 이야기도 더 많이 들릴 수 밖에 없습니다. 악의적인 공격, 사기, 잘못된 정보(Disinformation)를 유포하는 것부터 시작해서, 설령 응답 자체는 무해하더라도 잘못 이해할 수 있는 오류라든가 환각(Hallucination) 등까지 다양한 문제가 발생할 수 있겠죠.

이에 대한 해결책으로, 추가적인 안전 장치를 마련하는 것을 자연스럽게 생각하게 되는데요. 바로, 오늘 이야기할, 안전하지 않은 요청이나 출력을 탐지하고 걸러내게끔 훈련시킨 특수한 가디언 모델(Guardian Models)입니다. 이 모델들은 AI 생태계를 더 안전하고 신뢰할 수 있게끔 해 줍니다.

2025년 지금, 가디언 모델은 더 이상 실험적인 기술이 아닙니다. 대부분의 중요한 빅테크, AI 스타트업들도 자사의 AI 모델을 배포할 때 반드시 고려하는 영역입니다: 오픈AI는 자체 컨텐츠의 조정 레이어를, 마이크로소프트는 Azure Content Safety 레이어를, Meta는 2023년부터 Llama Guard를 제공하고 있구요, IBM은 Granite Guardian을 선보이기도 했습니다. 물론, 우리가 사용하는 거의 모든 챗봇이나 생성형 AI 서비스에서 작동하는 가디언 모델은 ‘그림자처럼 숨어’ 있어서, 대부분의 사람들은 이런 게 있는지도 모르기는 합니다.

저희 튜링포스트의 AI 101에서 ‘AI 안전’에 대해 아주 자주 이야기하지는 않았지만, 오늘 본격적으로 가디언 모델의 기본 정의를 알아보고, 현재 사용되는 주요 가디언 모델은 어떤 것들인지 살펴보고, 런타임에서 원하는 규칙을 적용할 수 있는 최신 기법 DynaGuard도 소개해 보려고 합니다.

가디언 모델은 언뜻 보기에 일반적인 대규모 언어 모델(LLM)과 비슷해 보일 수 있지만, 하지만 자세히 들여다보면 조금 다른 점이 있습니다. 여러분의 모델을 보호하고, 나아가 여러분 자신을 지키기 위해 반드시 알아야 할 기술이니 모두 관심을 가져보시기 바랍니다.

오늘 에피소드에서는 다음과 같은 내용을 다룹니다:

가디언? 가드레일?

‘가디언 모델’의 가장 중요한 목표는, AI와 사용자가 상호작용하는 동안 입출력되는 컨텐츠의 정책과 규칙을 실시간으로 효과적으로 적용하는 겁니다. 이 모델들은, 주요 AI 모델과 함께 작동하면서 입력과 출력을 실시간으로 모니터링해서, 유해하거나 정책을 위반하는 컨텐츠를 잡아냅니다. 그래서 주요 모델 자체에 이런 모든 규칙을 직접 코딩할 필요가 없죠.

이전에 Vectara의 창립자이자 CEO인 Amr Awadallah와 한 인터뷰에서, ‘모델을 감독하는 별도의 안전 및 검증 컴포넌트의 중요성’을 강조한 적이 있었습니다:

이게 바로 가디언 에이전트(Guardian Agent)로, 대규모 언어 모델(LLM)의 출력을 모니터링해서 환각(Hallucination)을 잡아내고, 위험이 높은 상황에서는 인간의 개입(Human-in-the-Loop)을 유도합니다.

이렇게, “AI가 AI를 감독하는” 시스템이라는 개념은 정말 멋진 방향입니다 - 모델이 컨텐츠를 생성하는 동시에 규제하는 역할을 함께 수행하기 때문이죠.

가디언 모델은, 그 자체로 거대한 사이즈의 시스템일 필요는 없습니다. 대부분의 경우에 가디언 모델은 2B에서 8B 파라미터 정도로 비교적 작은 사이즈이지만, 수십 가지 위험 카테고리에서 유해한 컨텐츠를 신뢰성 있게 잡아냅니다.

이제 용어의 차이점을 살펴볼까요. “가드레일(Guardrails)”이라는 말을 들어보셨을 테고, “가디언 모델”이라는 용어도 들어봤을 수 있습니다. 이 둘이 같은 걸까요? 밀접하게 관련되어 있기는 해서, 종종 같은 의미로 사용되기도 합니다. 둘 다 AI 시스템에 안전 규칙을 적용한다는 점에서 비슷하죠.

하지만 엄밀히 말하면, 가디언 모델은 가드레일을 구현하는 한 가지 방법이고, 가드레일은 규칙, 필터, 모델 등 AI 행동을 통제하는 전체적인 도구의 모음을 의미하는 더 넓은 개념입니다.

중요한 점은 가디언 모델이 하는 일이 단순한 필터링을 넘어선다는 것입니다. 이 모델은 다음과 같은 역할을 할 수 있습니다:

  • 실시간으로 유해한 컨텐츠를 차단하는 가드레일 역할

  • 생성된 응답의 품질을 확인하는 평가자(Evaluator) 역할

  • RAG 파이프라인을 강화해서 환각을 탐지하고, 답변이 관련성 있고, 근거가 있고, 정확한지 확인하는 역할

유해한, 위험한 AI 컨텐츠의 종류

보통 우리가 AI 모델이나 서비스를 사용할 때 맞닥뜨릴 수 있는, AI 컨텐츠의 리스크/위험은 아래와 같은 종류가 있습니다:

가디언 모델이 컨트롤하는 유해한 컨텐츠의 주요 카테고리

RAG의 환각(Hallucination) 위험은, 검색된 콘텍스트가 관련성이 없거나 상충될 때 여전히 발생할 수 있습니다.

가디언 모델이 컨트롤하는 RAG 위험 카테고리

Llama Guard나 ShieldGemma 같은 가디언 모델은 유해한 컨텐츠만 통제하지만, IBM의 Granite Guardian 같은 모델은 RAG 파이프라인에서 발생하는 위험 문제도 완화해 주는데 기여합니다. 그럼, 이제 이 AI “경비원”들의 기술 사양을 파헤쳐보고, 어떻게 만들어졌으며 실제로 어떻게 작동하는지 살펴보겠습니다.

Llama Guard와 ShieldGemma – 멀티모달 가디언의 베이스라인

메타의 Llama Guard 4

Llama부터 시작해봅시다. 2023년, Meta의 GenAI는 Llama Guard를 처음 선보였는데, 이건 대규모 언어 모델(LLM) 기반의 안전 장치 모델로, 법적, 정책적, 안전 관련 위험을 포괄하는 안전 분류 체계(Safety Taxonomy)를 사용해서 사용자 프롬프트와 AI 응답을 분류합니다. 이 모델은 지시 기반 파인튜닝(Instruction-Tuned)을 거쳤고, 제로샷(Zero-Shot) 또는 퓨샷(Few-Shot) 프롬프팅으로 새로운 분류 체계에 적응할 수 있습니다. 2024년에는 Llama Guard 3 Vision이 개발되었는데, 이건 이미지 이해 능력을 확장한 멀티모달 가디언 모델입니다.

메타의 최신 안전 시스템인 Llama Guard 4로 넘어가면 이야기가 조금 더 흥미로워집니다. 이 모델은 텍스트와 이미지를 모두 처리하고, 사용자 프롬프트나 모델 출력이 안전한지 위험한지 확인하고, 만약 위험하다면, 어떤 규칙(예: 폭력, 증오, 개인정보, 지적재산권 등)을 위반했는지 지적합니다. Llama Guard 4는 120억 개의 파라미터 모델이고, Llama 4 Scout를 기반으로 하지만 안전 분류에 특화되도록 Pruning과 파인튜닝을 진행했습니다.(Llama 4 Scout는 원래 MoE 모델입니다)

Image Credit: Llama 4 Scout 아키텍처, Llama Guard 4 모델카드

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

  • 주간 AI 뉴스레터

  • AI 유니콘 기업들에 대한 심층 분석 기사

  • AI 기술, 산업, 정책 전문가 인터뷰

  • AI 기술 및 산업에 대한 심층 분석 시리즈

  • 분석 기사 요청 및 튜링 포스트 코리아 기고

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.