Turing Post Korea
Posts
Topic #45: DPO, RRHF, RLAIF – RLHF보다 더 똑똑하게 AI를 인간에 맞춘다

Topic #45: DPO, RRHF, RLAIF – RLHF보다 더 똑똑하게 AI를 인간에 맞춘다

가장 널리 사용되는 RLHF 방식의 대안으로 제안된 세 가지 LLM 정렬(Alignment) 기법들에 대해서 알아봅시다.

Ksenia Se & Ben Eum
July 06, 2025

글을 시작하며

튜링포스트 코리아 구독자님들이 얼마 전 포스팅한 HITL (Human-in-the-Loop) 관련 글에 많은 관심을 보여주셨는데요:

Topic #43: AI가 스스로 만든 함정에서 AI를 구하자: HITL과 합성 데이터의 진화

AI가 스스로 훈련하는 Self-Training 시대, 합성 데이터를 안전하게, 쓸만하게 만들어주는 HITL 기법을 살펴봅시다.

turingpost.co.kr/p/topic43-hitl-synthetic-data

그렇다면, 그 다음으로 중요한, 또 적절한 주제가 뭐냐라고 생각해 봤을 때, 바로 ‘Alignment (정렬)’, 즉 모델을 사람의 선호도에 맞게 정렬하는 기법이라고 생각했습니다.

아시다시피, 이 분야에서 가장 널리 사용하는 훈련 기법이 바로 RLHF (Reinforcement Learning from Human Feedback)이죠. 이 기법은 현재 기준으로 가장 우수한 추론(Reasoning) 모델들에서도 활용되고 있습니다.

하지만 전통적인 RLHF는, 복잡한 강화학습 알고리즘, 그리고 학습된 보상 함수(Reward Function)에 의존해야 하고, 전체적인 과정이 불안정하거나 조율하기 어려운, 또 답변에 대한 신뢰의 문제 등이 대두되는 경우가 많습니다.

결국, 사람의 선호도에 맞게 모델을 최적화하는 정렬(Alignment)이라는 큰 분야에서, 단 하나의 기법만으로는 유용성과 안전성, 신뢰성까지 모두 확보하기 어렵습니다. 그래서 등장한 것이 바로 신뢰 보정(Trust Calibration)을 포함한 다양한 정렬 기법들이고, 이들 각각은 정렬의 문제를 서로 다른 방식으로 풀어내려는 시도들입니다.

오늘은 그 중에서도 특히 흥미로운 RLHF로부터 변형된 세 가지 기법에 대해서 알아볼까 합니다. 그 세 가지가 바로:

DPO (Direct Preference Optimization, 직접 선호 최적화)
RRHF (Reward-Rank Hindsight Fine-Tuning, 보상-순위 기반 사후 파인튜닝)
RLAIF (Reinforcement Learning from AI Feedback, AI 피드백 기반 강화학습)

입니다.

이 기법들은 각기 다른 특성을 활용해서 정렬을 더 효율적으로 최적화하게 해 줍니다. 예를 들어서, 어떤 방법은 강화학습을 전혀 사용하지 않고, 또 어떤 방법은 보상 모델 자체를 건너뛰기도 하구요, 둘 다 생략하거나 정렬이라는 것 자체를 바라보는 관점을 새롭게 제시하는 방식도 있습니다.

이 세 가지 방법 - DPO, RRHF, RLAIF - 각각이 어떤 가능성을 보여주는지, 장점과 한계는 무엇인지, 그리고 어떤 상황에 어떤 방법을 선택하면 좋은지를 정리해 볼까 합니다.

참고로, DeepSeek의 모델에서 주목받았던 정렬 기법 GRPO는 이전에 다른 글에서 다뤘기 때문에 여기서는 제외했으니, 궁금하신 분은 원 글을 참고하세요 ^.^

Topic #40: DeepSeek-R1의 비밀 레시피, GRPO, 그리고 Flow-GRPO를 알아봅시다.

DeepSeek-R1 혁신의 핵심인 GRPO, 그리고 플로우 모델과 RL을 결합하게 해 주는 Flow-GRPO에 대해서 공부해 봅시다.

turingpost.co.kr/p/topic-40-grpo-flow-grpo

오늘 에피소드에서는 다음과 같은 내용을 커버합니다:

RLHF에 대해 조금 더 알아봅시다
Direct Preference Optimization (DPO)
RRHF: Reward-Rank Hindsight Fine-Tuning
- RRHF의 작동 방식과 흐름
- RRHF의 장점
- RRHF의 한계점
RLAIF: Reinforcement Learning from AI Feedbabck – 사람을 AI로 대체하다
맺으며
보너스: 참고자료

RLHF에 대해 조금 더 알아봅시다

2017년 이후, 특히 2020년에서 2022년 사이는 오픈AI의 RLHF(Reinforcement Learning from Human Feedback)가 더 활발하게 연구된 기간이었는데요. 처음에는 단순하게 기술적인 개선 기법처럼 보였을지 모르지만, 실제로 이 기법은 AI가 응답을 생성하는 방식 자체를 근본적으로 바꿔놓은 전환점이었습니다.

RLHF 이전의 거대 언어모델(LLM)들은, 뭐랄까, 일종의 ‘정체 상태’에 있었습니다. 사람이 쓴 모든 텍스트—좋은 글, 나쁜 글, 심지어 전혀 도움이 안 되는 글까지—를 학습했지만, 정작 사람이 원하는 답변이 무엇인지는 잘 알지 못했습니다. 겉보기에 사람처럼 말은 잘 따라하지만, 사람의 실제 필요, 진짜 상황에 맞게 원하는 대답을 이해하는 데는 서툴렀던 거죠.

그러던 중에, RLHF는 AI가 진짜로 ‘사람을 위한 도구’가 되는 시작점이 되었다고 봐도 과언이 아닙니다.

이 기법 덕분에 모델이 사람들이 실제로 원하는 방향에 더 맞는, 부합하는 응답을 생성하기 시작했습니다. 즉, 사람의 선호도가 모델 훈련에 반영되고 활용되기 시작한 것이죠. 오픈AI의 연구자들은 이전처럼 “사람처럼 써봐”라고 말하지 않고, 이제는 “사람들이 더 좋아하는 응답은 이거야. 너라면 어떤 걸 고를래?”라고 모델에게 묻기 시작한 겁니다.

이 과정은 세 가지 단계로 구성된, 정교하게 작동하는 루프 구조로 이루어져 있습니다:

사람의 선호도 수집:
사람들이 AI가 생성한 컨텐츠—예를 들어서 에이전트의 행동을 담은 짧은 동영상 클립이나 게시물 요약문 등—를 비교하고, 더 좋다고 생각하는 걸 선택합니다. 이 비교 결과가 보상 함수(Reward Function)를 훈련시키는 레이블로 사용됩니다.
보상 모델 훈련:
신경망 모델을 사용해서, 사람의 선택을 예측할 수 있도록 훈련합니다. 즉, 어떤 기준으로 사람이 A보다 B를 더 좋아했는지를 수학적 함수로 설명할 수 있도록 학습하는 것이죠.
강화학습(RL) 적용:
원래의 언어 모델은 이제 단순히 사람처럼 흉내 내는 수준이 아니라, ‘사람의 긍정적인 평가’를 받기 위해서 학습합니다. 이때 앞서서 훈련한 보상 모델이, 마치 환경에서 받은 보상처럼 작동하면서 기존의 강화학습 알고리즘(Policy Gradient 등)을 통해 모델을 조정하게 됩니다.

Image Credit: “Deep Reinforcement Learning from Human Preferences” 논문

이 기법 덕분에, AI가 단순히 사람처럼 말하는 것을 넘어서 사람의 기호에 맞춰서 말하는 방식을 학습하기 시작했습니다. 추가로 DPO, RRHF, RLAIF 등의 기법도 이 흐름 속에서 다양하게 등장하게 되었고요.

이런 루프를 계속해서 반복하는 과정에서, 더 많은 사람의 선호도 데이터를 수집하고 재훈련할 수 있는 기회가 생기고, 이렇게 모델은 점진적으로 더 나아지게 됩니다.

RLHF는 사람과 기계 사이의 관계를 근본적으로 변화시켰다고 할 수 있습니다. 기존에는 사람이 직접 정의한 보상 규칙(Hardcoded Rewards)을 따랐다면, 이제는 ‘사람 중심의 목표’를 AI가 직접 학습하고 따르게 된 것이니까요.

RLHF 기법에서 가장 널리 사용되는 강화학습 알고리즘은 PPO(Proximal Policy Optimization)인데요. 앞으로 다른 기법들과 비교할 때 이해를 편히 하실 수 있도록, 여기서 PPO가 뭔지 간단히 짚고 넘어가겠습니다:

PPO의 핵심 아이디어는, 정책(Policy)을 점진적으로 개선하되, 갑작스럽게 무너지지 않도록 안정성을 확보하는 것입니다.
PPO는 보상 모델로부터 받은 피드백을 이용해서, 모델 출력의 품질을 평가합니다.
동시에, 참조(Reference) 모델을 기준으로, 현재 모델의 응답 확률 분포가 얼마나 달라졌는지를 KL 발산(Kullback-Leibler Divergence)으로 측정합니다. 이를 통해 모델이 지나치게 벗어나지 않도록 안정성을 유지합니다.
별도의 가치(Value) 모델은 예상되는 보상의 크기를 예측합니다.
PPO는 실제 성과와 예상 성과의 차이를 계산해서 ‘어드밴티지(Advantage)’를 산출한 후에, 이를 기반으로 해서 정책을 업데이트합니다. 단, 행동이 과도하게 바뀌지 않도록 ‘클리핑(Clipping; 업데이트의 ‘속도 제한’을 거는 것)’된 목적 함수를 사용해서 학습의 안정성을 유지합니다.

Image Credit: Alyona Vert, 튜링 포스트

지난 몇 년 동안, RLHF는 말하자면 ‘실험적인 틈새 기술(Niche Curiosity)’로 출발해서, 지금은 최첨단의 추론 언어 모델(Reasoning Language Models, RLMs)을 떠받치는 핵심 축으로 자리잡았습니다.

하지만, 이 역시 효과적으로 모델을 훈련하기 위한 유일한 선택지는 아니죠: RLHF보다 더 나은 변형된 방식, 또는 그 대안으로서 다양한 기술들이 개발되어 왔습니다.

그 중에서도 자주 언급되는 세 가지, 바로 DPO, RRHF, RLAIF가 있는데요. 이 아리송한 약어들 뒤에 숨은 의미가 뭘까요? 지금부터 하나씩 살펴보죠.

Direct Preference Optimization (DPO)

DPO(Direct Preference Optimization, 직접 선호 최적화)의 핵심 아이디어는, ‘RLHF보다 훨씬 간단한 대안을 제시해보자’ 하는 겁니다.

Stanford 대학과 CZ Biohub의 연구자들이, 아래와 같은 방식으로 RLHF의 복잡한 과정을 생략할 수 있는 방법을 찾아냈습니다:

별도의 보상 모델(Reward Model)을 생략
강화학습 자체를 아예 사용하지 않음

어떻게 이런 게 가능할까요?

DPO는 사람의 선호도(Human Preferences)를 기반으로 해서, 훨씬 간단한 손실 함수(Loss Function)를 이용해서 모델을 직접 훈련합니다.

기술적으로 말하면, DPO는 변수 치환(Change of Variables) 기법을 사용해서, 기존의 보상 함수에 대한 손실(Loss)을 바로 언어 모델 자체(정책 모델, Policy Model)에 대한 손실로 변환합니다. ‘변수 치환’이라는 건, ‘보상 함수’를 계산하는 대신, 그 정보를 직접 모델의 학습 목표로 바꿔버리는 수학적인 기법이구요.

더 쉽게 설명하자면, 좋은 답변과 나쁜 답변을 비교해서, 모델이 더 나은 답변을 선택하도록 유도하는 방식입니다.

DPO는 어떻게 작동하는가 - 단계별로 봅시다

1. 데이터셋 준비

먼저, 사람의 피드백으로 구성된 데이터셋을 준비합니다. 각각의 데이터 항목은 다음과 같은 정보를 포함합니다:

하나의 프롬프트(Prompt)
두 개의 모델 응답 y₁과 y₂
그리고 어느 응답이 더 나았는지를 나타내는 레이블 (예: 사람이 더 선호한 응답을 yw = "승자(winner)", 덜 선호한 응답을 yl = "패자(loser)"로 표시)

2. 두 개의 모델 구성

참조 모델(πref):
파인튜닝 전에 고정된 상태(Frozen)의 모델로, 베이스라인 역할을 합니다.
학습 가능한 모델(πθ):
사람의 선호를 더 잘 따르도록 업데이트할 대상 모델입니다.

결국, 목표는, πθ 모델이 사람이 선택한 응답을 선호하도록 훈련하되, 베이스라인 모델(πref)에서 너무 멀어지지 않도록 하는 것입니다.

3. DPO 손실 함수를 통한 모델 훈련

DPO는 재매개화 기법(reparameterization)을 사용해서, 선호 모델을 정책(Policy) 기반의 수식으로 다시 표현합니다. 여기서 재매개화란, 직접 계산하기 어려운 값을 모델이 학습 가능한 형태로 바꿔주는 수학적 변환 기법입니다. 즉, 사람의 선호도를 보상 함수로 따로 계산하지 않고, 모델의 정책 자체에 바로 반영할 수 있도록 수식을 변환하는 것이죠.

이 알고리즘에서 실제로 일어나는 과정은 다음과 같습니다:

참조 모델을 기준으로, πθ가 yw(승자)를 yl(패자)보다 더 선호할 상대적 확률 (Log Ddds)을 계산합니다.
이 값을 시그모이드(Sigmoid) 함수에 통과시켜서, 모델이 승자 응답을 선택할 확률값으로 변환합니다.
마지막으로, 음의 로그 우도(Negative Log-likelihood)를 사용해서 이걸 이진 분류 손실(Binary Classification Loss)로 만듭니다. 이 손실은 모델이 “승자” 응답을 “패자”보다 더 선호하게끔 학습 방향을 유도합니다.

여기서 β(beta)는 업데이트의 날카로움(정도)을 조절하는 온도 하이퍼파라미터(Temperature Hyperparameter)로, 모델의 학습 반응이 얼마나 민감하게 바뀔지를 결정합니다.

Image Credit: DPO 오리지널 논문

전체적으로 볼 때, DPO 손실 함수의 그래디언트(기울기)는 아래와 같은 방향으로 모델을 학습시킵니다:

사람이 선호한 응답의 확률은 더 높이도록 유도하고
덜 선호된 응답의 확률은 더 낮추도록 유도합니다

그리고 업데이트의 강도(Intensiveness)는 모델이 얼마나 틀렸는지에 비례합니다. 즉, 모델이 명확하게 잘못된 응답을 했던 예시일수록, DPO는 그 예시에서 더 많은 학습 신호를 얻어냅니다. 왜냐하면 그런 사례들이야말로 가장 유용한 훈련 정보를 제공하기 때문이죠.

이 접근법은 보상 모델을 따로 정의하거나 학습할 필요 없이, 정책 자체를 직접 최적화해서 모델이 사람의 선호에 맞게 동작하게 만듭니다.

결국 이 방식에서는, 언어 모델 그 자체가 마치 보상 함수를 암묵적으로 학습하는 것처럼 작동합니다.
이 작업이 분류(Classification) 문제에서 사용하는 손실 함수처럼 최적화하는 방식을 통해 이루어지는 거구요.

DPO는 효율성과 단순함을 동시에 추구하는 정렬 기법으로, 특히 대규모의 모델 훈련에서 아주 실용적으로 활용할 만한, 검토할 만한 선택지로 떠오르고 있습니다.

DPO가 RLHF보다 더 나은 이유

DPO는 수학적으로 정교한 방식으로 모델을 효율적으로 학습시킨다는 점에서, 직접적인 수학적 트릭의 효과를 보여주는 기법이죠. DPO가 제공하는 주요 장점은 다음과 같습니다:

복잡한 강화학습 루프가 필요 없습니다.
별도의 보상 모델도 필요 없습니다.
수학적으로는 보상 최적화와 동등한 효과를 내지만, 훨씬 더 간단하고 안정적입니다.
효율성 측면에서, DPO는 선호도 데이터(Preference Dataset) 하나와 하나의 모델만 있으면 학습이 가능합니다.
그리고 가장 중요한 건, 요약(Summarization), 대화(Dialogue), 감정 제어(Sentiment Control) 같은 많은 작업에서 RLHF보다 동등하거나 더 나은 성능을 보인다는 점입니다.

실제 성능 결과를 보면, DPO는:

요약 작업에서 61%의 승률을 기록해서, PPO의 57%를 능가했습니다.
이전에 학습하지 않은 새로운 데이터를 테스트했을 때도, PPO보다 더 뛰어난 일반화 성능을 보였습니다.
감정 생성(Sentiment Generation) 작업에서는 보상과 유사성 간 균형을 가장 잘 맞추는 결과를 보였습니다.
가장 중요한 지표 중 하나로, 사람들이 DPO의 출력 결과를 PPO보다 더 선호한 비율이 58% 대 17%였습니다.

이렇게 DPO는 사람의 선호도에 맞춘 정렬 훈련을 단순화하는 데 큰 역할을 하지만, 물론 아직까지 완벽하게 처리하지 못하는 과제들도 있습니다.

DPO의 현재 한계점

DPO는 몇 가지 명확한 한계점도 가지고 있습니다:

학습 도중에 새로운 피드백을 수집할 수 없습니다. DPO는 이미 존재하는 선호도 데이터에만 기반해서 학습하기 때문에, 탐색(Exploration)이나 상호작용을 기반으로 한 업데이트(Interactive Updates)는 할 수 없습니다.
명시적인 보상 모델(Reward Model)을 학습하지 않기 때문에, 특정 작업에서 학습된 ‘보상 논리’를 다른 작업에 재사용하거나, 분석 대상으로 따로 분리해 활용하는 것은 어렵습니다.
DPO가 학습하는 선호도 데이터가 노이즈가 심하거나 일관성이 없을 경우에는, 모델 성능이 불안정해질 수 있습니다.
PPO보다 사용하기는 쉬운 편이지만, 여전히 온도 하이퍼파라미터(β)나 샘플링 방식 설정에 따라서 결과가 달라질 수 있습니다.

이제 다음으로 소개할 기법은, ‘정렬(Alignment)’이라는 개념 자체에 대해 전혀 다른 철학을 가지고 접근하는 또 하나의 흥미로운 방법인데요, 한 번 같이 살펴보시죠.

RRHF: Reward-Rank Hindsight Fine-Tuning

RRHF(Reward-Rank Hindsight Fine-Tuning)는, 전통적인 RLHF 파이프라인에 대한 또 하나의 대안입니다. 이 방식은 명시적인 강화학습을 피하면서도 사람이 원하는 응답을 잘 만들어내도록, 정렬(Alignment)을 더 잘 하게끔 하기 위한 기법이라고 할 수 있을 텐데요.

이 기법은 알리바바 DAMO 아카데미에서 제안한 것으로, 정렬 문제를 모델이 생성한 응답들 간의 ‘순위 비교(Ranking)’ 문제로 재정의합니다. 또 PPO와 다르게, 여러 개의 모델을 사용할 필요가 없습니다.

이 방식이 실제로 어떻게 적용되는지, 한 번 간략히 살펴보겠습니다.

RRHF의 작동 방식과 흐름

Image Credit: RRHF 오리지널 논문

1. 여러 개의 응답을 수집하기

RRHF는 하나의 프롬프트나 질문(x)에 대해 k개의 서로 다른 응답(y₁, y₂, ..., yₖ)을 수집합니다.
PPO와 달리, RRHF는 반드시 자기 모델이 생성한 응답만 사용할 필요가 없고, 따라서 다음과 같은 다양한 출처에서 응답을 가져올 수 있습니다:

원래의 초기 모델
현재 학습 중인 모델
ChatGPT, GPT-4o 같은 다른 거대 언어 모델
사람이 직접 쓴 응답

2. 응답에 점수 매기기

각각의 응답은 두 가지 점수를 부여받습니다:

보상 점수(rᵢ):
사람의 피드백이나 보상 모델을 통해 얻습니다.
모델 점수(pᵢ):
현재 훈련 중인 모델이 해당 응답을 내부 확률에 기반해서 얼마나 그럴듯하다고 생각하는지를 나타냅니다. 이 점수는 응답에 포함된 각 단어의 로그 확률 값을 모두 더한 다음, 응답 길이로 정규화(Normalize)해서 계산합니다. (너무 짧은 답변이 부당하게 높은 점수를 받지 않도록 하기 위해서죠.)

3. 더 나은 답변을 선호하게끔 모델 훈련하기

RRHF의 목표는, 모델이 더 나은 응답을 우선적으로 선호하도록 가르치는 것입니다. 예를 들어, 보상 점수 rⱼ가 rᵢ보다 높다면, 모델 점수 pⱼ 역시 pᵢ보다 높게 나오도록 해야 합니다.

이를 위해서 순위 손실 함수(Lrank)라는 걸 사용하는데, 핵심 개념은 ‘모델이 더 나쁜 응답에 더 높은 점수를 준다면 페널티를 부여한다’는 겁니다.

이 방식은 모델이 사람의 피드백에 따라서 응답의 순서를 올바르게 학습하도록 유도합니다.

4. 약간의 지도 학습(SFT) 추가하기

모델이 가장 우수한 응답을 좀 더 깊이 학습할 수 있도록, 크로스 엔트로피 손실 함수도 함께 사용됩니다. 이 손실은 모델이 그 최상위 응답을 직접 모방하도록 푸시합니다.

결국 전체 손실 함수는 다음과 같이 구성됩니다: 총 손실 = 순위 손실(Lrank) + SFT 손실

정리를 해 보면, RRHF는 RLHF의 확장형 또는 변형으로 볼 수 있고, 아래와 같은 방식으로 다른 기법과도 연결될 수 있습니다:

단 하나의 ‘사람 응답’만 사용한다면, RRHF는 일반적인 감독 학습(SFT)와 동일하게 작동하는 셈입니다.
모델은 별도의 분류기를 사용하지 않고, 자신의 확률 계산을 이용해서 보상 모델처럼 작동할 수 있습니다.
기본적으로 RRHF는 사람의 선호도를 모델이 따르도록 훈련한다는 점에서 PPO와 유사하지만, 훨씬 간단한 방식으로 진행됩니다.

RRHF의 장점

앞서 소개한 DPO와 마찬가지로, RRHF도 자주 PPO와 비교될 수 밖에 없는데요. 이 PPO와의 경쟁 구도에서, RRHF는 아래와 같은 강점을 가집니다:

구현이 훨씬 간단합니다 – 표준 파인튜닝 방식에 약 30줄 정도의 코드만 추가하면 됩니다.
훨씬 가볍습니다 – PPO는 최대 4개의 모델을 필요로 하지만, RRHF는 1~2개의 모델만으로 작동하기 때문에 메모리 사용량이 훨씬 적습니다.
KL 발산(KL-Divergence) 패널티가 없습니다 – RRHF는 학습 도중이 아닌 사전에 샘플링을 수행하기 때문에, PPO에서처럼 KL 페널티를 계산할 필요가 없습니다.

더불어, RRHF는 성능 면에서도 주목할 만한 향상을 보여줍니다:

단일 턴 대화(Single-Turn Dialogue) 작업에서 최고 보상 점수 -0.96을 기록했습니다.
사람이 선호한 응답을 정확히 순위화한 비율은 61.75%로, 이는 일반적인 언어 모델이나 PPO보다 훨씬 높은 정확도입니다.
실제 평가에서도, RRHF로 학습된 모델의 응답을 사람 평가자들이 지속적으로 더 선호하는 모습을 보였습니다.

Image Credit: RRHF 오리지널 논문

RRHF의 한계점

물론, RRHF는 다음과 같은 한계점도 가지고 있습니다:

보상 모델의 품질과 신뢰도에 매우 크게 의존하는데, 이 보상 모델이 실제 사람의 선호도를 완전히 반영하지 못할 수도 있습니다.
학습 중에는 더 많은 GPU 메모리가 필요합니다 - 정상적인 워크플로우를 위해서 여러 개의 응답을 동시에 다뤄야 하기 때문입니다.
온라인 학습 환경에 RRHF를 적용하려고 할 경우에, 구조가 더 복잡해지고, 전체 시스템이 더 불안정해질 수 있습니다.
다른 RLHF 방식들과 마찬가지로, ‘보상 해킹(Reward Hacking)’의 함정에 빠질 가능성도 있습니다. 즉, 모델이 보상을 잘 받기 위해 실제로는 바람직하지 않은 방식으로 응답을 생성할 수 있다는 위험이 있습니다.

자, 그럼, 이제 ‘아주 흥미로운 아이디어’로 고안된 마지막 기법으로 넘어가 볼까 하는데요. 그 아이디어는 바로 이겁니다:

사람의 선호도를 중시하는 정렬(Alignment) 작업마저도, 더 큰 효율을 위해서 사람을 AI로 대체할 수 있다.

어떤 분들은 이렇게 생각할지도 모릅니다: “사람 중심의 정렬이라면서, 인간 데이터 없이 어떻게 가능한가?”

하지만 그에 대한 답이 아래에 있습니다.

RLAIF: Reinforcement Learning from AI Feedbabck
– 사람을 AI로 대체하다

우리 모두, 이미 알고 있습니다 — 특히 최근에 다룬 Human-in-the-Loop 방식의 합성 데이터 생성에 대한 글을 통해서 더욱 분명해졌죠. 바로, ‘고품질의 데이터를 사람이 직접 만들어서 수집하는 일은, 아주 느리고 비용이 많이 든다’는 사실 말입니다.

그래서 많은 연구자들이 이 과정을 AI로 대체하거나 보조하려는 시도를 하고 있습니다.

그렇다면 이런 질문이 생깁니다: “RLHF 같은 방식에서도, 사람 대신 AI가 피드백을 줄 수 있을까?”

바로 이 질문에 대한 답을 제시한 것이 구글 딥마인드가 제안한 RLAIF(Reinforcement Learning from AI Feedback, AI 피드백 기반 강화학습) 방식입니다.

Image Credit: RLAIF 오리지널 논문

사람의 피드백을 실제로 어떻게 AI로 대체했나

1. 적절한 프롬프트 구성 (Proper Prompting)

강화학습 파이프라인에서 사람 평가자(Human Annotator)를 대체하기 위해서, 연구자들은 특정한 작업에 특화되지 않은 범용 LLM(대형 언어 모델)을 사용했습니다. 이 모델은, 주어진 입력에 대해서 두 개의 응답 중 어떤 것이 더 나은지를 선택하도록 프롬프트(Prompt)를 통해서 지시를 받습니다.

하지만 이 방식의 효과는 프롬프트가 얼마나 잘 구성되어 있는지, 그리고 모델이 자신의 선호도를 얼마나 신뢰성 있게 표현할 수 있는지에 따라 달라집니다. 그래서 프롬프트에는 다음과 같은 구성 요소들이 포함됩니다:

도입 문구(Preamble):
예를 들어 “어느 응답이 더 나은가요?”와 같은 지시 문장
Few-shot 예시 (선택 사항):
과거의 응답 예시와, 그 중에서 어떤 응답이 '승자(Winner)'였는지에 대한 설명
실제 작업:
새로운 입력과 두 개의 비교 대상 응답
종료 신호(Ending cue):
모델이 선택을 내릴 수 있도록 “Preferred Response =”와 같은 문구를 끝에 추가

모델은 이후 “1” 또는 “2”라는 답을 추론하고, 이 선택에 대한 확률 값을 통해 소프트 선호 점수(예: 응답 1에 60%, 응답 2에 40%)를 산출합니다. 이 수치는 모델이 어느 쪽 응답을 더 선호했는지를 수치적으로 보여줍니다.

또 응답 순서(Position)에 따른 편향을 줄이기 위해서, 연구자들은 각 비교 작업을 응답 순서를 바꿔서 두 번 실행했습니다. 그리고 두 결과를 평균해서 더 공정한 선호 점수를 만들었습니다.

2. CoT(Chain-of-Thought) 추론으로 AI의 판단 근거 설명 유도

모델이 판단을 내릴 때 천천히 사고 과정을 설명하도록 유도하면, 보다 정확한 판단과 응답이 나올 수 있습니다. RLAIF에서는 이런 CoT 추론 과정을 활용해서, 모델이 자신의 선택 이유를 설명하도록 유도함으로써, 더 사람에 가까운 판단과 선호를 이끌어냅니다:

먼저, 모델이 예를 들어 “응답 A가 더 정확한 이유는…”과 같은 판단 근거(Rationale)를 작성합니다.
그런 다음, 원래 작업 + 작성된 판단 근거를 다시 모델에 입력해서, 최종적인 선호 점수(Preference Score)를 생성하게 합니다.

이런 방식은 단순한 응답 선택을 넘어서, AI가 스스로 ‘이유를 설명하는 과정’을 통해서 사람과 유사한 판단을 내리게 한다는 점에서 중요한 역할을 합니다

Image Credit: RLAIF 오리지널 논문

3. 마지막 단계: 정책 모델 훈련 (Training the Policy Model)

이제 선호도 데이터(Preference Data)가 준비되면, 이 데이터를 활용해서 정책 모델(Policy Model)을 훈련하게 됩니다. 이 과정에는 두 가지 방법이 있습니다:

A. Canonical RLAIF

이 방식은 기존의 전통적인 RLHF 워크플로우를 AI 피드백으로 대체한 구조입니다:

AI가 생성한 선호도 정보(소프트 라벨, 예: [0.7, 0.3])를 기반으로 보상 모델(Reward Model, RM)을 훈련시킵니다. 이때 사용되는 손실 함수는 크로스 엔트로피 손실(Cross-Entropy Loss)입니다.
이렇게 훈련된 보상모델은 이후 정책 모델을 강화학습 방식으로 학습시키는 데 사용됩니다. 보상모델은 보상 함수(Reward Function) 역할을 하고, 정책 모델은 이 보상 모델로부터 높은 점수를 받도록 학습하게 됩니다.

B. 직접 RLAIF (Direct-RLAIF, d-RLAIF)

이 방식은 더 빠르고 단순해서, 보상 모델 자체를 사용하지 않는 구조로 설계되어서 보상모델을 계속 다시 훈련해야 하는 복잡성을 피하게끔 해 줍니다. 이 방식의 이름(d-RLAIF)이 말해주듯이, 정책 모델이 직접 AI로부터 피드백을 받으며 학습합니다.

훈련의 각 단계마다, 범용 LLM(대형 언어 모델)이 응답을 즉석에서 평가합니다. (즉, 훈련 도중 실시간으로 점수를 매깁니다)
이 LLM은 응답을 1~10점 척도로 평가합니다.
이렇게 얻은 점수는 확률 분포로 변환되고, 다시 –1에서 1 사이의 정규화된 보상 값(Normalized Reward)으로 바뀌어 정책 모델의 학습에 사용됩니다.

이렇게 RLAIF는 사람의 개입이 없이도 AI만으로 선호도 학습을 가능하게 만드는 시도로서, 그 중에서도 d-RLAIF는 훈련 간소화와 속도 향상에 중점을 둔 실용적인 대안으로 주목받고 있습니다.

Image Credit: d-RLAIF, RLAIF 오리지널 논문

RLAIF는 RLHF보다 더 뛰어난가

실험 결과에 따르면, RLAIF는 RLHF와 동등한 성능을 달성할 수 있고, 해로움(Harmlessness) 측면에서는 오히려 더 우수한 성능을 보였고, 훈련 비용은 10배 이상 절감할 수 있었다고 합니다.

Image Credit: RLAIF 오리지널 논문

하지만 진짜 흥미로운 건, d-RLAIF 기법에서 나타납니다: 요약(Summarization) 작업에서, RLAIF는 71%, 표준 RLHF는 73%의 성능을 보였지만, d-RLAIF는 SFT(Supervised Fine-Tuning)를 74%의 비율로 능가했습니다. 또 d-RLAIF는 Canonical RLAIF보다도 60%의 비율로 더 선호되는 모습을 보여줬는데요.

이게 무슨 의미일까요?

곰곰히 생각해 보면, d-RLAIF는 RLHF + AI 피드백에 DPO 개념까지 결합한 하이브리드 방식입니다. 즉, 두 가지의 정렬(Alignment) 철학에서 장점을 모두 취한 방식이라는 뜻입니다.

또 하나 주목할 점은, 피드백용으로 별도의 거대한 모델이 필요하지 않다는 것입니다. RLAIF는 훈련자(Trainee)와 훈련자(Trainer) 모델의 크기가 같아도 잘 작동합니다. 이건 특히 소형 모델들 - 또는 소형 모델로 사업이나 서비스를 하는 사업자들 - 에게 큰 의미가 될 수 있는데, 스스로 자신을 향상시킬 수 있는 가능성이 열리기 때문이죠.

RLAIF의 문제점들

물론, 이런 AI 기반의 정렬 방식에도 문제점이 분명히 있겠죠:

LLM이 생성한 선호도 결과는, 특정한 작업에서는 사람의 판단과 어긋날 수 있습니다.
모델의 성능은 프롬프트를 어떻게 구성하느냐에 따라 아주 민감합니다. CoT나 Few-shot 학습의 이점을 제대로 활용하려면 수작업으로 프롬프트 엔지니어링을 꼭 해야 합니다.
RLAIF 방식의 보상 모델은 시간이 지나면서 오래되어 쓸모가 적어질 수 있고, d-RLAIF는 추론(Inference)에 드는 비용이 상대적으로 비쌉니다.
작은 모델도 RLAIF의 혜택을 받을 수 있지만, 고품질의 피드백 레이블은 여전히 큰 모델이 더 잘 생성합니다.

그렇다면, 어떤 방법이 목적별로 가장 좋은 방법일까요?

맺으며

이번 글에서는, AI 모델을 사람이 중요하게 생각하는 가치와 선호도에 맞게 정렬하는 세 가지 방법을 다뤘는데요:

DPO (Direct Preference Optimization)
RRHF (Reward-Rank Hindsight Fine-Tuning)
RLAIF + d-RLAIF (Reinforcement Learning from AI Feedback)

결국, 중요한 질문은 이거 아니겠어요? - “어떤 방법을 언제 써야 하는 건가?”

🔹 DPO

가장 단순하고 효율적인 방법입니다. 보상 모델도, 강화학습도 필요 없습니다. 빠르고 안정적인 파인튜닝, 그리고 고품질 선호도 데이터가 이미 있는 경우에 가장 적합합니다. 단점은 탐색(Exploration)이 필요한 경우에 적용이 쉽지 않고, 별로 유연하지도 않다는 점입니다.

🔹 RRHF

비교, 그리고 최상위 응답을 모방하는 기법만으로 학습합니다. 다양한 유형의 응답을 다룰 수 있어서 아주 유연합니다. PPO처럼 4개의 모델을 쓰기 싫을 때, 대체제로 탁월합니다. 하지만 온라인 학습에는 다소 약점이 있습니다.

🔹 RLAIF / d-RLAIF:

사람 평가자가 없더라도 정렬 학습이 가능합니다. 특히 Chain-of-Thought 프롬프트와 궁합이 아주 좋아서, 그런 점에서 현재 Reasoning 중심의 모델 흐름과 잘 맞습니다. 보상 생성 자동화와 대규모 훈련에 적합하고, d-RLAIF는 사람의 개입이 적어도 RLHF에 거의 근접하는 성능을 보여줍니다. 하지만 AI를 피드백 주체로 쓸 경우에도, 사람의 감수(Human Curation)는 여전히 필요합니다.

이 세 가지 방법 모두, ‘사람의 선호도에 맞게 정렬한다’는 목적을 가진 기법의 ‘패밀리’의 일부입니다. 상황에 맞게 어떤 방법이 가장 잘 맞는지를 이해하고 활용하는 것이 핵심이겠죠.

어쩌면, 여기서 이야기한 3~4가지 방법이, 앞으로 더욱 사람의 가치에 가까운 AI를 만드는 초석이 될지도 모릅니다.

결국, 이 주제는 앞으로도 계속 중요한 주제로 논의될 수밖에 없습니다. 왜냐하면 AI는 사람과 함께 움직여야 하는 존재이고, 계속해서 우리와 같은 언어, 같은 가치를 공유해야만 하기 때문이죠.

보너스: 참고자료

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.

Topic #45: DPO, RRHF, RLAIF – RLHF보다 더 똑똑하게 AI를 인간에 맞춘다

가장 널리 사용되는 RLHF 방식의 대안으로 제안된 세 가지 LLM 정렬(Alignment) 기법들에 대해서 알아봅시다.

글을 시작하며

RLHF에 대해 조금 더 알아봅시다

Direct Preference Optimization (DPO)

DPO는 어떻게 작동하는가 - 단계별로 봅시다

1. 데이터셋 준비

2. 두 개의 모델 구성

3. DPO 손실 함수를 통한 모델 훈련

DPO가 RLHF보다 더 나은 이유

DPO의 현재 한계점

RRHF: Reward-Rank Hindsight Fine-Tuning

RRHF의 작동 방식과 흐름

1. 여러 개의 응답을 수집하기

2. 응답에 점수 매기기

3. 더 나은 답변을 선호하게끔 모델 훈련하기

4. 약간의 지도 학습(SFT) 추가하기

RRHF의 장점

RRHF의 한계점

RLAIF: Reinforcement Learning from AI Feedbabck– 사람을 AI로 대체하다

사람의 피드백을 실제로 어떻게 AI로 대체했나

1. 적절한 프롬프트 구성 (Proper Prompting)

2. CoT(Chain-of-Thought) 추론으로 AI의 판단 근거 설명 유도

3. 마지막 단계: 정책 모델 훈련 (Training the Policy Model)

RLAIF는 RLHF보다 더 뛰어난가

RLAIF의 문제점들

맺으며

🔹 DPO

🔹 RRHF

🔹 RLAIF / d-RLAIF:

보너스: 참고자료

Reply

RLAIF: Reinforcement Learning from AI Feedbabck
– 사람을 AI로 대체하다