• Turing Post Korea
  • Posts
  • Topic #40: DeepSeek-R1의 비밀 레시피, GRPO, 그리고 Flow-GRPO를 알아봅시다.

Topic #40: DeepSeek-R1의 비밀 레시피, GRPO, 그리고 Flow-GRPO를 알아봅시다.

DeepSeek-R1 혁신의 핵심인 GRPO, 그리고 플로우 모델과 RL을 결합하게 해 주는 Flow-GRPO에 대해서 공부해 봅시다.

글을 시작하며

‘혁신’이 꼭 ‘무(無)’에서 시작해야 하는 건 아니죠. 오히려 원래 알고 있던 기본적인 원리를 다시 생각해보는 데서 혁신적인 뭔가가 시작될 때가 많습니다.

올 초 전세계를 뒤흔들었던 DeepSeek의 GRPO(Group Relative Policy Optimization)는, 그런 점에서 전통적인 강화학습 기법인 PPO(Proximal Policy Optimization)를 새롭게 재해석한 흥미로운 접근법입니다.

GRPO는 DeepSeek-R1, DeepSeek-R1-Zero 같은 모델의 이면에 있는 핵심적인 구동 방식으로, 거대 언어모델(LLM)을 대상으로 강화학습을 최적화해서 할 수 있게 해 주고, 그래서 GRPO가 2025년에 가장 주목받는 AI 기술 중 하나로 떠올라 있습니다.

GRPO는 이미 널리 쓰이고 있던 ‘PPO의 대안’으로서 개발됐는데요. PPO는 가치 함수(Critic 모델)가 따로 필요해서, 메모리와 연산량이 2배 가까이 듭니다. 반면에, GRPO는 Critic 모델을 아예 없애고 모델이 스스로 만든 출력을 기반으로 학습을 하게끔 합니다. 덕분에 더 빠르고 효율적으로 학습할 수 있고, 특히 수학, 코딩처럼 복잡한 추론이 필요한 작업에서 뛰어난 성능을 보여줍니다.

DeepSeek-R1이 등장한 이후에, GRPO를 구현한 연구들이 쏟아졌고, 특히 최근엔 거기서 한층 더 진화한 Flow-GRPO도 등장했습니다. 이 기술은 이제 ‘이미지 기반의 Flow 모델’에도 GRPO 기법을 적용할 수 있게 해줍니다 - 다시 말해서, 텍스트뿐 아니라 비전의 영역까지 GRPO가 확장되고 있다는 뜻이죠.

이 글에서는 GRPO가 어떤 것이고 왜 특별한지, 어떻게 작동하는지, 그리고 Flow-GRPO를 예시로 해서 다양한 형태의 데이터 - 즉, 모달리티 - 에 어떻게 적용될 수 있는지 함께 알아보겠습니다.

오늘 에피소드에서는 아래와 같은 내용을 다룹니다:

GRPO가 필요했던 이유 - PPO의 한계

GRPO를 잘 이해하려면, 아마 GRPO와 비슷한데 경쟁 관계(?)에 있는게 뭔지 살펴보면 도움이 될 것 같습니다.

2017년에, 오픈AI에서 PPO(Proximal Policy Optimization)라는 강화학습 알고리즘을 공개했는데요. 이 알고리즘은 에이전트가 환경과 상호작용을 하면서 어떻게 ‘좋은 선택’을 할 수 있을지를 학습하도록 만드는 방식입니다. PPO의 목적은 간단해요 - 모델이ㅡ 출력을, 우리가 원하는 행동에 점점 더 잘 맞도록 정렬(Alignment) 시키는 겁니다. 오픈AI가 발표한 이후에 PPO는 로보틱스, 자율주행 시스템, 게임 플레이 에이전트 훈련 등 여러 분야에서 기본이 되는 강화학습 방식으로 자리잡았어요. 그 인기의 비결은 뭘까요?

핵심은 안정성(Stability)입니다. PPO는 에이전트의 행동 방식 (정책; Policy)를 개선하되, 한 번에 큰 변화를 주지 않고 조심스럽게 업데이트를 반복, 안정적으로 성능을 높여갑니다. 그 방식은 이렇습니다:

  • 데이터 수집 (Data Collection)
    에이전트가 환경 내에서 상호작용을 하면서 데이터를 수집합니다. 어떤 행동을 했고, 어떤 상태에 있는지, 어떤 보상을 받았는지를 저장해 둡니다.

  • 이득을 계산 (Advantage Calculation)
    PPO는 각각의 행동이 얼마나 ‘좋은 선택’이었는지 평가하기 위해서 Value Function을 사용하고, 이 때 실제 받은 보상에서 기대했던 보상을 뺀 값을 이득(Advantage)이라고 부릅니다. 여기서 GAE(Generalized Advantage Estimation)라는 기법으로, 단기 vs. 장기 보상을 적절하게 혼합해서 더 부드럽게 추정하게 됩니다.

  • 클리핑(Clipping)된 목적함수로 정책 업데이트
    PPO는 새로운 정책이 이전 정책보다 얼마나 더 나은지를 확률 비율로 비교하는데, 너무 급격한 변화는 위험하기 때문에 이 비율을 0.8~1.2 사이로 클리핑(Clipping) 합니다. 바뀐 정도가 너무 크면 무시하거나 보상을 제한하고, 변화가 성능에 부정적 영향을 줄 수 있으면 페널티를 적용합니다. 이 클리핑이 바로 PPO의 핵심 아이디어로, 업데이트가 안정적으로 되게끔 보장해 주는 장치입니다. 추가적으로, KL Divergence를 측정해서 정책이 너무 멀어지지 않도록 감시하기도 합니다.

  • 세 가지 목적(Objective)을 동시에 최적화
    PPO는 아래의 세 가지 항목을 한꺼번에 최적화합니다:

    • 클리핑된 목적 함수 —> 정책(Policy)의 개선

    • Value Function —> 보상 예측의 정확도 향상

    • 엔트로피 보너스 —> 탐색 행동의 유지

  • 여러 에포크(Epoch)에 걸쳐서 학습
    PPO는 전체 데이터를 여러 번 반복해서 학습합니다. 미니 배치로 데이터를 나누고, 경사 상승 (Gradient Ascent) 방식으로 정책(Policy)과 Value Network을 점진적으로 업데이트합니다.

  • 이 과정을 반복
    위의 과정을 계속 반복하면서 에이전트가 점점 스마트해지고, 더 효과적으로 목표를 달성할 수 있게 됩니다.

이 PPO의 워크플로우는 여전히 잘 작동하고, 수많은 시스템의 백본(Backbone) 역할을 하고 있지만, 훈련 단계에서 메모리가 비효율적으로 사용된다거나 연산 비용이 많이 증가한다는 치명적인 약점을 안고 있습니다. 그렇게 되는 이유는, PPO가 액터-크리틱(Actor-Critic) 구조라서, 정책(Policy) 네트워크 외에 가치 함수(Value, Critic) 네트워크를 별도로 학습시켜야 하기 때문인데, 이 Critic 모델이 보통은 Policy 모델과 크기가 비슷하거든요.

게다가 Critic의 학습 속도는 느리고, 일반화(Generalization) 성능도 떨어질 수가 있고, 특히 수학 문제 풀이처럼 긴 텍스트 과제를 다룰 때는 토큰 단위의 업데이트나 Value 추정이 제대로 작동하지 않을 수도 있습니다.

이런 여러 요소들이 맞물리면, PPO는 학습 과정에서 심각한 병목(Bottleneck)으로 작용하게 됩니다. 특히 지금 GPU의 메모리 효율이 그 어느 때보다 중요한 시대라는 점, 그리고 추론 단계에서의 연산량이 계속 증가하는 상황이라는 점을 고려하면, 훈련 단계에서 최대한 비용을 줄이는 게 전체 효율을 유지하기 위해서 아주 중요합니다.

그렇다면, 이 Critic 네트워크를 아예 없애고 더 효과적인 방식으로 대체할 수 있다면 어떨까요? 괜찮을까요?

이런 발상에서 출발해서, DeepSeek이 기존의 PPO를 대체할 새로운 강화학습 알고리즘, GRPO (Group Relative Policy Optimization)를 개발했습니다. 이 방식은 Critic 네트워크 자체를 완전히 제거합니다. GRPO는 2024년 4월 공개된 DeepSeekMath 논문에서 처음 소개되었는데, 그 핵심 아이디어는 절대적인 가치 평가 대신, 모델의 출력들을 ‘그룹 내에서 상대적’으로 평가하는 겁니다.

간단하지만 강력한 이 발상 덕분에:

  • 복잡한 추론 문제에 대해서 더 강한 학습 신호(Strong Learning Signal)를 만들 수 있고,

  • 별도의 Critic 네트워크를 훈련할 필요도 없고,

  • 전체 메모리 사용량도 크게 줄일 수 있습니다.

자, 그럼 이제 왜 GRPO의 이런 설계가 PPO보다 더 효과적이고 실용적인 해법인지 살펴보겠습니다.

GRPO는 어떻게 작동하는가?

GRPO가 실제로 어떻게 작동하는지 단계별로 살펴보면 다음과 같습니다:

  1. 기존의 정책 모델이 여러 개의 답안을 생성
    먼저 기존(구 버전) 정책 모델이 하나의 질문에 대해서 여러 개의 답안을 만들어 냅니다. 이 과정은 데이터를 풍부하게 만들기 위한 다중 샘플링 단계입니다.

  2. 보상 모델이 각각의 답안에 점수를 부여
    각각의 답안에 대해서 보상 모델 (Reward Model)이 점수를 매깁니다. 그런 다음, 이 점수들을 해당 그룹의 평균을 빼고, 표준편차로 나눠서 정규 분포 형태로 변환합니다. 이렇게, 한 개의 답안이 그룹 안의 다른 답안들과 비교해서 얼마나 더 나은지 (혹은 나쁜지)를 상대적으로 판단할 수 있습니다. 즉, 이건 절대적인 보상이 아니라 상대적 보상 (Relative Reward) 인 셈입니다.

  3. Value 함수 없이 Advantage(이득) 계산
    PPO에서는 보통 Value Function을 써서 Advantage를 계산한다고 말씀드렸는데, GRPO에서는 위 2단계에서 정규화한 보상값이 곧 각 답안의 Advantage(이득) 역할을 합니다. 이렇게 Critic 네트워크가 없이도 효과적인 학습 신호를 얻도록 한 것이죠.

  4. KL 페널티를 통해서 정책 드리프트 방지
    GRPO는 PPO의 핵심 아이디어인 클리핑(Clipping) 개념을 일부 이어받습니다. 단, GRPO에서는 KL Divergence를 보상에 적용하지 않고 손실 함수 (Loss)에 직접 더해서, 새로운 정책이 원래의 정책에서 너무 멀어지는 걸 방지하면서도 Advantage의 추정 과정을 단순하게끔 유지합니다.

요약하자면, GRPO는 Critic을 제거한 대신, 그룹 안의 상대적 평가와 간단한 KL 제약 조건만으로 모델의 학습을 유도하는 방식으로, PPO보다 훨씬 가벼우면서도 특히 복잡한 추론 작업에 더 유리한 구조를 제공해 줍니다.

Image Credit: DeepSeekMath 논문

덧붙여서, GRPO는 단순하게 Critic을 제거한 것에서 그치지 않고, 효과적인 학습을 위해서 몇 가지 중요한 트릭들을 더 활용합니다:

  • 출력 전체가 끝나고 나서만 점수를 부여
    기본적으로, GRPO는 출력 전체가 끝나고 나야만 하나의 점수를 부여합니다. 이 방식으로 전체적인 결과의 품질을 평가합니다.

  • 추론 과정의 각 단계별로 점수를 부여
    GRPO는 여기서 한 단계 더 나아가서, 출력 안의 각 추론 단계마다 점수를 부여해서, 중간 단계 추론이 얼마나 좋은 경로였는지도 판단할 수 있습니다.

  • 각각의 토큰에 대한 Advantage 계산 방식
    각각의 토큰에 대한 Advantage는 해당 토큰 이후에 나오는 미래 단계들의 점수를 모두 더한 값으로 계산해서, 모델이 좋은 추론 경로를 따라가도록 유도하는 효과를 봅니다.

  • Iterative GRPO - 보상 모델도 함께 발전
    훈련이 계속되면 LLM 자체가 더 똑똑해지기 때문에, 기존의 Reward 모델이 뒤쳐질 수 있는데, 이를 막기 위해서 보상 모델도 최신 LLM의 출력으로 재훈련합니다. 학습의 안정성을 위해서 과거 데이터의 10%는 재사용하고, KL 페널티 계산에 사용하는 레퍼런스 모델도 Policy와 함께 업데이트합니다.

결국, GRPO와 PPO의 차이는 ‘설계 철학의 차이’에 가깝습니다. PPO는 Critic을 따로 학습해서 베이스라인을 예측하고, GRPO는 현재의 Policy로 만들어진 여러 샘플들 간의 상대적인 비교로 베이스라인을 추정하는 거죠. 두 가지 기법 모두 Policy를 정렬하고 향상시키겠다는 목표는 같지만, GRPO는 불필요한 네트워크를 제거하고, 추론 중심의 작업에 더 잘 맞는 방식으로 진화한 버전이라고 보면 어떨까 합니다.

왜 GRPO가 좋은가?

GRPO가 처음으로 적용된 사례는, CoT(Chain-of-Thought) 방식의 수학 문제에 특화된 DeepSeekMath-Instruct 7B 모델의 파인튜닝 작업이었습니다. 이 때 GRPO를 활용해서 학습시킨 모델이 아주 놀라운 성과를 보여줬죠:

  • GSM8K 벤치마크에서 88.2%의 정확도

  • MATH 데이터셋에서는 51.7%의 정확도

이렇게 훈련한 DeepSeekMath-RL 7B더 큰 사이즈의 오픈소스 모델들 뿐 아니라, 상당수의 폐쇄형 모델들의 성능도 뛰어넘는 결과를 보여주면서, GRPO 기법의 뛰어난 성능을 증명했습니다.

Image Credit: DeepSeekMath 논문

결론적으로, GRPO는 기존의 PPO보다 훨씬 더 효율적인 강화학습 방식으로 자리를 잡아가고 있습니다. 그 비결은 바로 더 똑똑하게 설계된 학습 워크플로우이구요

여기서 한 번 GRPO의 중요한 장점들을 정리해 볼께요:

  • 가치 함수 (Value Function)가 필요없음
    별도의 Critic 네트워크 없이도 학습이 가능해서, 구조가 단순하고 메모리 사용량도 줄어듭니다.

  • 그룹 기반의 보상으로 계산이 훨씬 단순함
    출력값들 간의 상대적인 비교만으로 보상을 산출하기 때문에, 보상 함수의 설계와 계산이 PPO보다 훨씬 직관적이고 효율적입니다.

  • KL 페널티를 Reward가 아니라 Loss에 직접 적용
    PPO는 KL 페널티를 보상 신호에 넣지만, GRPO는 손실 함수에 바로 반영합니다. 그래서, Advantage 계산이 더 간단 명료하고, 오류 가능성도 줄어듭니다.

  • 메모리 절약 + 빠른 학습 = 비용 절감
    복잡한 Critic 네트워크가 없고 계산량이 감소하니, 전체적으로 더 빠르고 저렴하게 훈련할 수 있는 구조입니다.

  • LLM에 최적화된 설계
    GRPO는 처음부터 거대 언어모델 (LLM)을 염두에 두고 설계된 거라서, 실제 LLM 학습에서 실용성, 확장성이 뛰어납니다.

이런 장점들 때문에 DeepSeek에서도 계속해서 GRPO 알고리즘을 채택해서 사용했고, 그 결과로 등장한 DeepSeek-R1은 지금까지 등장한 수많은 LLM 중에서도 가장 뛰어난 추론 성능을 보여주는 모델 중 하나로 평가받고 있습니다.

구현 사례: DeepSeek-R1과 DeepSeek-R1-Zero

DeepSeek-R1의 성공은 GRPO를 단숨에 뜨거운 화제의 중심에 올려 놓았습니다. 이 알고리즘이, 강화학습 전략을 잘 설계하면 모델로부터 고차원의 추론 능력을 이끌어낼 수 있다는 걸 명확히 입증했으니까요.

특히 DeepSeek-R1-Zero는 SFT(Supervised Fine-Tuning)도 없이, 오직 강화학습(RL) 만으로 훈련시킨 모델이었는데, 놀랍게도 이 모델은 다음과 같은 창발적 행동(Emergent Behavior)을 보여줬습니다:

  • 자기 반성(Self-Reflection)

  • 응답 재평가(Re-Evaluation)

  • 긴 Chain-of-Thought(CoT) 추론

재미있는 건, DeepSeek-R1-Zero에서 사용된 GRPO는 학습된 보상 모델이 아니라, 규칙 기반의 보상(Rule-based Rewards) 을 적용했다는 건데, 중요한 규칙은 이런 것들입니다:

  • 정확도 보상(Accuracy Reward): 답변의 정답 여부 평가

  • 형식 보상(Format Reward): 정해진 응답 형식을 얼마나 잘 따랐는지 평가

물론, DeepSeek-R1-Zero에 몇 가지 한계도 있었습니다.

예를 들어서, 읽기 어려운 표현, 영어와 다른 언어가 섞인 혼란스러운 응답 같은 문제들인데요. 이 문제를 해결하기 위해서 DeepSeek은 더 정교한 학습 전략을 적용한 모델, 바로 전설적인 DeepSeek-R1을 공개했습니다.

이 모델은, SFT → GRPO → SFT → GRPO라는 4단계 학습 과정을 거쳐 완성됐습니다:

🔹 1단계: 콜드스타트 SFT

고품질의 긴 CoT 예제와 요약 데이터를 활용해서, 모델의 기본 추론 능력을 초기 세팅합니다.

🔹 2단계: GRPO 적용 – 추론 중심의 강화학습

여기서 정확도 보상 외에, 언어의 일관성 보상도 함께 적용해서 응답 내에서 서로 다른 언어가 혼용되는 문제를 방지합니다.

🔹 3단계: 리젝션 샘플링 기반 데이터 수집

모델이 생성한 다양한 응답 중에 우수한 것만 골라서 새로운 감독 학습 데이터셋으로 재구성합니다.

🔹 4단계: 최종 GRPO 라운드

이제 모델을 대상으로 추론 능력 뿐만 아니라 일반적인 상황에서도 정확도, 안정성, 유용성을 모두 만족하는 최종적인 강화학습을 수행합니다.

이런 학습 레시피를 통해서 탄생한 DeepSeek-R1은, 현재도 오픈소스 모델 중에서는 최상위권의 성능을 자랑하고, 심지어 폐쇄형 모델인 오픈AI의 o1-1217과도 맞붙을 수 있는 수준입니다.

Image Credit: DeepSeek-R1 오리지널 논문

하지만, GRPO는 이제 DeepSeek만의 전유물은 아니죠.

2025년 1월 DeepSeek-R1의 대성공 이후에, 다양한 연구팀들이 GRPO를 자사의 모델에 적극적으로 도입하기 시작했는데요, 그 결과 GRPO는 다양한 형태로 진화하고 있어요. 대표적인 확장 및 변형 사례들은 다음과 같습니다:

🧬 Hybrid GRPO

PPO와 GRPO의 장점을 결합한 형태로, GRPO처럼 하나의 상태(State)에서 여러 행동을 샘플링해서 상대적인 품질을 평가하지만, PPO의 Value Function을 유지해서 안정적인 학습 신호도 함께 제공합니다. 목표는 PPO보다 편향은 적고, GRPO보다 분산은 낮은 균형 잡힌 접근을 하겠다는 겁니다.

🎯 Multi-Objective GRPO

GRPO를 확장해서 모델이 여러 가지 목표에 동시에 맞춰 학습할 수 있도록 설계한 방식입니다. 예를 들자면, 안전성, 정중함, 유용성 등 다양한 측면을 각각 따로 점수화하는 멀티 보상 모델을 사용합니다.

 GRPO-LEAD

수학 문제에 특화된 GRPO의 확장 버전으로, 더욱 엄격한 제약 조건이 적용됩니다.

  • 짧고 정확한 답변을 선호하는 길이 기반 보상

  • 명확한 오답 패널티

  • 문제 난이도에 따른 가중치 조정

🎞️ DanceGRPO

GRPO를 비주얼 생성 과제, 특히 영상 생성 등에 적용한 사례입니다.

  • 이미지나 비디오 샘플들을 여러 개 생성하고,

  • CLIP 같은 휴먼 피드백에 기반한 보상 모델로 점수를 매긴 후,

  • GRPO 방식으로 상대적 Advantage를 계산해서 PPO처럼 클리핑된 방식으로 학습을 진행합니다.
    → 이 방식은 이진 보상이나 희소한 보상 환경에서도 잘 작동합니다.

🧠 UnifiedReward-Think

멀티모달 추론 (Reasoning) 성능 향상을 목표로 만든 GRPO 기반의 프레임웍입니다.

  • GPT-4o에서 추출한 CoT 데이터를 활용한 콜드 스타트,

  • 리젝션 샘플링으로 올바른 추론을 강화하고,

  • 마지막으로 GRPO로 잘못된 추론을 교정하는 3단계 학습 구조를 따릅니다.
    → 이때 GRPO는 검증 가능한 보상 신호를 활용해서 다양한 추론 경로를 탐색하게 합니다.

하지만, 누가 뭐래도 최근 GRPO의 변형이나 확장 기법 중에서 가장 주목받는 건 바로 Flow-Matching 기반 모델입니다.

Flow-GRPO는 무엇인가?

디퓨전 모델과 더불어서 플로우 매칭(Flow Matching) 모델도 고품질 이미지를 생성하는 데 아주 뛰어난 성능을 보여줍니다. 플로우 매칭에 대해서는 튜링 포스트의 이전 포스트를 참고하시구요:

하지만, 플로우 모델은 완전히 결정론적인 과정(Randomness가 없음)을 따르기 때문에, 전통적인 강화학습(RL) 과는 잘 맞지 않는다는 한계가 있었습니다 - 플로우 매칭 알고리즘의 특성 상 매번 같은 입력에 대해서는 항상 같은 출력이 나오지만, 강화학습에는 무작위성(Randomness)이 필요하다는 거죠.

이런 문제를 해결하기 위해서 CUHK MMLab, Kuaishou Technology, 난징대학교 등의 공동 연구팀이 함께, 마침내 플로우 모델에 온라인 강화학습을 접목시킨 새로운 방법, Flow-GRPO를 개발했습니다.

Flow-GRPO의 핵심 아이디어는 단순합니다: 모델이 이미지를 더 많이 생성할수록, 성능이 점점 더 좋아진다는 점에 착안한 거예요.

기존의 플로우 모델은 강화학습에 필수적인 무작위성(Randomness) 이 없기 때문에, 그 자체로는 RL 적용이 아주 어렵지만, 디노이징 과정을 ‘단계적 의사결정’ 과정으로 바라보면, 그 각 단계를 최적화하는 방식으로 RL을 도입할 수 있다는 통찰이 생긴 겁니다.

다시 말해서, 강화학습 기법을 활용해서 더 또렷하고 정확한 이미지를 생성하는 방법을 모델이 스스로 배울 수 있게 만든 게 Flow-GRPO의 핵심입니다.

Flow-GRPO는 두 가지 전략을 통해서 GRPO를 플로우 모델에 접목시킵니다:

Image Credit: Flow-GRPO 오리지널 논문

ODE → SDE 변환: RL을 적용하기 위한 무작위성의 도입

일반적으로 플로우 모델은 ODE(Ordinary Differential Equation, 상미분방정식) 기반의 결정론적(Deterministic) 프로세스를 사용합니다. 즉, 이미지의 생성 경로가 고정되어 있어서 무작위성이 없고, 그 결과 확률 계산도 불가능합니다. 이건 GRPO를 적용하려면 꼭 필요한 확률 및 KL Divergence 계산이 불가능하다는 뜻이죠.

Flow-GRPO는 이 문제를 해결하기 위해서, ODE를 SDE(Stochastic Differential Equation, 확률미분방정식) 으로 변환합니다.

작동 방식은 다음과 같습니다:

  • 각각의 생성 단계에 노이즈 항(Noise Term)을 추가합니다.

  • 이 노이즈는 제어된 방식으로 삽입되어서, 결과적으로 이미지의 전체 분포(= 마진 분포, Marginal Distribution)는 그대로 유지되지만, 모델은 이제 탐색이 가능해지고, RL을 활용해서 점점 더 개선될 수 있습니다.

이 방식으로 GRPO에 필요한 확률 계산과 KL Divergence 계산이 가능해집니다. 플로우 모델에 강화학습을 ‘쓸 수 있게 된 것’ 자체가 큰 전환점이라 볼 수 있습니다.

디노이징 축소(Denoising Reduction): 성능 저하 없이 학습 속도 개선

이미지를 생성하려면 수십 단계에 걸쳐서 디노이징 과정을 반복해야 하는데, 이건 계산 비용이 아주 큰 작업이죠. 그래서, Flow-GRPO는 학습 효율을 높이기 위한 특수한 트릭을 도입했습니다:

  • 훈련 중에는 디노이징 단계를 줄입니다 (예: 40단계를 10단계로 축소)

  • 테스트 및 추론(Inference) 시에는 전체 단계(40단계)를 모두 사용합니다

이렇게 하면 모델의 성능은 유지하면서도, 학습 속도는 빠르고 자원 소모는 적은 구조가 됩니다.

Flow-GRPO는 텍스트-이미지 생성 과제 (Text-to-Image Tasks) 에서 성능을 검증받았습니다.

  • GenEval 벤치마크 기준으로, 모델의 정확도가 63% → 95%로 대폭 상승하는 결과를 기록했습니다.

Image Credit: Flow-GRPO 오리지널 논문

결론적으로, Flow-GRPO는, 결정론적 플로우 모델에 강화학습을 실질적으로 적용할 수 있는 첫 솔루션이자, 텍스트-이미지 생성의 품질과 효율을 모두 끌어올릴 수 있는 강력한 도구로 자리매김하고 있습니다.

  • Flow-GRPO는 이미지 내 텍스트 표현(Text Rendering)에서도 정확도 59% → 92% (KL Regularization 적용 시), 정확도 59% → 93% (KL 없이)의 성능 향상을 보여, 이미지 속 글자가 훨씬 더 선명하고 명확하게 생성되었습니다.

  • Flow-GRPO를 적용한 SD-3.5-M 모델은 일부 비주얼 벤치마크에서 심지어 GPT-4o보다 더 우수한 성능을 기록했습니다.

  • 사용자 선호도 정렬 (Preference Alignment) 성능에 대해서도, KL을 적용했을 때 23.31점, KL을 적용하지 않았을 때 23.41점 (기존의 원본 모델은 21.7점)으로, GRPO을 적용하 후, 성능이 크게 향상된 것을 확인할 수 있습니다. KL Regularization이 출력의 다양성을 유지하기 위한 안전장치 역할을 하는 걸 알 수 있고, 따라서 성능 vs. 다양성 간의 균형을 어떻게 잡을 것인가가 중요한 설계 포인트입니다.

Image Credit: Flow-GRPO 오리지널 논문

  • 디노이징 축소 전략으로 훈련 시간은 기존 대비 무려 4배 빨라졌습니다.

  • 또 하나 주목할 건, 모델이 점수를 ‘속이면서’ 품질과 다양성을 희생하는 보상 해킹 (Reward Hacking) 현상이 발생하지 않았다는 점으로, 이건 RL 기반 학습에서 아주 의미있는 성과입니다.

하지만 Flow-GRPO를 비디오 생성 영역으로 확장하려면 몇 가지 과제가 남아 있습니다.

  • 영상용 보상 모델은 어떤 것이 효과적일까?

  • 사실감(Realism), 부드러움(Smoothness) 등 다양한 목표를 어떻게 효율적으로 최적화할 수 있을까?

  • 비디오 생성은 훨씬 더 많은 자원이 필요한데, 이를 어떻게 감당할까?

이런 질문들이 해결돼야 Flow-GRPO 기반의 비디오 생성이 본격화될 수 있을 텐데, 그게 바로 GRPO의 진화 방향이기도 합니다.

Flow-GRPO는 기본적으로 RL을 사용하지 않던 모델에도 GRPO를 성공적으로 적용, 확장할 수 있다는 걸 보여준 훌륭한 사례입니다. 특히 DeepSeek의 대표 모델인 R1의 성공 사례에서 보듯, GRPO는 효율적이면서도 잠재력이 큰 방식임을 입증했습니다.

GRPO의 한계

GRPO는 효율성과 성능 측면에서는 강력한 장점이 있는 방식이지만, 적용 대상과 맥락에 따라 명확한 한계와 주의점도 존재합니다:

  • 샘플 비효율성(Sample Inefficiency)

    GRPO는 그룹 기반 Advantage 계산법을 사용하기 때문에, 평균 이하의 보상을 받은 샘플들은 단지 기준선을 설정하는 데 쓰일 뿐, 실제로는 advantage가 거의 0 또는 음수로 처리됩니다. 그래서 이런 샘플들은 학습에 기여하는 Gradient 신호는 약하지만, 여전히 연산 자원은 소모하게 됩니다.

  • 보상 모델에 대한 의존성

    다른 RL 기반 파인튜닝 기법들과 마찬가지로, GRPO도 보상 함수 또는 보상 모델의 품질에 크게 의존합니다. 만약 보상 모델이 편향되어 있거나 결함이 있다면, GRPO는 그런 결함을 그대로 최적화하게 될 위험이 있습니다.

  • GRPO 단독 사용의 한계 - DeepSeek-R1-Zero의 사례

    DeepSeek-R1-Zero의 실험 결과는, GRPO를 단독으로만 사용할 경우 출력이 ‘사람 친화적’으로 유지되지 않을 수 있다는 점을 보여줍니다. 즉, 다른 학습 방식(SFT 등)과 적절히 혼합하는 것이 필요하다는 교훈을 주는 거죠.

  • 실시간 환경에서는 비효율적일 수 있음

    현실 세계의 환경이나 외부 시스템과 상호작용하는 RL 시나리오에서는 각 샘플의 결과가 고비용이거나 시간이 많이 소요될 수 있습니다. 이런 상황에서 GRPO처럼 한 번의 학습 스텝마다 다수의 샘플을 필요로 하는 방식실용성이 떨어질 수 있습니다.

맺으며

GRPO는, 비유하자면 ‘모델 내부에서 효율적인 학습 경로를 설계하는 영리한 알고리즘 마스터’와 같습니다. 오늘 에피소드에서는 이 알고리즘이 어떻게 작동하는지, DeepSeek이 제안한 기본 버전부터 시작해서 DeepSeek-R1 같은 혁신적인 모델에 어떻게 성공적으로 적용되었는지까지 다양한 구현 사례를 살펴봤습니다.

다양한 GRPO의 확장 사례들 중에 특히 Flow-GRPO 사례는 인상적입니다. 강화학습이 본래 적용되지 않는 구조의 모델에도 GRPO를 성공적으로 확장할 수 있다는 가능성을 보여줬기 때문이죠. 개발자들이 이런 시도를 계속 이어간다면, GRPO는 훨씬 더 많은 분야로 확장될 수 있을 겁니다.

또 하나 주목할 점은, DeepSeek-R1 사례에서 확인된 것처럼 GRPO는 SFT(Supervised Fine-Tuning)와 결합했을 때 훨씬 더 강력한 효과를 발휘한다는 점입니다. 이건 GRPO를 단독으로만 쓰는 게 아니라, 전략적으로 혼합하여 사용하는 방식이 앞으로 DeepSeek-R1 같은 돌파구를 만들어낼 열쇠일 수 있다는 힌트를 줍니다.

GRPO는 지금 이 순간에도 진화하고 있는 알고리즘이고, 그 활용 가능성은 이제 막 개화하기 시작했을 뿐입니다.

보너스: 참고자료

  1. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

  2. Proximal Policy Optimization Algorithms

  3. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

  4. Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification

  5. Flow-GRPO: Training Flow Matching Models via Online RL

  6. Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization

  7. Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach

  8. GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models

  9. S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

  10. DanceGRPO: Unleashing GRPO on Visual Generation

  11. Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

  12. Implementing GRPO in TRL

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.