• Turing Post Korea
  • Posts
  • 최신의 PO(정책 최적화) 기법 10選

최신의 PO(정책 최적화) 기법 10選

AI 모델, 스스로 만들어낸 출력값이 좋은 것인지 그렇지 않은지에 대한 피드백을 받는 게 아주 중요합니다. PO(Policy Optimization; 정책 최적화)를 통해서 모델의 행동에 대한 사용자의 선호도, 그리고 보상이 실제 모델에게 의미있는 훈련의 신호를 주게 되죠.

이 분야는, PPO, GRPO 등 기존의 다양한 방법론을 훨씬 뛰어넘으면서 빠르게 진화하고 있는 분야입니다. 오늘 트위터 라이브러리에서는, 최신의 PO 기법 10가지에 대해 간략히 소개해 보고자 합니다:

  1. Pref-GRPO
    이미지 생성 AI를 안정적으로 학습시키는 방법. 쌍으로 된 선호도 보상(pairwise preference rewards)을 활용하고, UNIGENBENCH라는 통일된 벤치마크를 사용해서 안정성을 높입니다.

  2. PVPO (Policy with Value Preference Optimization)
    사전 훈련된 모델을 '기준점(Reference Anchor)'으로 삼아서 편향을 줄이고 학습을 돕는 방식입니다. 데이터에서 가치가 높은 사례를 미리 선택해서 학습에 활용합니다.

  3. DCPO (Dynamic Clipping Policy Optimization)
    Dynamic clipping을 이용해서 토큰(token)별로 확률 제한을 다이나믹하게 조절, 탐색 성능을 높여줍니다. 또, 보상 표준화(smooth reward standardization)를 통해서 학습 단계마다 보상의 균형을 맞춰 쓸데없는 업데이트를 막습니다.

  4. ARPO (Agentic Reinforced Policy Optimization)
    외부 도구를 사용하는 다단계(Multi-turn) 대형 언어 모델 에이전트를 최적화합니다. 엔트로피 기반 적응형 롤아웃을 사용해서 도구를 사용한 이후의 탐색을 효율적으로 하게 하고, 어드밴티지 어트리뷰션이라는 방법으로 각 단계에 적절한 보상을 할당, 적은 자원으로도 효율적으로 도구를 사용하게 합니다.

  5. GRPO-RoC (Group Relative Policy Optimization with Resampling-on-Correct)
    롤아웃(rollout)을 과도하게 샘플링한 후, 다양성을 유지하기 위해 잘못된 답안은 그대로 두고 가장 우수한 정답만 재샘플링하는 방법입니다. 불필요한 노이즈를 줄이고 코딩 환경에서 더 강력한 추론 능력을 확보할 수 있습니다.

  1. TreePO
    순서(sequence) 생성을 '트리 검색(tree search)'처럼 다룹니다. 여러 추론 경로로 분기하고, 접두사를 재사용하고, 가치가 낮은 경로는 가지치기(pruning)해서 계산량을 줄이고 학습 효율을 높입니다.

  2. DuPO
    모델의 출력물을 가져와서 원본 입력의 숨겨진 부분이나 누락된 부분을 재구성하는 '이중 작업(Dual Task)'을 만듭니다. 이 재구성된 결과의 품질을 '자기 지도형 보상'으로 삼아서 번역이나 수학 추론 같은 작업을 학습하는 데 도움을 줍니다.

  3. TempFlow-GRPO
    플로우 기반 텍스트-투-이미지(flow-based text-to-image) 생성의 시간적 구조를 활용합니다. 궤적 분기를 통해서 주요 결정 지점에 보상을 할당하고, 노이즈 인식 가중치 방식을 사용해서 학습이 가장 영향력 있는 시점에 집중하게끔 합니다.

  4. MixGRPO
    확률적(SDE) 샘플링과 결정론적(ODE) 샘플링을 결합해서 훈련을 더 효율적으로 하게 합니다. 슬라이딩 윈도우(sliding window)를 사용해서 중요한 부분에만 GRPO 최적화를 적용함으로써 계산량과 훈련 시간을 최대 71%까지 단축시킵니다.

  5. MaPPO (Maximum a Posteriori Preference Optimization)
    DPO(Direct Preference Optimization)를 개선한 방법입니다. 사전 보상 지식(prior reward knowledge)을 훈련 목표에 추가해서 정렬(alignment)을 최대 사후 확률(MAP) 문제로 접근합니다. 이로 인해서, 추가적인 하이퍼파라미터 없이도 더 정확한 선호도 학습이 가능해 집니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요

Reply

or to participate.