- Turing Post Korea
- Posts
- 10가지 최신 정책 최적화 기법
10가지 최신 정책 최적화 기법

정책 최적화(Policy Optimization, PO) 알고리즘은 선호도 기반 피드백(Preference-based Feedback) 으로 AI 모델을 훈련하는 핵심 기술입니다. 최근 몇 주 사이에, 널리 쓰이던 PPO와 GRPO의 한계를 개선하거나 대체하려는 새로운 PO 기법들이 다수 등장했는데요. 오늘은 그 중에 주목할 만한 10가지 방법을 소개합니다:
Balanced Policy Optimization (BAPO)
BAPO는 기존 PPO의 한계를 개선한 방식입니다.
훈련 중에 클리핑 범위를 다이나믹하게 조정해서, 긍정과 부정 그래디언트가 균형을 이루도록 합니다. 이렇게 해서, 한쪽으로 치우친 학습이나 엔트로피 붕괴(Entropy Collapse) 같은 문제가 줄어듭니다.Training-Free GRPO
이 방법은 숫자형으로 세팅된 보상이 없이 학습을 진행합니다. 모델이 여러 롤아웃(Rollout) 결과를 의미적으로 비교하면서 유용한 지식을 추출하고, 이를 토큰 프라이어 형태로 만들어서 추론 시 행동을 자연스럽게 유도합니다. 즉, 별도의 훈련이 없이도 의미 기반의 학습 효과를 내는 방법입니다.Asymmetric Importance Sampling Policy Optimization (ASPO)
ASPO는 LLM 학습에서 토큰별 가중 불균형 문제를 바로잡습니다. 긍정 토큰에 대한 중요도 비율을 반대로 적용해서, 과도하거나 부족한 업데이트를 교정합니다. 또 이중 소프트 클리핑으로 그래디언트를 안정화시켜 균형 잡힌 학습을 유지합니다.In-Context Steered Policy Optimization (ICPO)
ICPO는 모델이 스스로 가진 In-context 학습 능력을 이용해서 기존 데이터를 더 잘 활용하도록 합니다. Mixed-Policy GRPO와 Implicit Expert Forcing을 결합해서 탐색의 폭을 넓히고, Expert Region Reject Sampling과 Annealed Expert-Bonus Reward Shaping으로 전문가 데이터의 영향력을 안정적으로 제어합니다.Graph-Enhanced Policy Optimization (GEPO)
GEPO는 에이전트가 경험한 상태들을 그래프 구조로 연결합니다. 이 그래프를 통해서 상태 간 관계를 이해하고, 탐색 방향과 보상 분배를 더 효과적으로 조정합니다. 결과적으로 학습이 더 구조적이고 효율적이 됩니다.Information Gain-based Policy Optimization (IGPO)
IGPO는 모델이 스스로 업데이트하는 ‘Belief’의 변화량을 활용해서 보상 신호를 더 세밀하게 구성합니다. 이로써 다회차 학습이나 대화형 환경에서도 더 매끄럽고 안정적인 학습 곡선을 보입니다.Agentic Entropy-Balanced Policy Optimization (AEPO)
AEPO는 웹 에이전트처럼 복잡한 시스템이 훈련 도중 정책 붕괴(Collapse) 하는 현상을 방지합니다. 데이터 수집과 정책 업데이트 단계 모두에서 엔트로피 균형을 유지하고, 불확실한 단계에서는 그래디언트를 조정해서 정책이 한쪽으로 쏠리지 않게 합니다.Agent- and Turn-wise Grouped Reinforcement Policy Optimization (AT-GRPO)
AT-GRPO는 멀티 에이전트 LLM 시스템을 위한 강화학습 기법입니다. 각 에이전트의 역할과 대화 턴 단위로 그룹화하여 훈련시켜서, 각 에이전트가 자신에게 맞는 맥락 속에서
더 효과적으로 학습할 수 있습니다.Direct Group Preference Optimization (DGPO)
DGPO는 확산 모델(Diffusion Model) 전용 강화학습 방법입니다. 개별 샘플이 아닌 그룹 단위의 선호도 차이를 직접 학습하고, 빠른 결정적 ODE 샘플러를 사용해서 속도와 품질을 모두 확보합니다. 즉, 효율적이면서도 정교한 RL 접근법입니다.Entropy-regularized Policy Optimization (EPO)
EPO는 학습 단계별로 엔트로피를 조절해서 초기엔 탐색을 장려하고, 후반에는 안정적으로 수렴하도록 유도합니다. 탐색과 수렴의 균형을 잡아서 정책이 자연스럽게 정제되도록 합니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요
Reply