- Turing Post Korea
- Posts
- 9가지 새로운 '정책 최적화' 기법
9가지 새로운 '정책 최적화' 기법

강화학습(RL), 이제 더 이상 예전처럼 PPO에만 머물러 있지 않죠. 불과 지난 두 달 사이에 연구자들이 LLM, VLM, 에이전트가 학습하는 방식, 파인튜닝하는 방식을 완전히 바꿔버리는 새로운 강화학습 기법들을 선보였습니다.
오늘은 한 번 알아둘 만한 최신의 ‘정책 최적화(Policy Optimization)’ 기법 9가지를 소개합니다:
GSPO: Group Sequence Policy Optimization
GRPO와 비교해서 전체적인 맥락을 더 잘 포착하고 안정성을 높이기 위해서, 토큰 수준이 아닌 시퀀스 수준에서의 최적화, 클리핑, 보상으로 전환하는 방식입니다. GSPO-token 변형 기법으로는 토큰 수준의 파인튜닝도 할 수 있습니다.LAPO: Length-Adaptive Policy Optimization
이 기법은 모델이 추론의 길이를 적절하게 상황에 맞게 조절하도록 훈련하는 2단계 강화학습 프레임웍입니다. 일반적으로 필요한 해결책에 소요되는 추론의 길이를 학습해서, 더 짧고 효율적인 추론을 실행할 수 있게끔 합니다.HBPO: Hierarchical Budget Policy Optimization
이 방법은 문제의 복잡도에 따라 추론 깊이를 조절하도록 모델을 학습시킵니다. 학습 샘플을 토큰 예산(Token Budget)이 다른 하위 그룹으로 나누고, 예산 인지 보상(Budget-Aware Reward)을 통해서 작업의 난이도에 맞게 추론에 드는 자원을 맞춥니다.SOPHIA: Semi-off-policy reinforcement learning
Vision Language Model(VLM)의 On-Policy(현재 정책 기반) 시각 이해와, 언어모델(LM)의 Off-Policy 추론을 결합합니다. 결과 기반으로 보상을 부여하고, 시각적인 보상을 추론 단계 전반에 걸쳐서 역방향으로 전달합니다.RePO: Replay-Enhanced Policy Optimization
LLM의 On-Policy 강화학습에 리플레이 버퍼를 도입해서, 각각의 프롬프트에 대해 다양한 Off-Policy 샘플을 검색해서 학습 데이터를 확장합니다.CISPO: Clipped Importance Sampling Policy Optimization
MiniMax-M1 프로젝트의 이 강화학습 알고리즘은 토큰별 업데이트 대신 중요도 샘플링 가중치(Importance-Sampling Weights)를 클리핑합니다. ‘드물지만 중요한’ 토큰도 학습에 기여할 수 있고, 토큰 수준의 클리핑을 피할 수 있습니다. 또, KL 패널티 없이 GRPO와 유사한 Group Relative Advantage를 사용합니다.PAPO: Perception-Aware Policy Optimization
시각-언어(Vision-Language) 작업에서의 강화학습 성능을 높이기 위해서, GRPO 목표 함수에 KL 기반으로 Perception Loss를 추가합니다. Vision Alignment를 향상시켜 주고, 정확도를 4~8% 높이고 인식 오류를 약 30% 줄여 줍니다.OPO: On-Policy RL with Optimal Baseline
마이크로소프트에서 제안한 단순화된 강화학습 알고리즘으로, 매번 업데이트마다 현재 정책에서 새로 샘플링한 출력만 사용하는 엄격한 On-Policy 학습을 하게끔 합니다. Off-Policy 드리프트를 최소화하고, 그래디언트 분산을 줄여 줍니다.EXPO: Expressive Policy Optimization
복잡한 정책을 학습하기 위해서, 대형의 베이스 모델과 경량화된 Edit Policy를 페어링해서, 더 나은 행동을 제안할 수 있게끔 합니다. 베이스 모델에 역전파(Backpropagation)는 하지 않습니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply