- Turing Post Korea
- Posts
- LLM의 정렬(Alignment) 및 최적화 알고리즘 11選
LLM의 정렬(Alignment) 및 최적화 알고리즘 11選

AI 모델을 훈련하는 과정에서, 이후에 모델의 행동 (Behavior)을 우리가 원하는 목표에 합치시켜야 할 때, 모델이 정확한 답변을 하고, 추론을 잘 하고, 안전하게 사용자의 선호도에 맞춘 응답을 하도록 하는 특별한 알고리즘을 활용하게 됩니다. 실제로, 모델이 사용자에게 얼마나 쓸모있느냐 - 유용하냐 - 는 ‘학습 이후 최적화’에 달려있기도 한데요.
오늘, 중요한 최적화 알고리즘 - 고전적인 것들 + 새로운 것들 - 을 한 곳에 모아 봤습니다:
PPO (Proximal Policy Optimization)
새로운 정책이 기존 정책과 너무 많이 달라져서 모델의 행동이 너무 멀리 벗어나는 걸 방지하기 위해서 ‘확률 비율’을 제한합니다. 모델이 안정적으로 작동하도록 도움을 줍니다.DPO (Direct Preference Optimization)
비 강화학습 기법으로, 언어모델 자체가 암묵적인 보상 모델 역할을 합니다 - 즉, 언어 모델이 사용자의 선호도에 따라서 ‘알아서’ 선호되는 답변의 생성 확률을 높이기 위해서 간단한 손실 함수를 사용합니다.GRPO (Group Relative Policy Optimization)
입력값에 대해서 여러 개의 출력값 (그룹)을 비교해서, 상대적인 순위에 따라서 정책을 업데이트하는 강화학습 방법입니다. 구조 상 별도의 비평 모델이 필요없습니다. 이 기법의 최신 응용 방식은 Flow-GPRO라고 하는데, 플로우 매칭 모델이 온라인 강화학습을 추가한 형상입니다.DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization)
모델이 유연하게 답변을 탐색하도록 하기 위해서 ‘클리핑 경계’를 분리해 내고, 4가지 주요 기법을 도입합니다: 모델이 적절하게 새로운 탐색을 해 보도록 하는 Clip-higher, 그래디언트 업데이트를 보장하기 위한 다이나믹 샘플링, 긴 출력값에서도 모든 부분이 균형있게 학습되도록 하는 토큰별 학습, 길어서 잘린 답변도 처리할 수 있도록 하는 초과 길이에 대한 Reward Shaping이 그 4가지입니다.Supervised Fine-Tuning (SFT)
많은 경우에, 사전 학습을 마친 후 무조건 첫 단계로 진행되는 사후 학습 기법입니다. 높은 품질로 만들어진, 사람이 만든 입력-출력 쌍의 데이터셋을 사용해서 파인튜닝을 합니다.Reinforcement Learning from Human Feedback (RLHF)
사전 학습 후에 대부분 가장 기본적으로 적용하는 방법으로, 사람이 직접 작성한 고품질 질문-답변 쌍을 모델에게 보여주면서 학습을 시킵니다.Monte Carlo Tree Search (MCTS)
현재 상황에서 여러 가지 가능한 추론 경로를 시뮬레이션하고, "이 경로가 좋을까? 아니면 저 경로가 좋을까?"를 균형 있게 탐색합니다. 새로운 가능성을 탐색하는 것, 그리고 이미 좋다고 알려진 방법을 활용하는 것 사이의 균형을 맞추어, 더 나은 결정을 내릴 수 있게 도와줍니다.AMPO (Active Multi-Preference Optimization)
다양한 학습 기법을 조합한 접근법입니다. 모델이 현재 정책대로 생성한 다양한 응답들 중에서, 품질과 스타일 면에서 다양한 소규모 샘플을 선별합니다. 이때 아주 좋은 응답 뿐만 아니라 그렇지 않은 응답도 포함해서, 모델이 품질의 다양한 수준을 구분할 수 있게 합니다. 마치 학생에게 다양한 수준의 예시를 보여주면서 "이건 좋은 답안, 이건 개선이 필요한 답안"이라고 가르치는 것과 비슷합니다.SPIN (Self-Play Fine-Tuning)
모델이 자기 자신과의 '대결'을 통해서 학습하는 셀프 플레이 방식입니다. 모델이 생성한 현재의 응답을 스스로 이전에 생성했던 응답이나 사람이 작성한 예제와 비교해서 더 나은 방향으로 개선합니다.SPPO (Self-Play Preference Optimization)
게임 이론의 개념을 활용하는 방식으로, AI 모델의 학습을 두 플레이어 간의 게임으로 생각합니다. 모델은 자기 자신을 상대로 경쟁하며, "이 답변이 저 답변보다 낫다"는 선호도 비교를 통해서 지속적으로 결과물을 개선합니다. 최종적인 목표는 내쉬 균형(어느 쪽도 일방적으로 전략을 바꿀 이유가 없는 상태)에 도달하는 것으로, 모델이 일관되게 최적의 응답을 생성할 수 있는 상태를 의미합니다.RSPO (Regularized Self-Play Policy Optimization)
이 방법 역시 모델이 자기 자신과 대결하면서 학습하는 셀프 플레이 접근법인데, 훈련 과정이 불안정해지는 것을 방지하기 위한 정규화 기법을 추가했습니다. 기술적으로는 정방향 KL 발산(모델이 너무 보수적이 되는 것 방지)과 역방향 KL 발산(모델이 너무 모험적이 되는 것 방지)을 선형적으로 조합해서 최적의 균형점을 찾습니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply