- Turing Post Korea
- Posts
- 강화학습의 과거, 현재, 그리고 미래
강화학습의 과거, 현재, 그리고 미래
초기 강화학습의 중요 개념부터 RLHF, PPO, GRPO 등 오늘날 주목받는 강화학습의 다양한 혁신, 그리고 안드레 카파시와 리차드 서튼이 생각하는 미래의 AI 연구 방향
들어가며
강화학습, 이것만큼 ‘AI 101’ 시리즈에 어울리는 토픽이 있을까요?
최근의 AI 씬에서 빠지지 않고 언급되는 주제이기도 한 이 강화학습, 오랜만에 다시 한 번, 이 강화학습이 뭔지, 어떻게 발전해 왔는지, 앞으로의 변화 방향은 뭔지 한 번 간략하게 정리해 보려고 이 글을 준비했습니다.
사실, ‘강화학습(Reinforcement Learning, RL)’ – 즉, 에이전트가 시행착오를 통해 학습하는 개념 – 은 현대적인 AI의 핵심 요소로 자리잡기 훨씬 전부터 연구, 논의되어 온 토픽입니다. 강화학습의 아버지라고 불리는 리차드 서튼이 최근에 한 인터뷰로 또 다시금 화제가 되고 있기도 하구요. 이 인터뷰를 둘러씬 논의에 대해서는 따로 짧은 글을 하나 쓰기도 했으니, 관심있으시면 참고하시구요:
‘에이전트가 시행착오를 거쳐서 세상과 주변에 대해서 학습’하는 이 강화학습, 이게 앞으로 AI 산업에 어떤 가능성을 또 열어줄까요? 그 미래를 상상해 보려면, 과거로부터 현재에까지 이르는 흐름을 한 번 제대로 살펴볼 필요도 있을 것 같습니다.
그래서 오늘은 강화학습의 역사에서 중요한 마일스톤을 한 번 따라가면서 이야기를 해 보겠습니다. 수학적인 기초와 초기 접근법, TD(Temporal-Difference; 시간차) 학습, 액터-크리틱 기법(Actor-Critic Methods), 그리고 몬테카를로 기법(Monte Carlo Techniques) 같은 REINFORCE(현대 GRPO와 유사해서 요즘 다시 주목받고 있죠)를 거쳐서, 2010년대의 심층 강화학습 혁명, 현재의 광범위한 적용 사례까지 살펴보겠습니다. 사람의 피드백을 활용한 강화학습도 빼 놓을 수 없죠 - RLHF로 시작해서 PPO, GRPO도 간략히 살펴봅니다.
그리고, 강화학습의 미래에 대한 안드레 카파시와 리차드 서튼의 관점으로 글을 마무리해 보겠습니다.
오늘 에피소드에서는 다음과 같은 내용을 다룹니다:
강화학습, 그 가장 초기의 파운데이션
강화학습(Reinforcement Learning, RL)은, 초기에는 두 개의 별개였던 분야에서 시작되어서, 오늘날 수많은 연구자, 개발자들이 환호하는 하나의 큰 분야로 융합되었습니다:
시행착오 학습(Trial-and-Errror Learning; 심리학적 관점)은 두 개의 중요한 연구로부터 영감을 받았습니다:
에드워드 손다이크의 ‘효과의 법칙(Law of Effect, 1898)’
이 법칙은 “특정한 상황에서 만족스러운 결과를 가져오는 반응은 그 상황에서 다시 일어날 가능성이 높아지고, 불쾌한 결과를 가져오는 반응은 다시 일어날 가능성이 낮아진다”는 겁니다.조작적 조건화(Operant Conditioning, B.F. 스키너, 1930~1950년대)
손다이크의 연구를 바탕으로, 스키너는 자발적 행동이 그 결과에 의해 어떻게 형성되는지 보여주었습니다. 보상(강화, Reinforcements)을 따르는 행동은 반복될 가능성이 높아지고, 부정적인 결과(처벌, Punishments)를 따르는 행동은 줄어드는 경향이 있습니다.
손다이크는, 퍼즐 상자 속의 고양이들이 시행착오를 통해서 탈출하는 법을 배우는 실험으로 이걸 보여주었고, 스키너는 “스키너 상자(Skinner Box)”를 사용해서 동물들을 대상으로 한 통제된 실험을 해서 다양한 보상 일정(Reinforcement Schedules)이 행동에 어떤 영향을 미치는지 연구하면서 이를 발전시켰습니다.

Image Credit: 위키피디아
최적 제어(Optimal Control, 수학 및 공학)
이 영역은, 로켓을 유도하거나 자원을 관리하는 것처럼 ‘시스템을 가장 효율적으로 제어’하는 방법에 초점을 맞춥니다.
특히 두 번째 영역은 초기 뿐 아니라 현대적인 강화학습 방법론의 기초를 닦았다고 할 수 있을 텐데요. 지금부터 이 시작점을 살펴보죠.
다이나믹 프로그래밍과 MDP
강화학습이라는 긴 여정의 시작, 이 시작을 위해서 아주 강력한 수학적인, 그러면서도 프로그래밍적인 토대가 필요했습니다.
그리고 이 토대는, 1950년대 리처드 벨만의 다이나믹 프로그래밍(Dynamic Programming)과 최적 제어(Optimal Control)를 위한 벨만 방정식(Bellman Equations) 연구로부터 등장했습니다. 이 연구들로부터 “최적성의 원리(Principle of Optimality)”가 등장했는데, 이건 문제를 일련의 하위 문제로 나누어서 최적의 정책(Optimal Policies)을 계산하는 방법입니다.
러시아의 수학자 안드레이 마르코프가 1900년대 초에 소개한 마르코프 체인(Markov Chains) 개념과 결합되면서, 연구자들은 이후 마르코프 의사결정 과정(Markov Decision Processes, MDPs) 프레임워크를 개발했습니다. 간단히 이야기하자면, MDP는 불확실한 상황에서의 의사결정 과정을 포착합니다:
마르코프 속성(Markov Property)은, 다음 상태가 현재 상태에만 의존한다는 뜻입니다.
“결정 과정(Decision Process)”은, 행동이 다음에 일어날 일을 영향을 미친다는 것을 뜻합니다

Image Credit: Markov decision process (MDP), 위키피디아
강화학습에서 마르코프 결정 과정(Markov Decision Process, MDP)은 에이전트가 환경과 상호작용하는 방식을 모델링하는 아주 핵심적인 프레임워크입니다. 이 설정은 세 가지로 요약됩니다:
상태(States, 시스템이 있었던 위치)
행동(Actions, 시스템이 취한 행동)
보상(Rewards, 피드백으로 받은 결과로, 새로운 상태로 이어짐)

Image Credit: Adaptive RL-based Routing Protocol for Wireless Multihop Networks
여기서, 강화학습이 뭔가에 대한 하나의 형식적인 정의를 내릴 수 있습니다: 강화학습(Reinforcement Learning)은 시행착오를 통해서 모델이 의사결정을 배우도록 하는 기계학습(Machine Learning)의 한 분야라구요. 결국, 그 목표는 사전에 규칙을 알 수 없는 환경에서 효과적인 정책(Policy, 행동을 선택하는 방식)을 찾는 것입니다. 에이전트는 경험을 통해 배우는 것 외에는 아무것도 없고, 모든 것이 불확실합니다. 중요한 건 가능한 한 적은 시도로 보상을 최대화하는 최적의 정책을 배우는 것이구요.
이게 바로, 오늘날 우리가 이해하는 강화학습의 핵심 아이디어입니다. 바로, ‘시행착오 학습의 심리학’과 ‘최적 제어(Optimal Control)’와 관련된 수학적 기반을 결합해서 그 학습 과정의 토대를 만드는 거구요.
그렇다면, 이 개념을 처음 따랐던 초기의 강화학습 알고리즘들은 어떤 것들이었을까요?

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!
튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!
주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply