들어가며
“우리가 목표(Goal)나 목적(Purpose)이라고 부르는 모든 것은, 수신된 스칼라 신호(Scalar Signal) - ‘보상’이라고 부르는 - 의 누적 합(Cumulative Sum)의 기대값(Expected Value)을 극대화하는 것이라고 생각해 보면 잘 설명된다.”

강화학습 연구에 대한 공로로 2024 튜링상을 수상한, 리차드 서튼과 앤드류 바토
2025년 지금, 그게 수많은 군집 드론을 조종하는 것이든, 우리가 사용하는 캘린더의 일정을 조율하는 것이든 간에, 믿을 만한 AI 에이전트 스택(AI Agent Stack)이라면 오로지 ‘두 개의 숫자’에 의지해서 움직이고 있습니다: 바로 ‘보상(Reward)’과 ‘가치(Reward)’를 나타내는 숫자들이죠.
보상은, 시스템의 맥박과도 같은 겁니다. “이런 걸 더 많이 하라”고 이야기를 해 주는, 스칼라 신호(Scalar Signal)이예요.
가치는, 장기적인 예측입니다. 미래의 보상(Future Reward)에 대한 추정치로, 경험을 할 때마다 할인(Discounting)되고 갱신(Update)됩니다.
이 두 개의 숫자가 ‘무엇을 하느냐’ 뿐 아니라 ‘어떻게 학습하느냐’를 결정합니다.
이 두 가지의 개념이 새로운 것은 아니고 오히려 아주 기초적인 것들이기는 하지만, 그 중요성이 최근 들어서 엄청나게 높아졌다고 할 수 있습니다. 멀티모달 월드 모델(Multi-Modal World Model), 복잡한 멀티 에이전트 시스템(Multi-Agent System), 엄청난 규모의 오프라인 데이터셋(Offline Dataset), 그리고 실제 사용자들이 스트리밍하는 실시간 피드백(Live Streaming Feedback)이 일상이 된 이 시대에, 2023년이라면 그냥 넘어갔을지도 모르는 ‘보상 해킹(Reward Hacking)’이 이제는 바로 눈 앞에 닥친 위협이 되었거든요. 당신이 설계한 보상 함수(Reward Function)에 만약 허점이 있다면, 특히 멀티 에이전트 시스템 환경이라면, 에이전트가 그 허점을 몇 시간 내에 파고들지도 모릅니다.
개인적으로 한 가지를 덧붙이자면, 저는 ‘기계가 자각하게 된다는 것(Machine Sentience)’에 대해서는 부정적인 입장이지만, 사람이 만들어낸 보상(Reward)과 가치 함수(Value Function)의 복잡한 그물망이, 마치 ‘의식’처럼 보이는 행동을 만들어 낼 수 있다고는 봅니다. 그런 관점 때문에라도, 현대적인 보상 설계(Reward Design)가 정말 중요한 운영의 체계(Operational Discipline)으로 빠르게 변화하고 있는 것이겠죠. 시스템이 점점 더 복잡해지면서, 우리가 원래 의도한 가치(Intended Value)와 실제로 구현된 보상(Operationlized Reward) 사이의 간극 때문에 점점 더 정교한, 마치 기계가 뭔가를 이해하거나 선호하는 것처럼 보이는 행동을 만들어내게 됩니다.
만일 당신이 AI 에이전트를 설계하고 있다면, 보상 설계(Reward Design)는 가장 강력하면서도 가장 위험한 - 보상 해킹(Reward Hacking) 때문에요 - 도구라고 생각하셔야 합니다.
오늘은, 초심자에게는 에이전트의 맥락에서 ‘보상’과 ‘가치’가 어떤 역할을 하는지 이해하기 위한 입문 가이드, 숙련된 강화학습 전문가에게는 쓸만한 정리 자료의 역할을 했으면 좋겠다는 마음으로 글을 써 봅니다. 자, 함께 시작해 볼까요?
오늘 에피소드에서는 다음과 같은 내용을 다룹니다:
‘보상 설계’의 진화: 현대에 이르기까지의 여정
보상 신호(Reward Signal), 위에서 이야기한 대로, 언제나 에이전트를 훈련하는데 있어서의 ‘심장 박동’, ‘맥박’ 같은 것이었습니다. 지난 70년 동안, AI 영역에서는 기계가 뭔가를 ‘원한다(Want)’거나 ‘학습한다(Learn)’는 게 뭘 의미하는지를 탐구하고, 비틀고, 확장하고, 재해석해 왔습니다.
오늘날의 보상 메커니즘(Reward Mechanism)을 이해하려면, 아래의 표를 흝어보면서 지금에 이르기까지의 ‘보상’ 개념의 이정표를 따라가 보면 도움이 될 겁니다:

AI에서 ‘보상’을 바라보는 방식의 진화. Image Credit: 튜링 포스트 코리아
2025년, 왜 지금 보상 설계가 중요한가
‘AI의 보상 설계’라는 분야는 지금 일종의 전환점(Inflection Point)에 도달해 있습니다.
지난 수십 년 동안, 보상 설계(Reward Design)는 사실상 ‘학술적인 호기심’에 불과했다고 봐요 — 게임 플레이 에이전트(Game-Playing Agent)나 로봇의 단순한 작업(Simple Robotic Task)을 다루는 연구자들의 영역이었죠. 하지만 ChatGPT가 RLHF(Reinforcement Learning from Human Feedback; 인간 피드백 기반 강화학습)의 상업적 가능성을 보여주면서, 강화학습의 진화와 확산을 가로막는 병목(Bottleneck)이 ‘모델 크기(Model Size)’로부터 ‘보상 품질(Reward Quality)’로 옮겨갔습니다. 10년 전만 해도 보상 모델링(Reward Modeling)은 강화학습 코스의 한 개 강의 정도에서 다뤄진 토픽이었는데, 올해 봄에는 투자자들이 RLHF 서비스 시장의 규모만 해도 64억 달러로 평가하고 있고, 2030년까지는 그 규모가 두 배 이상 성장할 것으로 기대하고 있습니다.
기업들도 뼈아픈 교훈을 통해 깨닫게 되었죠 — 아무리 강력한 트랜스포머가 있어도, 목표가 잘못돼 버리면 아무 소용 없다는 것을요. 모델이 만들어내는 출력물의 품질(Quality)은, 바로 정확한 보상 신호(Reward Signal)를 설정하는 데 달려 있으니까요. 이제 앤쓰로픽 같은 회사들은 보상 모델링만을 전담하는 팀을 운영하고 있습니다. 보상 엔지니어(Reward Engineer)가 이미 새로운 프롬프트 엔지니어(Prompt Engineer)라고 불리는데, 이 사람들은 ‘좋다(Good)’는 게 실제로 뭘 말하는 건지를 수치로 표현하라는 임무를 받은 사람들입니다. 쉽지 않은 일이죠.
AI 보상 설계를 바꾼 세 가지의 결정적 변화
사람의 피드백 파이프라인(Human-Feedback Pipeline)이 성숙해짐
이전에는, 사람의 피드백에 기반한 강화학습, 즉 RLHF(Reinforcement Learning from Human Feedback)가 ‘작고 정해져 있는 선호도 데이터셋(Preference Dataset)에 의존을 했습니다. 그런데 이제는, 다단계의 주석(Multi-Stage Annotation), 지속적인 평가 루프(Continuous Evaluation Loop), 합성된 선호 생성(Synthetic Preference Generation) 기법 등을 사용해서 분기가 아니라 ‘매주’ 학습을 반복할 수 있게 됐죠.
이제 사용자 경험(UX) 가이드라인이나 안전성 제약(Safety Constraint)을 선호도 쌍(Preference Pair)이나 행동 추적(Behavior Trace) 데이터셋으로 변환한 다음에, 이에 따라서 결과물을 점수화하는 ‘지도학습 기반의 보상 모델(Supervised Reward Model)’을 학습시킵니다.
이런 과정은, ‘그 때 그 때 수작업으로 조정하던 작업’의 성격을 감사 가능(Auditable)한 공식적인 절차로 변화시켰습니다 – 이건 규제 기관이 ‘모델이 어떤 단어를 선택하는지’ 면밀하게 살펴보기 시작하면서 한층 더 중요한 요소가 되었죠.연구실 바깥의 현실로 나온 ‘에이전트’
2025년 우리가 듣고 이야기하는 ‘에이전트’, 이전처럼 ‘몇 가지 게임 플레이를 하는’ 에이전트가 아닙니다 - 공급망을 최적화하고, 주식 거래를 알아서 하고, 고객 지원 업무를 대신하는, 핵심적인 워크플로우를 운용하는 에이전트들로 확산되고 있습니다.
예를 들어서, 구글 딥마인드의 AlphaEvolve는 데이터센터의 배치나 칩 플로어플랜 설계를 위해서 코드를 계속해서 진화시키고, 그 보상 함수는 실제 에너지 요금이나 열역학적 제약 사항을 고려합니다. 목표를 잘못 정의한다면, 이제 그냥 낮은 점수를 주는 게 아니라 트럭의 경로를 잘못 설정하거나, 탄소 예산을 초과하거나, 증권거래위원회의 규정을 위반하는 결과로 이어질 수도 있습니다.
어느 순간 갑자기, 보상 설계(Reward Design)가 ‘보안’ 작업처럼 느껴지기도 하네요: 작은 실수 하나로 수백만 달러 손실을 볼 수도 있으니까요.수작업의 시대를 끝내버린 ‘스케일’
수천 개의 에이전트가 서로 다른 작업을 수행하는 걸 조율하면서, 각각의 환경마다 파라미터를 파인튜닝한다 - 아주 낭만적이죠. 그러나, 불가능합니다.
이제는 ‘보상 운영(Reward Ops)’ 플랫폼이 필요합니다. 이 플랫폼은 모든 보상-정책 쌍(Reward-Policy Pair)을 기록(Log)하고, 다양한 버전을 자동으로 벤치마크(Auto-Benchmark)하고, 드리프트가 발생했을 때 경고합니다. Agentic Reward Modeling 같은 오픈소스 프로젝트에서는 사람의 선호도(Human Preference), 사실성 검증(Factuality Check), 지시 따르기 점수(Instruction-Following Score)를 조합 가능한 스택(Composable Stack)으로 통합하면서 모범 사례(Best Practice)를 체계화하고 있습니다. 일종의 MLOps지만, 가치(Value) 계층에 직접 연결된 형태라고 할 수 있죠.
지금은, ‘보상 설계’가 그 자체로서 하나의 시스템(System)이 된 시대입니다. 거대 언어모델(LLM), 멀티 에이전트 시스템(Multi-Agent System), 자율 플랫폼(Autonomous Platform), 뭘 만들든 간에, 정확히 어떤 보상 신호(Reward Signal)를 시스템에 심고 있는건지 알고 있어야 합니다 – 당신의 에이전트는 그 신호를 글자 그대로 받아들일 것이기 때문입니다.
‘이론’에서 ‘엔지니어링’으로: ‘보상’을 실제로 구현한다는 것
강화학습 이론(Theory of Reinforcement Learning)에서, ‘성공(Success)’이 뭐냐는 걸 정의하는 유일한 수단이 바로 ‘보상 신호(Reward Signal)’입니다. 그리고, 에이전트가 학습할 수 있는 유일한 통로이기도 하구요.
그렇지만, 실제 환경에서의 보상 설계(Reward Design)는, 우아하면서도 간명하게 딱 떨어지는 수학의 문제로 정의되는 경우는 거의 없고, 우리가 원하는 결과(Desired Outcome)를 얼마나 세밀하게 명시(Specify)하느냐의 문제가 됩니다 – 그리고 그렇게 명시된 정의를, 에이전트가 얼마나 예상치 못한 방식(Unexpected Way)으로 왜곡(Twist)할 수 있는지를 관찰하는 일이기도 하구요.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!
프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다. 프리미엄 구독자가 되어 주시면 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!
주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!


