🦸🏻#13: 에이전트가 '실수'로부터 배우는 법: 'Reflection (성찰)'의 역할

들어가며

튜링 포스트 코리아의 ‘AI 에이전트’ 시리즈, 에피소드 #11에서, ‘추론’과 ‘계획’이 어떻게 함께 작동하면서 AI를 효과적인 도구로 만들어주는지를 알아봤는데요:

🦸🏻#11: 에이전트는 어떻게 '계획'과 '추론'을 할 수 있을까?

더 정확하면서도 잘 적응하는 '계획'을 세우게 하는 법 + 강화학습 기반의 DeepSeek 추론 훈련

turingpost.co.kr/p/11-agent-plan-reason

이 ‘추론’과 ‘계획’의 적절한 조합이야말로, 모델이 단순히 - 이것도 단순한 건 물론 아니지만요 - 생각하는 것 뿐 아니라 ‘목표 지향적’인 행동을 하면서 ‘사고를 구조화’할 수 있게 해 준다고 말씀드렸습니다. 그런데, 강력한 추론, 그리고 계획 능력이 있다 하더라도, AI에는 여전히 결정적인 한 가지가 부족하죠: 바로, 스스로 내렸던 결정으로부터 ‘배우는 능력’입니다!

여기가 바로 ‘성찰 (Reflection)’이 중요해지는 부분이죠. 미래에 대해서 생각하고 예측하는 것만큼, 아니 오히려 그 이상으로, 에이전틱 AI는 ‘과거의 행동을 분석하고, 실수를 알아채고, 전략을 개선’할 수 있어야 합니다. 사람처럼요.

성찰이 없다면, AI가 계속해서 개선이 되지 않고 같은 오류나 실수를 반복하지 않겠어요? 그래서, 앤드류 응은 ‘성찰 (Reflection)’을 에이전틱 AI의 ‘핵심적인 설계 패턴’으로 이야기하기도 했습니다.

앤드류 응의 ‘Reflection’ 디자인 패턴

오늘의 에피소드에서는, 에이전틱 AI의 핵심 구성 요소로 소개했던 ‘Reflection (성찰)’을 좀 더 깊이 생각해 보고, Reflexion이나 ReAct 등 여러 프레임웍에서 어떻게 에이전트가 자기 평가 (Self-Assessment), 반복 학습 (Iterative Learning)을 할 수 있게 해 주는지 알아보겠습니다.

오늘 에피소드에서는 다음과 같은 내용을 다룹니다:

‘성찰’의 철학적 뿌리

‘성찰’이라는 능력 - 스스로의 생각과 행동을 분석하는 능력 - 은 오랫동안 지능이라는 것의 기본적 요소로 인정받아 왔습니다. 소크라테스는 자신의 믿음에 의문을 제기하는 실천을 옹호했고, “내면의 성찰을 통해서만 건전한 추론과 결함있는 가정을 구분할 수 있다”고 주장했습니다. 동양의 고대 철학자들도 이 생각에 공감했는데, 공자는 모방과 경험보다는 성찰을 지혜에 이르는 가장 고귀한 길로 여겼습니다. 역사를 통틀어서, 성찰은 판단력을 예리하게 하고, 의사결정을 더 잘 하게 해 주고, 개인적이고 지적인 성장을 촉진하는 메커니즘으로 여겨져 왔습니다.

매일같이 ‘자기 성찰’을 실천했던 스토아 학파로부터, ‘사고 자체의 본질’을 탐구했던 데카르트까지, ‘성찰’이란 건 항상 철학의 핵심적인 주제였습니다. 아리스토텔레스나 칸트 같은 사상가들은, ‘명상’ 그리고 ‘행동’의 차이를 구분하면서, ‘의사결정’이 진정한 의미를 가지려면 ‘목적을 가진 깊은 생각’이 반드시 함께 해야 한다고 이야기했습니다. 최근으로 보자면, 존 듀이가 ‘성찰적인 사고’라는 걸 ‘증거에 비추어서 믿을을 신중하고도 끈기있게 (재)평가’하는 거라고 설명하기도 했는데, 이걸 통해서 개인이 충동적이 아니라 예지력을 가지고 행동할 수도 있다고 봤습니다.

미국의 철학자 도널드 숀(Donald Schön)은, 나중에 이 개념을 확장해서 ‘Reflection-in-Action (행동 중의 성찰)’과 ’Reflection-on-Action (행동 후 성찰)’을 구분했는데, 전자는 실시간으로 조정, 적응해 가는 것, 후자는 미래의 결정을 개선하기 위해서 과거에 했던 결정을 분석하는 겁니다.

도날드 숀과 그의 저서들. Image Credit: Infed.org

도날드 숀의 이런 생각은, ‘전문적인 의사결정이라는 것이, 단순히 계획에 따라 만들어지는게 아니라, 진행되는 과정에서 행동을 다이나믹하게 평가하고 개선하는 것에 관한 거라는 개념을 강화하게 되었습니다. 이 생각이 인지과학에서부터 교육 영역에 이르기까지 다양한 분야에 깊은 영향을 미쳤고, 학습, 추론, 그리고 행동이 어떻게 ‘함께’ 작동해야 진정한 지능을 이끌어낼 수 있는지에 대한 오늘날 우리의 이해를 형성했다고도 할 수 있습니다.

드디어, 이런 아이디어들이 AI에 적용되고 있는 것이죠.

AI가 ‘성찰’한다는 건 뭘까

‘AI 에이전트’라는 맥락에서, ‘성찰’이라고 하는 건 에이전트가 ‘자기 수정, 그리고 개선을 위해서 스스로 한 행동, 그 결과에 대해서 생각하는 능력’이라고 하겠습니다. 본질적으로 ‘사람이 스스로의 내면을 들여다보는 것’, 또는 우리가 이야기하는 ‘시스템 2’라는 사고 방식과 같은 거라고 할 수 있습니다.

단순히 상황에 본능적으로 반응하는게 아니라, ‘성찰’하는 AI는 자기가 한 일을 분석하고, 오류가 발생하거나 최적화되지 않은 단계를 찾아내고, 수행의 전략을 조정하기 위해서 잠시 멈출 줄도 압니다. 새로운 외부의 훈련 데이터가 없더라도, AI 에이전트가 내부적으로 피드백을 평가해서, 이전의 경험으로부터 배울 수 있습니다. 그리고 다음 번의 시도에서는 개선된 해결책을 만들어내는, 일종의 ‘자기 개선 루프 (Self-Improvement Loop)’를 구현하는 겁니다.

이 ‘자기 개선 루프’ – 생성 (Generate) —> 비평 (Critique) —> 개선 (Improve) – 는 이미 코딩, 글쓰기, Q&A 같은 영역에서 유의미하게 AI의 성능을 향상시켜주었을 뿐 아니라, 앤드류 응 같은 경우는 ‘성찰’ 때문에 AI가 더 신뢰할 수 있고 자율적인 시스템이 될 수 있다고 강조하기도 합니다.

에이전틱 시스템에서의 ‘성찰’, 이 요소는 독립적으로 작동하지 않고, 다른 구성요소들과 상호작용합니다:

우선은 ‘프로파일링 (Profiling)’, 에이전트가 하는 행동의 틀을 잡는, 역할과 목표 (정체성, 제약 조건 등)를 주는 요소이구요. 다음은 ‘지식 (Knowledge)’으로, 이건 에이전트가 접근할 수 있는 Knowledge Base나 모델에 사전 훈련된 내용을 뜻합니다. 그리고 에이전트는 ‘기억 (Memory)’이라는 구성 요소를 통해서 지금 하고 있는 대화 같은 단기 기억, 축적된 경험 같은 장기 기억을 포함해서 ‘상호 작용과 그 맥락’을 저장합니다.

‘지식’과 ‘기억’을 통해서, 에이전트는 추론 (Reasoning)과 계획 (Planning) 과정에서 작업을 분해하고, 추론하고, 할 일의 계획을 수립합니다. 그 다음 계획을 실행하기 위해서 ‘행동 (Actions)’을 취하는 것이죠 – 도구 호출, 출력값 생성, 이동 같은 게 행동이죠.

그리고 마지막으로 ‘성찰 (Reflection)’이 등장합니다: 에이전트는 주어진 목표에 비추어 행동의 결과를 평가하고, 실수 또는 예상하지 못했던 결과를 통해서 학습합니다. 이 과정을 거쳐서, 에이전트 워크플로우의 피드백 루프가 완성되는 것입니다.

‘성찰’은 에이전트가 스스로를 다이나믹하게 조정해 가면서 활동하도록 하는 핵심적인 구성 요소입니다. ‘성찰’의 요소가 반영되어서 설계된 에이전틱 시스템이라면, 그 워크플로우가 순환적 (Cyclic)인 모습을 하게 되는데, 프로파일링을 통해 역할을 정의하고, 지식이 맥락을 제공하면, 기억과 추론이 주는 가이드에 따라 에이전트가 행동하고, 그 다음 성찰이 행동의 진행 경과와 결과를 평가합니다. 학습한 모든 내용 – 예를 들어, 행동이 실패했다거나 – 은, 다음 사이클에 유의미한 정보를 제공하기 위해서 에이전트의 기억이나 계획 모듈로 피드백됩니다.

시간이 지나면서 에이전트가 이런 ‘성찰적인 통찰’을 쌓아가게 되고, 더 성능이 나아지게 될 겁니다. 이론적인 관점에서, 이런 ‘지속적인 자기 개선 아이디어’는 아주 매력이 있는 접근 방식이죠. 본질적으로 ‘즉석 적응 (On-the-Fly Adaptation)’의 한 형태라고 할 수 있을 겁니다.

AI의 맥락에서는, 특히 매번 모델의 가중치 (Weight)를 재훈련을 통해서 업데이트할 필요가 없는 방식이고, 대신 학습된 내용을 자연어라든가 상징적인 (Symbolic) 피드백을 통해서 지식, 계획의 수준에서 소화해 냅니다.

*무료 구독자들께서 보실 수 있는 내용은 여기까지입니다. AI 에이전트의 에피소드는 프리미엄 구독자들께 전체 내용이 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 이 에피소드 전체를 포함해서 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다!

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다. 프리미엄 구독자가 되어 주시면 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

프리미엄 구독하러 가기

주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

🦸🏻#13: 에이전트가 '실수'로부터 배우는 법: 'Reflection (성찰)'의 역할

들어가며

‘성찰’의 철학적 뿌리

AI가 ‘성찰’한다는 건 뭘까

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

Reply

Keep Reading

Turing Post Korea

Home

Account