Turing Post Korea
Posts
Topic #42: '메타 러닝 (Meta Learning)'은 어떻게 이해하면 좋을까?

Topic #42: '메타 러닝 (Meta Learning)'은 어떻게 이해하면 좋을까?

'메타 러닝'의 놀라운 세계 - AI가 '배우는 법'을 배우는 그 곳, 간략한 개념을 알아봅시다.

Ksenia Se & Ben Eum
June 24, 2025

글을 시작하며

뛰어난 지성을 가진 사람, 이런 사람들을 남들과 구별할 수 있는 요소가 뭘까요? 바로 ‘학습하는 방법을 배우는 능력’이라고 생각하는데요. 이 능력이야말로, 살아가면서 맞닥뜨리는 어려움을 유연하게 헤쳐나가면서 성공하는 사람들의 비밀 아닐까요?

우리도 초등학교에서부터 대학교, 그리고 일을 하게 되면서 나이가 들어가는 과정에서 끝없는 인생의 경험을 통해서 - 때로는 우리 자신도 모르게 - 이런 능력을 개발해 나가죠. 다양한 과제 속에서 익숙한 패턴을 찾아내는 법을 배우고, 새로운 것들을 더 빠르게 익히게 됩니다.

이건, 지능형 시스템에서도 똑같다고 생각해요. 모델 역시 메타러닝(Meta-learning)이라는 과정을 통해서 이것과 유사한 능력을 얻을 수 있다고 할 수 있습니다.

메타러닝은, 모델이 ‘보지 못한’ 새로운 과제에 대해서, 최소한의 데이터만으로도 빠르게, 유연하게, 효율적으로 적응할 수 있게끔 해 주는 핵심 열쇠예요. 이 능력을 통해서, 모델은 적은 숫자의 예시로부터 학습하고, 경험을 쌓고, 기억을 효과적으로 활용할 수 있습니다.

흔히 ‘AI의 학습’에 대한 이야기를 할 때 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)과 같은 범주에 대해서 이야기하곤 하는데, 메타러닝은 이런 범주에 속하는 건 아닙니다. 그보다는 이런 다양한 학습 방식 위에 적용 가능한 상위 수준의 프레임웍이라고 보는 게 맞습니다.

오늘 에피소드에서는, 메타러닝의 기초 개념부터 시작해서, 최근의 흥미로운 발전들 (개인적으로 가장 흥미로운 주제 중 하나는 ‘무엇을 배우지 않을 것인가’예요), 메타러닝이 평가 작업(Meta-Evaluation)에 어떻게 도움을 주는지, 그리고 ‘Brain In-Context’는 뭔가 같은 것들까지, 다양한 내용을 다룰 예정입니다.

분량이 좀 많지만, 한 번 같이 가 볼까요?

잠깐, 그 전에, 왜 지금 메타러닝이 중요한지 살짝 한 번 흝어보시구요:

오늘 에피소드에서는 아래와 같은 내용을 다룹니다:

메타러닝의 기원: 최초 개념의 등장과 진화
메타러닝의 작동 원리: 학습 방법을 학습하는 구조적 접근
주요 메타러닝 패러다임
최근 메타러닝 분야의 핵심 연구 동향
메타러닝의 구조적 한계와 과제
맺으며
보너스: 참고자료

메타러닝의 기원: 최초 개념의 등장과 진화

‘학습하는 법을 학습하는’ 개념, 즉 적응형 시스템, 그리고 기계가 스스로의 명령어를 수정할 수 있다는 아이디어는 사실 20세기에 이미 등장했습니다. 하지만 이 개념을 신경망(Neural Networks)과 현대적인 메타러닝(Meta-learning) 프레임웍으로 본격적으로 끌어들인 사람은 바로… 짜잔 – 위르겐 슈미트후버(Jürgen Schmidhuber)였습니다. 위르겐 슈미트후버는 LSTM을 고안했을 뿐 아니라 ‘월드 모델’이라는 용어를 처음 사용한 사람들 중에 하나이기도 하죠.

위르겐 슈미트후버, 이렇게 생겼습니다. 언뜻 보면 배우 같기도?

슈미트후버 교수는 1987년 발표한 「자기참조 학습에서의 진화 원리(Evolutionary principles in self-referential learning)」라는 논문에서, 일종의 메타러닝 개념을 예견한 자기 개선형 시스템을 설명했는데요.

그리고 1993년에는 「자기참조 가중치 행렬(A self-referential weight matrix)」 및 「완전 순환 신경망에서 학습 복잡도와 시간에 따라 변하는 변수 수의 비율 축소」라는 논문에서, 하나의 순환신경망(RNN)이 다른 RNN의 가중치를 조정하는 아키텍처를 제안했는데, 이게 오늘날 그래디언트 기반 메타러닝(Gradient-based meta-learning)의 초기 형태라 할 수 있을 것 같습니다 (이 개념은 이후에 자세히 설명…해 볼께요).

그 후에, 1998년에 세바스찬 스런(Sebastian Thrun)과 로리언 프랫(Lorien Pratt)이 쓴 책 『Learning to Learn』이, 여러 가지 방법과 아이디어를 하나로 묶어서 메타러닝이라는 개념 아래 처음 통합한 저작물 중 하나로 꼽히구요.

2000년에는 조너선 백스터(Jonathan Baxter)가 「귀납적 바이어스 학습 모델(A Model of Inductive Bias Learning)」이라는 논문을 통해서 PAC 학습(PAC: Probably Approximately Correct) 프레임웍을 제시했는데. 같은 범주에 속한 다양한 과업에 대해 학습을 시키면, 새로운 과업에 더 빠르게 학습하도록 도와주는 유용한 귀납적 바이어스(Inductive Bias, 일종의 사전 지식)를 얻을 수 있다는 걸 보여줬습니다.

이런 배경을 쭉 살펴보면, 메타러닝이 뭘 의미하는 건지 명확히 이해할 수 있습니다: 바로, 메타러닝이란 건 ‘단일한 과업이 아니라 여러 가지 과업에 모델을 학습시켜서, 적은 데이터만으로도 새로운 과업에 빠르게 적응할 수 있게 하는 개념’입니다.

Few-shot 이미지 분류가 바로 메타러닝의 성능을 보여주는 대표적인 예겠죠. 메타러닝을 거친 모델은, 단 몇 장의 이미지로도 새로운 카테고리를 분류할 수 있게 됩니다.

메타러닝의 개념은 여타의 다른 학습 접근법들과는 구조적으로 다릅니다. 예를 들어:

지도학습(Supervised Learning)은 레이블이 붙은 데이터를 사용해서 하나의 특정한 과업에 대해서 모델이 잘 작동하도록 학습하는 방식이고,
비지도학습(Unsupervised Learning)은 레이블 없이 데이터 내의 패턴, 군집, 잠재 구조 등을 찾아내는 방식이고,
강화학습(Reinforcement Learning)은 에이전트가 환경 내에서 시행착오를 통해서 보상을 최대화하는 방향으로 학습하는 방식입니다.

이런 구분과는 다르게, 메타러닝은 특정한 학습 유형이 아니라, 프레임웍이라고 봐야 합니다.

메타러닝은 각 과업별로 대규모의 데이터셋에 의존하지 않고, 오히려 다양한 과업들에 걸쳐서 모델을 훈련시켜서, 새로운 과업에 빠르게 적응할 수 있는 능력을 기르는 것입니다. 이런 과업들은 지도형(예: 적은 샘플로 분류), 강화형(예: 정책을 더 빠르게 학습), 비지도형(예: 군집화 또는 효율적 표현 학습) 모두 포함될 수 있는 거구요.

또 다른 메타러닝의 중요한 특징 중 하나는, 학습된 기술을 다양한 시나리오에 일반화해서 적용할 수 있게 한다는 점입니다.

아래에서 몇 가지 구체적인 메타러닝 적용 사례를 보여드리자면:

🦔 희귀 동물 구분하기
모델에게 ‘천산갑’ 사진 5장을 보여준 후에, 새로운 사진이 천산갑인지 물어봅니다.
메타러닝 덕분에, 모델이 단 몇 개의 예시만으로도 이를 판단할 수 있습니다.

🤖 로봇에게 새로운 행동 가르치기
로봇이 지금까지 서랍 열기, 노브 돌리기를 배웠다고 했을 때, 이제는 레버를 당기는 작업을 배워야 합니다.
메타러닝을 통해서, 로봇은 이 새로운 작업도 빠르게 적응할 수 있습니다.

✉️ 새로운 문체에 적응하기
AI 어시스턴트가 새로운 사용자로부터 단 2~3개의 이메일만 보는 경우에도, 메타러닝 덕분에, 거의 즉시 해당 사용자의 문체를 따라 쓸 수 있게 됩니다.

자, 그럼 지금부터 메타러닝이 실제로 어떤 워크플로우를 거쳐서 이뤄지는지 살펴보죠.

메타러닝의 작동 원리: 학습 방법을 학습하는 구조적 접근

메타러닝(Meta-Learning)은 개별적인 과제(과업; Task)의 해법을 학습하는 것이 아니라, 다양하게 분포(Distribution)된 과제들에 대해서 적응하는 전략(Adaptation Strategy)을 학습하는 겁니다. 새로운 과제를 만났을 때 메타러닝 모델은 다음과 같은 방식으로 작동합니다:

1. 모델이 몇 개의 예시(Support Set; 지원 집합)를 입력받는다

2. 학습된 메타지식(Meta-Knowledge)를 활용해서 빠르게 적응한다

3. 새로운 예시(Query Set; 질의 집합)로 테스트를 진행한다

4. 적은 양의 데이터로도 높은 정확도를 달성한다

이런 접근은, 각각의 과제마다 대규모 학습 데이터를 필요로 하는 전통적인 머신러닝과는 근본적으로 다른 접근 방식입니다. 메타러닝은 여러 가지 관련된 문제에 걸쳐서 전이 가능한 (Transferrable) 일반화된 원칙을 발견함으로써, 말 그대로 ‘학습하는 법을 학습(Learning to Learn)’합니다.

편집자 주

모델이 새로운 과업을 빠르게 학습할 수 있도록 훈련하는 방식, 메타러닝은 두 개의 단계로 구성됩니다:

메타-트레이닝 (Meta-training) 단계

이 단계에서는 러너 모델(Learner Model)이 다양한 과업들로부터 학습하는 연습을 반복합니다.
이를 통해서 모델은 과업들 간의 공통된 패턴을 찾아내고, 새로운 과업을 다룰 때 활용할 수 있는 일반적인 학습 전략을 형성하게 됩니다.

메타-테스팅 (Meta-testing) 단계

그 다음 단계에서는, 러너 모델이 메타-트레이닝에서 배운 내용을 활용해서, 완전히 새로운 과업에 대해 소량의 데이터만으로 빠르게 적응합니다.

핵심 개념은 다음과 같습니다:

모든 과업이 ‘과업의 우주(Task Universe)’라는 더 넓은 공간에서 유래한 것들이기 때문에, 그 속에는 숨겨진 유사성(Shared Structure)이 존재합니다. 메타러닝은 이런 공통된 패턴을 이용해서, 빠르게 적응하는 능력을 향상시키는 것이죠.

📐 메타러닝의 대표적인 개념적 접근법

이 과정을 두 개의 모델 관점으로 이해하면 더 명확해집니다:

🧠 베이스 러너(Base-Learner)

간단히 러너(Learner)라고도 부르는데, 특정한 과업을 수행하도록 학습되는 모델입니다.
이 모델은 해당 과업의 데이터에 기반해서 학습을 진행하고, 흔히 “내부 학습 루프(Inner Learning Loop)”에서 작동한다고 표현합니다.
예를 들어서 Few-shot 이미지 분류에서, 베이스 러너는 주어진 과업 안의 이미지를 분류하는 신경망(Neural Network)이겠죠.

→ 요약하면, 베이스 러너는 ‘개별 과업을 적은 학습 데이터로 빠르게 적응하는 역할’을 맡습니다.

🧭 메타 러너(Meta-Learner)

‘외부 학습 루프(Outer Learning Loop)’를 담당합니다.
베이스 러너가 각 과업에서 어떻게 학습했는지를 평가한 뒤에, 그 결과에 따라서 베이스 모델의 초기 파라미터나 학습 전략을 조정합니다.
이렇게 하면서 베이스 러너가 새로운 과업들을 더 잘 학습하도록 개선하는 역할을 합니다.

→ 메타러닝이 끝난 뒤에는, 베이스 러너는 메타 러너가 학습한 결과(예: 좋은 초기 가중치나 학습 전략)를 기반으로 초기화됩니다.
→ 이 전체 워크플로우는 모델이 단순히 기존 지식을 반복하는 것이 아니라, 새로운 실제 과업을 다룰 수 있도록 명시적으로 준비시키는 과정입니다.

메타러닝 방식은 접근법마다 ‘무엇을 학습하는지’가 다릅니다.

예를 들어서, 어떤 방법은 신경망의 초기 가중치(Initial Weights)를 학습하고, 또 다른 방법은 학습률(Learning Rate), 유사도 메트릭(Similarity Metric) 등을 학습하기도 합니다.

주요 메타러닝 패러다임

메타러닝을 구성하는 중요한 3가지 접근법을 알아보죠:

최적화 기반 메타러닝 (Optimization-based Meta-learning)

이 접근법은 최적화 알고리즘 자체를 더 나은 방향으로 개선하는 것에 초점을 두는 방식으로, 보통 그래디언트 기반 메타러닝(gradient-based meta-learning)이라고 부르기도 합니다.

이 접근법의 대표적인 사례는 MAML (Model-Agnostic Meta-Learning) 알고리즘인데, UC 버클리(University of California, Berkeley)와 오픈AI의 연구자들이 개발했습니다. 핵심 아이디어는, 모델이 새로운 과업에 적응할 수 있도록 시작점을(초기 파라미터) 훈련시키는 겁니다. 즉, 경사 하강법(Gradient Descent)을 기반으로 학습을 진행해서, 빠르게 적응할 수 있는 초기 상태를 만드는 게 목적입니다.

MAML은 우선 초기 파라미터 집합 θ를 학습합니다. 메타-트레이닝 동안, 각 과업(Task)에 대해서 MAML은 현재 모델을 복사한 후에, 해당 과업의 학습 데이터를 사용해 몇 번의 경사 하강 단계를 수행합니다 - 이 부분이 내부 루프(Inner Loop)에 해당합니다.

그 다음, 그 과업의 테스트 데이터에서 모델이 얼마나 잘 수행했는지 평가합니다. 외부 루프(Outer Loop)는, 이 과정을 통해서 얻은 성능을 바탕으로 초기 파라미터 θ를 조정하는데, 목적은 이후의 Few-shot 파인튜닝이 더 좋은 성능으로 이어지도록 만드는 것이죠.

이런 과정을 여러 과업에 반복적으로 수행해서, θ는 다양한 새로운 과업에 대해 강력한 시작점으로 진화하게 됩니다.

Image Credit: MAML 오리지널 논문

중요한 건, MAML은 특정한 모델의 형태에 종속되지 않는(Model-Agnostic) 방식이라는 겁니다. 즉, 경사 하강법(Gradient Descent)을 통해서 학습할 수만 있다면 어떤 모델 아키텍처나 과업에도 적용할 수 있습니다.

전체적으로 보면, 이 접근법은 사람에게 기본기를 가르쳐서, 나중에 새로운 기술을 더 빠르게 익힐 수 있도록 돕는 것과 비슷한 방식이라 할 수 있습니다.

메트릭 기반 메타러닝 (Metric-based Meta-learning)

이 방식은, 모델이 예시 간의 거리 또는 유사도를 더 잘 측정하는 방법을 학습하도록 유도합니다.
즉, 새로운 예시와 이미 본 예시 사이에서 같은 그룹에 속하는 것들을 더 효과적으로 묶을 수 있도록 돕는 거죠.

모델은 입력 데이터를 직접 비교하는 대신, 입력을 임베딩 벡터(Embedding Vector)로 변환합니다. 임베딩은 입력 데이터를 압축하면서 의미 있는 정보만 요약한 벡터 표현입니다. 그리고 나서, 학습된 유사도 함수(Similarity Function)를 사용해 이 임베딩들끼리 비교합니다.

몇 가지 대표적인 예시를 살펴보겠습니다:

🔷 Prototypical Networks

이건 토론토대학교와 트위터에서 공동으로 연구한 건데요. 새로운 예시를 모든 서포트셋(Support Set) 예시들과 각각 비교하지 않습니다. 대신, 각 클래스(Class)에 대해 평균 임베딩을 계산해서 ‘클래스 프로토타입(Class Prototype)’을 만듭니다.

그리고 새로운 예시의 임베딩과 이 클래스 프로토타입 간의 거리를 계산, 가장 가까운 프로토타입에 해당할 확률이 높다고 판단합니다. 보통 유클리디안 거리(Euclidean Distance)가 거리 함수로 사용됩니다. 즉, 거리가 가까울수록 해당 클래스일 가능성이 높다고 판단하는 구조입니다.

Image Credit: Prototypical Networks for Few-shot Learning 논문

🔷 Matching Networks

구글 딥마인드 팀에서 한 연구로, 클래스 프로토타입을 계산하지 않고, 쿼리 포인트(Query Point)를 모든 서포트 예시(Support Example)와 직접 비교합니다. 이때 사용하는 것은 코사인 유사도(Cosine Similarity)와 같은 유사도 함수(Similarity Function)입니다.

모델이 이렇게 계산된 유사도를 소프트맥스(Softmax)를 통해서 가중치로 변환합니다. 그리고 예측은, 이 가중치를 기반으로 한 서포트 예시들의 레이블의 가중 평균(Weighted Average)으로 이루어집니다. 즉, 쿼리와 더 유사한 예시의 레이블이 더 큰 영향을 미치는 방식입니다.

Image Credit: Prototypical Networks for Few-shot Learning 논문

모델 기반 메타러닝 (Model-based Meta-learning)

마지막으로 소개할 방식은 모델 기반 메타러닝(Model-based Meta-learning)입니다.

이 접근법에서는 모델 자체의 구조에 기억(Memory)이나 동적인 구조(Dynamics)를 내장시켜서,
모델이 스스로 빠르게 적응하는 법을 학습할 수 있도록 설계합니다. 즉, 이 모델은 자체의 구조만으로도 정보를 기억하고, 적응하며, 과업을 해결할 수 있습니다.

모델 기반 메타러너는 보통 다음과 같은 구성 요소를 포함합니다:

LSTM과 같은 RNN 계열의 순환신경망,
외부 메모리(External Memory),
그리고 이 메모리를 읽고 쓰는 법을 학습하는 컨트롤러(Controller) 등이 이에 해당합니다.

이 구성요소들을 통해서 과업에 특화된 정보를 저장하고 불러오는 방식을 학습합니다.

이 접근법을 잘 보여주는 대표적인 사례는 구글 딥마인드가 개발한 기억 증강 신경망(Memory-Augmented Neural Networks, MANN)입니다. 이 모델은 이렇게 훈련합니다:

시점 t에 어떤 입력(예: 이미지)을 보여주고,
다음 시점 t+1에 해당 입력의 정답 레이블을 제공합니다.

이런 학습 과정을 통해서, 모델이 입력과 레이블 간의 연관을 기억하도록 유도합니다.

모델은 레이블이 주어지는 시점에, 해당 입력과 레이블 쌍을 외부 메모리에 저장합니다. 그리고 나중에, 유사한 입력을 다시 보게 되면, 모델은 그 메모리에서 연관된 레이블을 찾아내서 정확한 예측을 수행하게 됩니다.

즉, MANN은 학습 과정 자체를 기억 기반의 적응 시스템으로 전환하고, 빠르게 변화하는 환경에서도 최소한의 예시만으로도 유연하게 대응할 수 있는 능력을 갖추도록 설계된 대표적인 모델 기반 메타러너입니다.

Image Credit: Meta-Learning with Memory-Augmented Neural Networks 논문

이렇게 메타러닝의 기초에 대해 살펴보았고, 그럼 메타러닝 패러다임을 개선하기 위한 최신 연구와 트렌드로 한 번 넘어가 보죠.

최근 메타러닝 분야의 핵심 연구 동향

RIME (Robustly Informed Meta Learning): 정보의 강건성을 높인 메타러닝 프레임웍

AI 분야에서 주목할 만한 트렌드 중 하나가, 바로 모델에게 무엇을 학습할 것인지뿐만 아니라, 무엇을 학습하지 말아야 하는지도 가르치는 것이라고 생각하는데요.

루이스 맥코넬(Louis McConnell)이 제안한 RIME(Robustly Informed Meta-Learning)은 이런 아이디어를 메타러닝에 적용한 접근법으로, 잘못된 학습 패턴을 배제하게끔 설계되었습니다.

예를 들어서, 모델이 X-ray 이미지를 기반으로 질병을 예측한다고 가정해봅시다. 이때 모델은 폐의 패턴을 학습해야 하는데, 대신 병원 장비 종류, 병원 ID, 환자 나이와 같은 무관한 단서(Spurious Features)에 의존할 수 있습니다. 이런 소위 지름길(Shortcut)은 학습 중에는 성능이 좋아 보이게 할 수 있지만, 실제로는 다른 병원 같은 새로운 환경에서는 작동하지 않습니다.

RIME은 인과 프레임웍(Causal Framework) 내에서 작동하며, 실제 원인 신호(Causal Signals)와 혼란 변수(Nuisance, 즉 스퓨리어스 특징)를 분리하는 데 목적이 있습니다.

이를 위해서 RIME은 다음 두 가지 특별한 방법을 사용합니다:

1. 역확률 가중치(Inverse Probability Weighting, IPW)

RIME은 훈련 데이터를 재가중(Reweight)해서, 실제 레이블과 스퓨리어스 특징 간의 통계적 연결을 끊습니다.

각 데이터 예시에 대해서, 예를 들어 환자 나이와 같은 스퓨리어스 특징이 주어졌을 때 특정 레이블(예: '질병 있음')이 나올 확률을 계산합니다.
그 확률에 따라 그 예시의 중요도를 조정하고, 스퓨리어스 특징에 기반한 예시에는 더 낮은 가중치를 부여합니다.

2. 올바른 표현 학습(Learning Right Representations)

재가중(Reweight) 이후에도, 모델이 내부 표현(Internal Features)을 통해 여전히 스퓨리어스 정보를 끌어올 가능성은 남아 있습니다. 그래서 RIME은 입력에 대한 표현(Representation)을 학습하는 동시에, 입력 표현에 잘못된 특징 정보가 포함될 경우에 이를 패널티로 처리하는 손실 함수(Loss Function)를 추가로 적용합니다.

이런 방식으로 RIME은 모델이 진짜 배워야 할 것만 학습하고, 오류를 유발하는 지름길은 피하도록 유도하고, 메타러닝의 강건성(robustness)을 높이는 최신 연구 중 하나로 주목받고 있습니다.

Image Credit: RIME 오리지널 논문

Meta-LoRA: 파라미터 효율성을 극대화한 경량화 메타러닝 기법

또 하나의 흥미로운 접근법은, 파운데이션 모델을 메타러닝 방식으로 학습시키기 위해 메타 어댑터(Meta-Adapter)를 사용하는 건데요. 텍사스 대학교 오스틴 캠퍼스의 연구진은 이 목적을 위해서 Meta-LoRA(Low-Rank Adaptation)를 제안했습니다.

이 기법은 재학습 이후 모델이 새로운 과업에 적응하는 방식을 메타러닝 방식으로 개선합니다.

Meta-LoRA는 과업마다 개별적으로 모델을 재학습하는 대신, 여러 과업에 걸쳐서 잘 작동하는 공통된 저랭크 어댑터 행렬(LoRA Matrix; Low-Rank Adapter Matrix)을 찾아냅니다. 이 어댑터는 작은 과업에 특화된 업데이트(task-specific updates)와 결합될 때 효과적으로 작동하도록 설계됩니다.

특히, 3개 이상의 과업에 대해서 훈련하면, Meta-LoRA는 모델의 진짜 내재된 파라미터(True Underlying Parameters)를 정확히 복원할 수 있다는 게 이론적으로 증명되었습니다. 실제로는 경사 하강법(Gradient Descent)과 같은 간단한 최적화 알고리즘만으로도 이 공통 어댑터를 효과적으로 학습할 수 있습니다.

이 연구가 주목받는 이유는, 아주 거대한 모델에서의 적응(Adaptation) 문제를 메타러닝을 활용해 해결하는 실마리가 될 수 있기 때문인데요. 최근 거대 모델이 점점 더 보편화되고 있는 추세를 고려할 때, 특히 중요한 방향성이라 할 수 있습니다.

ReMA (Reinforced Meta-thinking Agents): 강화학습 기반의 메타 인지 에이전트 아키텍처

이번에 소개할 연구는 특히 흥미롭고 복잡하기도 한데요. 상하이 교통대, 상하이 인공지능 연구소, 브리티시컬럼비아 대학교, 그리고 UCL의 연구진이 함께 진행한 연구로, ReMA는 메타러닝(Meta-learning)과 함께 최근 가장 주목받는 주제 중 하나인 강화학습(Reinforcement learning, RL)을 결합해서, LLM이 보다 더 효과적으로 사고할 수 있도록 돕는 방법을 제안합니다.

특히, 여러 LLM 에이전트가 함께 작동할 때 효과를 발휘하는 구조입니다.

핵심만 보자면, ReMA는 문제의 해결 과정을 두 단계로 나눕니다:

🔹 메타-사고 단계 (Meta-thinking Phase):

이 단계에서는 전략을 계획하거나 조정합니다.

🔹 추론 단계 (Reasoning Phase):

해당 전략을 따라서 문제를 해결합니다.

기존의 단일 에이전트(Single-Agent) 환경에서는 하나의 에이전트가 이 두 단계를 모두 처리하지만, 이는 때로 비효율적일 수 있기 때문에, ReMA는 MAMRP(Multi-Agent Meta-thinking Reasoning Process)라고 부르는 구조를 사용해서 두 개의 전문화된 에이전트를 활용합니다:

🧠 고차원 에이전트(High-level Agent):

메타-사고(Meta-thinking)를 담당하고, 메타-플랜(Meta-plan)을 생성합니다.

🧮 저차원 에이전트(Low-level Agent):

해당 메타-플랜을 바탕으로 추론을 수행하고, 답변을 생성합니다.

필요한 경우에, 고차원 에이전트는 전략을 업데이트하고, 저차원 에이전트는 그에 따라 문제 해결을 계속 진행합니다. 두 에이전트 모두 같은 LLM 모델을 공유하지만, 특별한 프롬프트를 통해서 서로 다른 방식으로 행동하도록 지시를 받습니다.

이 구조는 LLM에게 사고와 행동을 분리하는 능력을 부여하고, 에이전트 간 협업이 필요한 복잡한 문제 상황에서 유연하고 효과적인 처리를 가능하게 합니다.

Image Credit: ReMA 오리지널 논문

ReMA 접근법은 강화학습(RL)을 활용해서 모델의 효율성을 극대화하도록 유도합니다. 구체적으로는 다중 에이전트 강화학습(Multi-Agent RL)을 사용하며, GRPO 기반의 턴 단위 학습(Turn-level Training)을 적용합니다. 여기서 각 에이전트는 자신이 맡은 부분을 더욱 잘 수행하도록 학습합니다.

고차원(High-level) 에이전트는 더 나은 결과로 이어지는 메타-사고(Meta-thought)를 선택하려고 시도하고,
저차원(Low-level) 에이전트는 주어진 메타-플랜에 따라 문제를 효과적으로 해결하는 법을 학습합니다.

결과를 살펴보면, ReMA는 모든 기존의 베이스라인 모델을 능가하는 성능을 보였고, 수학 벤치마크에서 6.68% 향상, LLM-as-a-Judge 벤치마크에서 8.49% 향상된 수치를 보여주었습니다.

ReMA는 메타러닝과 강화학습의 조합, 그리고 다중 LLM 협력 구조를 정교하게 설계해서, LLM 사고 능력의 새로운 가능성을 보여주는 주목할 만한 사례입니다.

Meta-Evaluation: 메타러닝 알고리즘의 정량적 성능 평가 체계

보상 시스템(Reward System)의 설계는 아주 중요하고, 또 지속적으로 개선해야만 하는 대상이죠. 그런 맥락에서, 메타러닝(Meta-learning)은 훌륭한 조력자가 될 수 있습니다.

미네소타 대학교, MIT, Grammarly, Elice의 연구자들은 Meta Policy Optimization (MPO) 프레임웍을 제안했습니다. 이 프레임웍은, 정책 모델(Policy Model)이 학습하듯이 보상 시스템(Reward System)이 더 나은 평가 방식을 학습할 수 있도록 합니다.

MPO는 다음과 같은 피드백 루프 구조를 구축합니다:

학생 역할의 LLM뿐만 아니라, 교사 역할의 보상 모델(Reward Model, RM)도 시간이 지나면서 함께 발전합니다.
그리고 이 전체 과정을 상위 조언자 역할의 메타 보상 모델(Meta Reward Model, MRM)이 지도합니다.

이 프레임웍 하에서는, 이제 보상 모델은 더 이상 고정된(Static) 시스템이 아닙니다. 오히려, 사람이 경험을 통해 판단 능력을 키우듯이, 훈련 과정에서 지속적으로 진화할 수 있는 시스템으로 기능합니다.

MPO는 보상 자체의 품질을 메타 수준에서 개선해서, LLM 훈련 과정의 전반적인 피드백 루프를 더욱 정교하고 유연하게 만들어주는 새로운 방향성을 제시합니다.

Brain In-Context Representation Learning

마지막이지만 절대 그냥 지나쳐서는 안 될 발전 방향이 바로 BraInCoRL (Brain In-Context Representation Learning)입니다. 이 연구는 데이터 수집이 제한된 분야에서도 메타러닝이 효과적으로 적용될 수 있는 가능성을 보여줍니다.

홍콩대학교, 카네기 멜론 대학교를 포함한 여러 대학의 연구진이 공동으로 BraInCoRL을, 사람이 이미지를 볼 때 발생하는 뇌 활동(복셀 반응, Voxel Responses)을 예측하는 모델로 설계했습니다.

메타러닝 접근법 덕분에, 이 모델은 개인마다 모델을 새로 학습(Retrain)하지 않고도 작동합니다. BraInCoRL은 각 복셀(Voxel) — 즉 뇌 데이터의 작은 단위 —을 각각의 학습 과업(Task)으로 간주합니다. 그리고 트랜스포머(Transformer) 모델을 활용해서 이미지와 뇌 반응의 쌍으로 구성된 인컨텍스트(In-context) 예시로부터 학습을 하게 됩니다. 이 과정을 통해서 모델은 공통된 패턴을 파악하고, 새로운 사람에게도 적절한 반응을 즉석에서 생성할 수 있습니다.

만약 모델이 인간의 뇌처럼 복잡한 시스템에서 일어나는 현상을 파악할 수 있다면, 이는 데이터가 부족한 다른 시스템에서도 이 학습 능력을 적용할 수 있음을 시사합니다.

메타러닝의 구조적 한계와 과제

물론, 이런 접근은 인간과 유사한 정보 처리 방식에 한 걸음 더 다가가는 개념적으로 멋진 시도긴 하지만, 메타러닝에는 여전히 해결해야 할 중요한 한계점들이 있습니다.

메타러닝이 효과적으로 작동하려면, ‘서로 관련은 있지만 다른’ 소규모 과업들이 넓게 분포(Distribution)가 되어 있어야 합니다. 하지만 예시Task)가 충분하지 않으면, 메타러닝이 학습에 어려움을 겪게 됩니다.
훈련 속도가 느리고 메모리 소모가 큽니다. 특히 MAML과 같은 경사 기반 접근법(Gradient-based Approach)에서는 여러 단계의 경사 연산을 역전파(Backpropagate)해야 되기 때문에 계산 비용이 아주 커질 수 있습니다.
메타러너(Meta-learner)가 훈련에 사용된 과업들에 오버피팅될 수 있습니다.
메타러너가 실제로 어떤 정보를 학습했는지 불분명한 경우가 많습니다.
메타러닝은 보통 과업(Task) 단위의 Episode 학습을 가정하고, 각 과업에 대해서 Support Set / Query Set 구조를 요구하는데, 이 구조는 연속 제어(Continuous Control), 시계열 예측(Time-Series Forecasting), 또는 열린 형태의 자연어 처리 과업(Open-ended NLP) 등에는 잘 맞지 않을 수 있습니다.

핵심은, 메타러닝은 아직 충분히 탐구되지 않은 분야라는 점입니다.
메타러닝이 왜, 언제 효과적인지에 대한 질문은 여전히 열려 있는 연구 주제입니다.

맺으며

메타러닝(Meta-learning) 개념은, 단순히 대규모 데이터를 많이 사용하는 것만으로는 충분하지 않다는 사실을 보여줍니다. 현대의 AI 시스템은 스스로 패턴을 파악할 수 있어야 하고, 학습하는 방법 자체를 이해할 수 있어야 합니다.

현재 기준으로는, 우리는 다음과 같은 기능을 갖춘 메타러닝 시스템을 가지고 있습니다:

무엇을 학습하지 않아야 하는지를 모델이 스스로 판단하게 만들고,
보다 나은 평가 방식을 학습하게 하고,
초대형 모델의 효율성을 메타러닝 어댑터를 통해서 향상시키고,
강화학습과 메타러닝을 결합해서 더 효율적인 모델 및 에이전트 행동을 이끌어내고,
데이터가 부족한 상황에도 메타러닝 패러다임을 적용할 수 있습니다.

어떤 모델은 하나의 과업 혹은 도메인에 집중하는 반면에, 다른 모델은 멀티태스킹(Multitasking)을 목표로 하기도 합니다. 하지만 어떤 경우든, 모델은 환경에 빠르게 적응할 수 있어야 하고,
모델에 요구되는 사항을 충족시키기 위해서 ‘빠른 적응 능력은 필수적’입니다.

우리가 가진 모든 지식을 모델에 주입하는 것은 사실상 불가능합니다. 그렇기 때문에라도, 모델에게 ‘학습하는 법’을 가르칠 수 있는 모든 기회를 적극 활용해야 할 겁니다.

보너스: 참고자료

Evolutionary principles in self-referential learning (1987) by Jürgen Schmidhuber
A ‘Self-Referential’ Weight Matrix (1993) by Jürgen Schmidhuber
Advances and Challenges in Meta-Learning: A Technical Review
What is meta-learning? (IBM 블로그)
Meta-Learning: Learning to Learn Fast (Lilian Weng 블로그)
A Model of Inductive Bias Learning (2000) by J. Baxter
Learning to learn by gradient descent
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
On First-Order Meta-Learning Algorithms
Prototypical Networks for Few-shot Learning
Matching Networks for One Shot Learning
Theoretical Models of Learning to Learn
Meta-Learning with Memory-Augmented Neural Networks
Meta Learning not to Learn: Robustly Informing Meta-Learning under Nuisance-Varying Families
Meta-Learning Adaptable Foundation Models
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
Scalable Meta-Learning via Mixed-Mode Differentiation
Towards Sharper Information-theoretic Generalization Bounds for Meta-Learning
Unsupervised Meta-Learning via In-Context Learning
Combining Forecasts using Meta-Learning: A Comparative Study for Complex Seasonality
Rethinking Meta-Learning from a Learning Lens

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.