- Turing Post Korea
- Posts
- MoR(Mixture-of-Recursions)은 무엇인가?
MoR(Mixture-of-Recursions)은 무엇인가?
'생각의 깊이'를 설계해서 거대 모델만큼 비용이 안 들면서도 거대 모델의 품질을 내게 해 주는, 'Configurable'한 트랜스포머를 만들어 준다
들어가며
‘Recursion(재귀)’라는 단어, 우리가 평소에 많이 사용하는 단어는 아니죠. 대략 맥락을 세팅하고 글을 보시는게 좋을 것 같아 짧게 말씀드려보자면, Recursion은 ‘어떤 과정이 자기 자신을 반복해서 불러 쓰는 개념’이라고 하겠습니다. 프로그래밍에서는 함수가 스스로를 호출해서 문제를 조금씩 풀어나가고, 수학에서는 이전 값을 이용해서 다음 값을 정의하는 수열에서 자주 등장한다고 합니다 (배우기는 했을 텐데 기억이…^.^;). 핵심은 복잡한 문제를 같은 규칙으로 반복 적용해서 단순하게 해결한다는 점이라서, MoR에서는 이 원리를 적용해서 ‘소수의 레이어를 여러 번 돌려쓰면서 토큰마다 필요한 만큼만 깊이 있게 연산하도록 만드는 거다’라고 생각하시면 되지 않을까 합니다.
우리가 늘상 사용하는 AI가 점점 더 똑똑한 서비스로 받아들여지는 이유, 바로 딥리서치(Deep Research), 딥씽킹(Deep Thinking) 같은 것들 덕분이 아닐까 하는데요. 그동안 단순하게 ‘추론 능력’을 늘리는 데 많은 연산 자원을 썼다면, 이제는 작업(Task)과 토큰(Token)마다 연산 예산(Compute Budget)과 메모리를 유연하게 조절하고 맞춤형으로 활용하는 방법이 많은 주목을 받고 있습니다.
이런 관점에서, KAIST, 구글, MILA, 몬트리올 대학교의 연구진이 함께 작업해서 새로운 접근 방법을 내놓았습니다 - 바로 MoR(Mixture-of-Recursions)라는 기술입니다.
MoR의 가장 큰 특징은 레이어(Layer)를 얼마나 효율적으로 다시 쓸 수 있느냐에 있습니다. 각 토큰이 필요한 만큼만 처리 단계를 거치게 하는 것이죠. 이렇게 하기 위해서 MoR은 두 가지 라우팅(Routing) 메커니즘과 두 가지 KV(Key-Value) 캐싱 방식을 조합해서, 기존의 트랜스포머(Transformer)에 바로 적용할 수 있는 안정적인 기술 스택을 제공해 줍니다.
조금만 더 쉽게 말하면, MoR은 모델 안에 작은, 그리고 재사용할 수 있는 ‘사고 엔진(Thinking Engine)’을 넣어둔 것과 비슷합니다. 필요할 때만 더 깊이 생각하게 해 주는 거예요. 이런 기법 덕분에 더 큰 모델과 비슷한 품질을 내면서도, 훨씬 저렴하고 빠르고, 특정한 상황에 맞춰서 유연하게 적용할 수 있다고 합니다.
자, 그럼 이제부터 이 새로운 기술을 조금 더 가까이 들여다보죠 - MoR이 실제로 어떤 가치를 제공하는지, 어떻게 트랜스포머 모델을 효율적으로 업그레이드해서, 이 오래된(?) 구조를 대체할 수 있는지 살펴보겠습니다.
오늘 에피소드에서는 다음과 같은 내용을 다룹니다:
MoR(Mixture-of-Recursions)의 핵심 아이디어
언어모델을 크게 키우면 더 똑똑해지더라 하는 건 이미 일종의 ‘공리(Axiom)’ 같이 받아들여지는 걸 겁니다. 하지만 개발자들이 늘 마주하게 되는 어려운 점은, 바로 이렇게 모델을 확장하면서 요구되는 막대한 자원 - 대표적으로 컴퓨팅 파워와 메모리 - 을 어떻게 관리할 거냐 하는 거죠. 이런 이유 때문에, 모델의 학습과 운영이 점점 어려워지는 걸지도 모릅니다.
그런데, 거대하고도 똑똑한 AI 모델을 만들겠다는 경쟁의 한가운데, 효율성을 유지하게끔 도와주는, 두 가지의 잘 알려진 기법이 있습니다:
1) 파라미터를 공유한다(Parameter Sharing)
매번 새로운 레이어마다 별도의 가중치를 두는 대신에, 동일한 가중치를 재사용하는 방식입니다. 여기서 흥미로운 게 바로 레이어 타잉(Layer Tying)인데, 같은 레이어들을 여러 번 반복해서 텍스트를 통과시키는 방식이구요.
2) 적응형으로 연산을 한다(Adaptive Computation)
각각의 토큰(Token)을 처리할 때, 필요한 부분만 선택적으로 사용하는 접근법이죠. 이때 많이 쓰이는 기법이 Early Exiting입니다. 쉬운 토큰은 더 빨리 처리를 끝내게 해서, 모델이 불필요하게 연산 비용(Compute Budget)을 낭비하지 않게 하는 겁니다.
그런데, 굳이 두 기법 중에 하나만 선택할 필요가 있을까요? 둘 다 활용할 수 있다면 더 좋지 않을까요?
(자랑스러운) 카이스트, MILA, Google Cloud, Google DeepMind, Google Research, 그리고 몬트리올 대학교의 대규모 연구팀이, 이 두 가지 아이디어를 하나의 시스템으로 결합하는 실험을 했고, 그 결과물이 바로 MoR(Mixture-of-Recursions)입니다.
MoR은 기존에 있었던 리커시브 트랜스포머(Recursive Transformer)에서 한 단계 발전된 형태라고 할 수 있을 듯 합니다. 리커시브 트랜스포머는 소수의 레이어를 여러 번 순차적으로 재사용하는 모델인데, MoR은 여기에 더해서 각 토큰마다 고유한 “생각의 깊이(Thinking Depth)”를 학습하고, 동시에 메모리 사용까지 최적화할 수 있게끔 설계되었습니다.

Image Credit: MoR 오리지널 논문
리커시브 트랜스포머(Recursive Transformer)에 어떤 한계가 있길래, 굳이 MoR 같은 새로운 접근법이 필요하다고 연구진은 생각했을까요? 몇 가지 짚어볼 수 있습니다:
KV 캐시 문제
리커시브 트랜스포머에서는 레이어(Layer)를 공유하긴 하지만, 각각의 반복(Recursion) 단계마다 어텐션을 위한 별도의 메모리 캐시 ― KV(Key-Value) 캐시 ― 를 사용합니다. 이 캐시는 많은 공간을 차지할 뿐 아니라 속도까지 느리게 만들죠.똑같은 ‘생각의 깊이(Recursion Depth)’라는 한계
대부분의 리커시브 트랜스포머는 모든 토큰(Token)에 대해서 반복의 깊이가 똑같아요. 하지만 실제로는 어떤 토큰은 쉽게 처리할 수 있고, 어떤 토큰은 더 많은 단계를 필요로 하겠죠. 결국 연산 자원(Compute Power)의 낭비로 이어지게 됩니다.Early Exit의 한계
토큰마다 다른 깊이를 설정하기 위해서 Early Exit을 적용할 수 있지만, 모델의 성능을 떨어뜨리게 되는 경우가 종종 생기고, 추가적인 엔지니어링도 필요합니다.
이런 문제들 때문에, 결국은 기존 방식만 가지고는 뭔가 모자라다는 결론에 다다르게 된 겁니다. 그래서 등장한 게 바로 MoR이구요. MoR은 위에 이야기한 문제들을 해결하면서, 복잡한 워크플로우(Workflow) 개념을 구현할 수 있는 기술 스택을 갖추고 있습니다 - 그래서 한 단계 더 똑똑한 시스템으로 나아가는 중요한 돌파구가 될 수 있는 겁니다.
MoR의 핵심 메커니즘
MoR은 소수의 레이어(Layer) 세트를 계속해서 재사용하는 방식으로 작동합니다. 각 단계마다 ‘라우터’가 모든 토큰(Token)에 대해서 결정을 내리는데, 그 토큰이 레이어를 더 통과해야 하는지, 아니면 멈춰야 하는지를 판단하는 겁니다. 이 공유된 ‘재귀 단계(Recursion Step)’는 라우터의 결정에 따라서 토큰마다 최대 N번까지 반복될 수 있구요.
즉, MoR은 학습(Training)과 추론(Inference) 과정에서 각 토큰이 스스로 필요한 재귀 단계의 수를 선택할 수 있게 해 준다는 점에서 의미가 있습니다. 그렇게 한 결과, 기존의 리커시브 트랜스포머가 한 단계 더 적응형 시스템(Adaptive System)으로 발전할 수 있는 겁니다.
이런 워크플로우(Workflow) 개념을 실제로 구현해 내는 핵심적인 메커니즘이 두 개 있습니다:
라우팅 메커니즘(Routing Mechanism)
각 토큰이 공유된 재귀(Recursion) 블록을 몇 번 통과할지 결정합니다. 즉, 재귀의 깊이(Recursion Depth)를 조절하는 역할입니다.KV 캐싱 전략(KV Caching Strategy)
재귀의 깊이가 서로 다른 상황에서, 어텐션을 위한 Key–Value(KV) 쌍을 어떻게 저장하고 재사용할지를 정합니다.
자, 이제 좀 더 본격적으로 살펴볼까요?

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!
튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!
주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply