Turing Post Korea
Posts
모듈러 매니폴드, '신경망 최적화'를 위한 새로운 언어

모듈러 매니폴드, '신경망 최적화'를 위한 새로운 언어

Thinking Machines Lab이 다시 쓰고 있는, ‘기하학을 이해하는 인공지능’ 기반의 신경망 학습과 최적화 프레임웍

Ksenia Se & Ben Eum
October 20, 2025

들어가며

자, 오늘은 아주 흥미로운 이야기를 해 볼까 합니다.

오픈AI의 전 CTO였던 미라 무라티(Mira Murati), 그리고 미라가 설립한 AI 스타트업, Thinking Machines Lab에 대해서 많은 분들이 들어보셨으리라 생각합니다.

이 팀은 실질적인 AI 연구를 도와주고 모델의 파인튜닝을 쉽게 할 수 있게끔 해 주는 API인 Tinker라는 도구를 최근에 출시하면서 많은 사람들에게 깊은 인상을 남겼습니다. LoRA, 그리고 LLM의 비결정적(Nondeterministic) 특성에 대한 이 팀의 연구 역시 개발자, 연구자, 사용자들이 오랫동안 궁금해하던 질문들에 답을 주고 있기도 하구요.

아직 제대로 된 상용 제품도 내놓지 않은 회사지만 20억 달러의 투자를 받고 120억 달러 기업가치로 평가받고 있는 이 스타트업, 정말 놀랍죠. 그리고 Thinking Machines Lab의 블로그는, 글을 많이 올리지는 않지만 아주 좋은 정보와 인사이트를 담고 있다고 평가받기도 하구요.

오늘 이야기해 볼 주제는, 이 Thinking Machines Lab이 주도하고 있는 모듈러 매니폴드(Modular Manifold)에 대한 이야기입니다.

‘모듈러 매니폴드’는 기하학적인 관점에서 신경망을 최적화하는 작업을 바라봅니다. 신경망의 각 계층을 기하학적인 모듈로 바라보고, 전체의 신경망을 아주 조화로운 기하학적 시스템으로 만들겠다는 생각을 해 보는 거죠. 이렇게 접근해 보면, 기하학, 파라미터 업데이트에 대한 민감성, 학습 과정 등이 각각의 계층에서 어떻게 서로 영향을 미치는지 명확하게 생각해 볼 수가 있습니다.

Thinking Machines Lab에서는 자사 연구원들의 연구 뿐 아니라 이전의 연구 커뮤니티에서 부분적으로 진행해 온 학계 전체의 성과를 집대성했고, 그 결과로 이런 접근 방식이 모델 전체를 더 안정적으로, 더 일관적으로 최적화할 수 있다는 걸 보여줬습니다.

이 새로운 관점의 최적화 접근 방식을 잘 이해하려면, 가중치, 그래디언트, 놈(Norm), 모듈러 놈, 매니폴드, 모듈러 매니폴드, 모듈러 이중성(Duality) 같은 핵심적 개념들을 하나하나 알아가야 합니다. 그리고 이런 많은 요소들이 하나의 계층, 그리고 전체 시스템에서 어떻게 작동하는지 이해하면, 지금의 최적화 알고리즘들을 한 단계 업그레이드할 수 있게 되지 않을까요?

오늘 에피소드에서는, 다음과 같은 내용을 커버합니다:

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

가중치, 활성화값, 그래디언트, 그리고 정규화

튜링 포스트 코리아를 보시는 분들은 정말 다양한 분들이예요 - 아주 깊은 지식을 가지고 연구하시는 분들도 있고, 이제 AI에 관심을 가지기 시작하신 분들도 많습니다. 그래서, 일단은 가능한 한 많은 분들이 오늘 에피소드를 재미있게 보시고 이해하실 수 있으면 좋겠다는 마음으로 글을 씁니다.

편집자 주

지금부터 설명할 여러 가지 기초적인 개념들, 이미 알고 계시는 분들은, 이 부분은 건너뛰셔도 좋겠습니다. 혹여 빠르게 복습해 보고 싶은 분들은 계속 해서 읽어 보시구요.

신경망을 학습시킨다고 할 때, 우리가 바라는 상황은 어떤 걸까요?

아마도 안정적으로, 예측 가능하게, 통제가 잘 되면서 학습이 진행되는 걸 겁니다. 다시 말하면, 신경망 안에 있는 모든 수치들 - 가중치, 활성화값, 그래디언트 등 - 이 갑자기 스파이크를 일으키든가, 너무 커지든가, 아니면 너무 작아지지 않도록 균형감있게 유지를 해야 한다는 뜻이죠. 우선, 이 용어들이 뭘 의미하는지 간단히 터치해 볼께요:

가중치 (Weights)
가중치는, 신경망 뉴런들 사이의 ‘연결의 강도’를 일컫는 숫자들이죠. 쉽게 말해서, 각 계층들은 연결하는 행렬의 값으로, 한 뉴런의 출력이 다음 뉴런에 얼마나 영향을 미치는지를 결정합니다. 이미지 모델이라면, 어떤 패턴(모서리, 색상, 모양)이 중요한 패턴인지 찾아내고, 언어 모델에서라면 어떤 단어나 개념들이 서로 연관이 있는지, 얼마나 강하게 연결되어 있는지를 파악합니다. 학습 과정에서, 모델은 오류를 줄이기 위해서 계속해서 가중치를 조정합니다.
활성화값 (Activation)
가중치가 ‘입력이 강도’를 결정한다고 하면, ‘활성화값’은 각 뉴런이 그 입력들을 처리한 다음 얼마나 강하게 ‘반응’하는지를 나타냅니다. 뉴런의 출력값에 적용되는 함수죠. 신호를 다음 계층으로 전달할지, 그리고 얼마나 강하게 전달할지를 결정합니다. 각각의 뉴런은 입력값들을 받아서 가중치를 곱하고 바이어스(Bias)를 더한 다음에, 그 결과를 다양한 활성화 함수(ReLU, sigmoid, tanh 같은 것들)에 통과시킵니다. 이 단계에서 나오는 숫자가 활성화값이구요. 활성화값은 비선형성(Non-Linearity)을 도입해서, 모델이 복잡한 패턴을 배울 수 있게끔 해 줍니다.
그래디언트(Gradient)
그래디언트는 모델이 손실함수로 측정되는 ‘오류’를 최소화하기 위해서 파라미터를 어떻게 조정할지를 가이드하는 벡터입니다. 그 목적은, 모델이 더 나은 ‘예측값’을 찾아가게끔 하는 거예요. 이런 그래디언트를 사용해서 가중치를 업데이트하는 과정을 ‘역전파(Backpropagation)’라고 부르죠.

Image Credit: ChatGPT 검색

이 계산 과정에서, 지나치게 큰 폭의 변화 - 스파이크 - 를 피하려고, 연구자들은 보통 ‘정규화(Normalization)’라는 기법을 사용합니다. 값들을 재조정해서 합리적인 범위 안으로 유지하는 거예요. 예를 들어서, 활성화값들을 평균 0, 표준편차 1 정도로 유지하는 식으로요. 활성화값이나 그래디언트에는 자주 적용되지만, 가중치 행렬의 경우에는 상대적으로 덜 적용됩니다.

그래서 Thinking Machines Lab은 흥미로운 아이디어를 제시했어요: 바로, 가중치 행렬을 적절한 범위 안에서 통제하기 위해서, 학습 과정 중에 특정한 구조의, 의미있는 공간, 즉 ‘매니폴드(Manifold)’로 제한을 하겠다는 겁니다. 이 기법은, 기하학의 개념과 최적화 기법을 결합해서, 학습은 더 안정적으로 되고, 더 좋은 수치적 특성을 모델이 보여줄 수 있게 하는, 최적화 알고리즘을 그 알고리즘이 작동하는 공간과 함께 설계하는 새로운 관점을 보여줍니다.

자, 그럼 이 과정을 좀 더 가까이서 들여다보면서 ‘최적화의 새로운 방향’을 탐색해 볼까요?

‘매니폴드 최적화’라는 아이디어

우선, 핵심적인 용어들을 명확히 정리하는게 중요합니다.

‘매니폴드’는 곡면/곡선 공간인데, 충분히 가까이 확대를 해 보면 평평해 보인다는 특성을 나타냅니다. 현실에서 예시를 찾아보자면, 우리가 사는 ‘지구’도 좋은 예입니다. 지구는 분명 둥글지만, 우리가 살면서는 평평하게 느끼잖아요?

수학, 그리고 AI에서의 매니폴드는 ‘데이터나 모델의 파라미터들이 특정한 제약 조건 아래에서 “존재하는” 공간’을 설명합니다. 몇 가지 예를 들어볼께요:

구(Sphere)의 표면은 매니폴드의 한 예시입니다. 구 표면의 모든 점이 중심으로부터 같은 거리에 있다는 제약 조건이 있죠.
Stiefel 매니폴드는 모든 열이 직교하고 단위의 길이를 갖는 행렬들의 공간입니다. 가중치 행렬을 잘 구조화되어 있으면서도 수치적으로 안정적으로 유지하게끔 하는데 자주 사용합니다.

Image Credit: Computing the Riemannian Logarithm on the Stiefel Manifold: Metrics, Methods, and Performance

그렇다면, 매니폴드가 어떻게 최적화에 도움을 줄까요?

‘매니폴드 최적화’는 모델의 파라미터들이 평평한 유클리드 공간에서 자유롭게 움직이는게 아니라, 특정한 기하학적 표면(매니폴드) 위에 머물게금 제약 조건을 줍니다. 표준적인 그래디언트 단계를 거친 다음에 파라미터를 다시 투영(Projection)하는 방식 대신에, 최적화 알고리즘은 매니폴드의 접선 공간(Tangent Space) 안에서 움직입니다. 마치, 조심스럽게 작은 발걸음을 내디딜 수 있는 로컬의 운동장 같은 겁니다. 이렇게 하면, 각각의 업데이트가 항상 매니폴드의 기하학적인 특성과 일치하게 되겠죠.

Image Credit: Jeremy Bernstein, "Modular Manifolds", Thinking Machines Lab: Connectionism, Sep 2025

각각의 단계를 거친 다음에, 파라미터들은 ‘Retraction’을 통해서 다시 매니폴드 위로 되돌려 집니다.

Retraction(재접힘) 은, “업데이트한 파라미터를 다시 매니폴드 위로 되돌리는 과정”이라고 할 수 있겠습니다. 학습하는 과정에서 파라미터를 업데이트하다가, 업데이트된 파라미터가 매니폴드 바깥으로 벗어날 수 있는데, 그래서 ‘Retraction’을 통해서 다시 그 제약 조건을 만족하게끔 살짝 조정하는 거라고 이해하시면 됩니다.

편집자 주

Image Credit: Jeremy Bernstein, "Modular Manifolds", Thinking Machines Lab: Connectionism, Sep 2025

일반적으로, ‘매니폴드 최적화’ 과정은 이렇습니다:

먼저, 표면(Surface)을 따라 움직일 가장 좋은 방향을 찾습니다 - 접선 공간 안에서요.
그 다음, 선택한 거리 측정법에 따라서 작은 한 발을 내디딛습니다 - 보통은 유클리드 거리를 쓰지만, 다이아몬드 모양의 기하학을 만드는 ℓ₁ 놈(맨해튼 디스턴스) 같은 다른 방법들도 있습니다.
마지막으로 ‘Retraction’을 합니다. 부드럽게 매니폴드 표면으로 다시 미끄러져 돌아가는 거죠.

어떤 매니폴드를 선택하고 어떤 거리 측정법을 쓰는지에 따라서 ‘최적화 알고리즘의 동작이 결정’됩니다. 예를 들어보면:

유클리드 공간을 사용하면 표준의, 가장 기본적인 경사 하강법(Gradient Descent)입니다.
하이퍼스피어(Hypersphere)를 사용하면 초구 하강법(Hyperspherical Descent)이 됩니다.
행렬에 스펙트럴 놈(Spectral Norm)으로 제약 조건을 걸면, Muon이 됩니다.
Stiefel 매니폴드에 스펙트럴 놈 제약을 적용하면 매니폴드 뮤온(Manifold Muon)이 되는데, 이건 직교성을 유지하면서 대규모의 신경망 학습 과정에서 안정성을 보장하는, Muon의 확장 버전입니다.

위에서 마지막에 이야기한 매니폴드 뮤온이, 매니폴더 최적화를 좀 더 깊이 살펴볼 수 있는 좋은 예시가 됩니다.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고 기회 제공

매니폴드 뮤온(Muon)은 무엇인가?

매니폴드 뮤온(Manifold Muon)을 이해하기 위해서, 먼저 신경망 계층 내부에서 무슨 일이 일어나는지 살펴봅시다.

가중치 행렬 𝑊는 입력 벡터 𝑥를 받아서 출력 𝑦로 변환합니다. 𝑦=𝑊𝑥라는 공식이죠. 이상적이라면, 이 변환이 입력을 너무 늘리거나 줄여서는 안 되고, 𝑊에 대한 작은 업데이트도 𝑦에 큰 불안정한 변화를 일으키면 안 됩니다.

행렬이 이런 식으로 어떻게 동작하는지 이해하기 위해서, 특이값 분해(SVD; Singular Value Decomposition)라는 기법을 사용합니다.

SVD는 어떤 행렬 𝑀을 세 부분으로 분해합니다. 𝑀 = 𝑈 Σ 𝑉⊤ 이렇게요. 여기서 𝑈와 𝑉는 정규직교 열(Orthonormal Columns)을 가진 행렬입니다. 즉, 그 열들이 서로 직각을 이루고 단위 길이를 가진다는 뜻이에요. 그리고 Σ는 특이값들을 포함하는 대각 행렬입니다.

Image Credit: Jeremy Bernstein, "Modular Manifolds", Thinking Machines Lab: Connectionism, Sep 2025

특이값(Singular Values)은 행렬이 어떤 방향으로든 벡터를 얼마나 늘릴 수 있는지를 나타냅니다. 만약 모든 특이값이 1과 같다면, 그 행렬은 입력 벡터의 길이를 보존합니다. 신호를 증폭하거나 약화시키지 않는다는 뜻이죠 - 그리고 이게 바로 우리가 안정적인 가중치 행렬에서 원하는 것이구요. 그렇다면 매니폴드 뮤온은 여기서 어떻게 도움이 될까요?

매니폴드 뮤온은 이미 스펙트럴 놈(행렬의 가장 큰 특이값)을 사용해서 가중치 업데이트의 크기를 제한하는 뮤온 최적화 알고리즘을 기반으로 하는데, 여기에 한 층의 구조를 더 추가합니다. 가중치 업데이트를 Stiefel 매니폴드의 접선 공간 안에 머물도록 제약해서, 행렬 𝑊의 열들이 직교 상태를 유지하도록 보장하는 거예요.

조금 더 쉽게 설명해 보면, 매니폴드 뮤온은 단순히 “가중치가 너무 커지지 않게 막는” 수준을 넘어서, 가중치 행렬이 정보의 균형을 잃지 않도록 그 구조 자체를 지켜주는 방법입니다. 신경망이 학습을 계속해도 각 축(열 벡터)들이 서로 간섭하지 않고 직교성을 유지하게 해서, 입력 신호가 왜곡되거나 특정 방향으로 쏠리지 않게 되는 겁니다. 덕분에 모델은 더 안정적으로 학습하고, 출력의 품질도 흔들리지 않게 됩니다.

실험 결과는 꽤 인상적이예요. 매니폴드 뮤온은 CIFAR-10이라는 작은 벤치마크에서 AdamW보다 높은 학습 정확도와 테스트 정확도를 달성했고, 특이값들을 1에 가깝게 유지했습니다. 이 값들을 1 근처에 유지한다는 건, 모델이 정보를 계층 사이에서 깔끔하게 전달한다는 뜻입니다. 과도하게 늘어나거나 붕괴하지 않고 말이에요.

Image Credit: Jeremy Bernstein, "Modular Manifolds", Thinking Machines Lab: Connectionism, Sep 2025

(P.S. AdamW는 신경망의 각 가중치를 자신만의 적응형 학습률로 조정하는 최적화 알고리즘입니다. Adam 최적화 알고리즘처럼 작동하면서도, 가중치가 시간이 지나면서 너무 커지지 않도록 별도의 가중치 감소(Weight Decay) 항을 적용합니다.)

자, 조금 개념적이고 어려웠지만, 여기까지 오면 필수적인 이론 부분은 끝난 겁니다. 개념만 이해하셔도 괜찮구요

그럼 이제, Thinking Machines Lab 연구의 핵심으로 넘어가 볼까요?

모듈러 매니폴드: 네트워크 전체 최적화

위에서 설명한 내용은, 모델의 개별 계층에만 적용되는 것이죠. 하지만 실제 신경망은 수많은 계층들을 겹겹이 쌓아서 만들어지잖아요? 각 계층이 입력을 변환하고 다음으로 전달하죠.

그렇다면, 모든 계층이 자신만의 기하학적인 규칙을 따른다고 할 때, 이 모든 계층들을 연결했을 때 이 규칙들은 어떻게 합쳐지게 될까요?

바로 이것을 설명하는 개념이 ‘모듈러 매니폴드 이론’입니다.

모듈러 매니폴드는 기하학적 추론과 매니폴드 최적화를 개별 계층에서 전체 신경망으로 확장하는 방법을 제시합니다. 계층 전체에 걸쳐서 학습률을 체계적이고 일관되게 배분하는 방법을 보여주는 겁니다.

기본 작동 원리

각 계층(즉, "모듈")은 세 가지 요소로 설명할 수 있습니다.

전방향(Forward) 함수 – 계층이 입력을 출력으로 변환하는 방식입니다. 예를 들어 선형 계층이라면 𝑦 = 𝑊𝑥 같은 식이죠.
매니폴드 제약(Constraint) – 가중치가 ‘머물러야’ 하는 기하학적인 표면입니다. Stiefel 매니폴드처럼 열들이 직교 상태를 유지해야 하는 경우가 있죠.
놈(Norm) – 가중치 변화의 크기를 측정하는 방법입니다. 예를 들어서, 스펙트럴 놈은 행렬이 벡터를 얼마나 늘릴 수 있는지를 추적합니다.

이런 설정을 통해서, 계층의 출력이 가중치의 변화에 얼마나 민감한지를 이해할 수 있습니다. 이걸 리프시츠 상수(Lipschitz Constant)를 통해서 측정할 수 있는데, 이 상수는 출력이 움직이는 양과 입력이 움직이는 양의 최대 비율입니다. 계층이 작은 입력 변화를 얼마나 크게 증폭하거나 왜곡할 수 있는지를 보여주죠. 어떤 계층이 1-리프시츠라는 것은 작은 가중치 변화가 비례하게 작은 출력 변화를 일으킨다는 뜻이고, 이건 ‘예측 가능하고 안정적’인 상태를 나타냅니다.

계층을 연결할 때

모듈러 매니폴드는 계층들의 기하학적 규칙과 최적화 규칙이 어떻게 합쳐지는지를 정의합니다.

새로운 전방향 함수는 단순히 한 계층의 출력이 다음 계층으로 들어가는 단순한 구조로 만들어집니다. 따라서, 두 계층이 전방향 함수 𝑓₁과 𝑓₂를 가질 때, 이들은 수학적으로는 이렇게 합성됩니다:
- f₃((w₁, w₂), x) = f₂(w₂, f₁(w₁, x))
반면에 매니폴드 제약(Manifold Contraints)을 결합한다는 것은 기하학적 표면들을 함께 쌓는 것과 같은 모습입니다. 함께 쌓는다는 표현이 좀 어렵다면 ‘첫 번째 표면과 두 번째 표면을 동시에 고려하는 것’ 정도로 이야기해도 되겠습니다. 어쨌든 더 복잡한 구조적 제약을 갖게 되겠죠:
- M₃ = M₁ × M₂
- 이 새로운 제약은 ‘데카르트 곱(Cartesian Product)’으로, 한 매니폴드의 모든 점, 그리고 다른 매니폴드의 모든 점을 짝지어서 두 개의 매니폴드를 결합하는 겁니다. 모듈러 매니폴드에서는, 이건 ‘두 계층이 만들어낼 수 있는, 가능한 모든 공동의 구조’를 나타냅니다 - 마치 직선과 원이 원기둥을 만드는 것처럼요.
마지막으로, 새로운 놈(Norm)은 두 계층의 놈을 아래와 같이 결합합니다. 아래 공식을 보면, 두 계층 중 더 큰 변화를 보이는 쪽을 기준으로 삼는 방식이죠. 네트워크 전체에 걸쳐서, 학습률 예산처럼 작동하는 계수 - 여기서는 s₁과 s₂ - 로 스케일링됩니다:
- ∥(w₁, w₂)∥₃ = max(s₁∥w₁∥₁, s₂∥w₂∥₂) (여기서 s₁과 s₂는 스케일링 계수)

실질적으로 보면, 각 계층은 여전히 자신만듸 매니폴드 최적화 알고리즘을 사용합니다. 하지만 학습률(Learning Rate)은 전체 모델의 맥락에서 그 계층이 얼마나 민감한지에 따라서 조정됩니다.

모듈러 매니폴드는 계층들이 어떻게 상호작용하는지 이해하는 최적화 알고리즘을 설계하게끔 도와줍니다. 모델의 한 부분에서의 업데이트가 실수로 다른 부분을 불안정하게 만들지 않도록 보장하면서요.

모듈러 놈에 대해 좀 더 알아보기

모듈러 놈 부분을 조금 더 자세히 살펴볼 가치가 있다고 생각하는데요. 가중치의 민감성을 조절하는데 큰 역할을 하니까요.

모듈러 놈은 전체적인 아키텍처에 걸쳐서 가중치가 어떻게 업데이트되고 있는지 측정하고 정규화하는 일관된 방법을 제공하는 도구로 기능합니다. 개별적인 계층의 자연스러운 놈(Norm)들을 하나의 글로벌 놈으로 결합하는데, 이 때 전체 네트워크의 구조를 반영하게 됩니다. 마치 서브모듈의 상대적 학습률을 제어하는 웨이트 파라미터를 통해서 각각의 계층에 자신만의 학습 예산을 주는 것처럼요.

모듈러 놈(Modular Norm)은 신경망이 여러 계층으로 이루어져 있을 때, 각 계층이 얼마나 “민감하게” 반응하는지를 전체 구조 안에서 균형 있게 측정하는 방법이에요. 보통 각 계층은 서로 다른 역할과 형태를 가지고 있어서, 어떤 계층은 아주 작은 변화에도 출력이 크게 요동치고, 어떤 계층은 거의 변하지 않기도 합니다. 이런 불균형이 쌓이면 모델 전체가 불안정해지고 학습이 잘 되지 않아요. 그래서 모듈러 놈은 각 계층이 가진 고유한 성질(가중치, 구조, 제약 조건)을 고려해서 전체 모델이 일관된 스케일로 움직이도록 정규화하는 기준을 제공합니다. 즉, 신경망의 복잡한 구조 속에서도 ‘이 계층이 얼마나 변해야 적당한가’를 자동으로 조정해주는 역할을 하는 거죠.

이 놈(Norm)은 네트워크의 구조로부터 재귀적으로 정의됩니다. 말이 어렵지만, 간단히 말하면 “아래 계층의 반응이 위 계층의 계산에 자연스럽게 반영되도록 연결되어 있다”는 뜻이에요. 각 계층은 자기 몫의 ‘놈 값’을 계산하고, 그 값이 차례로 다음 계층으로 전달되어 전체 네트워크의 종합적인 민감도를 만들어냅니다. 그래서 네트워크의 출력이 각 계층의 변화에 얼마나 민감한지를 전체적으로 파악할 수 있게 됩니다.

이 과정에서 매니폴드 제약(예: Stiefel 매니폴드의 직교성 제약)이 포함되면, 학습률이 기하학적으로 조정됩니다. 즉, 어떤 계층이 이미 민감하게 반응하고 있다면 그 계층은 더 천천히, 둔감한 계층은 더 빠르게 학습하도록 조율된다는 겁니다. 그 결과, 모델 전체가 폭주하지 않고 균형 잡힌 학습률로 안정적으로 학습할 수 있습니다.

이 모듈러 놈은 새로운 알고리즘이 아니라, 기존의 Adam이나 SGD 같은 최적화 알고리즘 속에 정규화 계층처럼 삽입되어서 작동합니다. 예를 들어서, Adam이 가중치를 업데이트할 때, 먼저 모듈러 놈을 사용해서 “이 가중치 변화가 전체 모델에 비해 너무 크거나 작은가?”를 계산하고, 그 크기를 조정한 뒤에 업데이트를 진행하는 식이에요. 이렇게 하면 모델의 폭(너비)이나 깊이(계층 수)가 늘어나더라도 학습률을 다시 조정하거나 보정할 필요가 없습니다. 모델 크기와 상관없이 동일한 학습 리듬을 유지할 수 있게 되는 거죠. 이걸 “아키텍처 인식형 정규화(Architecture-Aware Normalization)”라고 합니다.

그리고 이 아이디어는 자연스럽게 모듈러 이중성(Modular Duality) 으로 확장됩니다. 지금까지의 모듈러 놈이 “가중치 변화의 크기”를 다뤘다면, 모듈러 이중성은 “그래디언트(Gradient; 기울기)가 어떻게 변해야 하는가”를 다룹니다. 즉, 놈이 학습 속도(얼마나 세게 밟을지)를 조절했다면, 이중성은 학습 방향(어디로 밟을지)을 결정합니다. 기울기를 단순하게 수학적 벡터로 다루는 게 아니라, 매니폴드의 기하학적 구조를 고려해서 그 방향을 보정하는 거예요.

결국 이 두 가지 — 모듈러 놈과 모듈러 이중성 — 은 신경망이 단순히 빠르게 학습하는 것에 그치지 않고, 기하학적으로 일관되고 안정적인 방식으로 학습하게 만드는 기반입니다. 각 계층이 제각각 다른 공간(매니폴드) 위에서 자기 규칙을 따르더라도, 전체 모델은 하나의 조화로운 시스템으로 움직이게 됩니다. 즉, 모듈러 놈은 모델의 “리듬”을 잡고, 모듈러 이중성은 그 “방향”을 맞추는 역할을 하는 거라고 보시면 될 것 같습니다.

왜 이중성(Duality)이라고 부를까요?

왜 이런 일이 일어나냐면, 그래디언트는 가중치와 같은 공간에 있지 않기 때문이에요. 그래디언트는 사실상 ‘이중 벡터(Dual Vector)’라서, 가중치 공간이 아니라 그 공간의 이중 공간(Dual Space) 에 속합니다. 쉽게 말해, 가중치가 ‘위치’라면 그래디언트는 그 위치에 작용하는 ‘힘’이라고 볼 수 있습니다.

그래서 단순히 “가중치에서 그래디언트를 그냥 빼는 것”은 물리적으로 말이 안 됩니다. 그래디언트는 가중치와 같은 차원의 벡터처럼 보이지만, 실제로는 서로 다른 기하학적 공간에서 정의된 존재거든요. 따라서 가중치를 업데이트하기 전에, 그래디언트를 이중성 맵(Duality Map) 을 통해 한 번 변환해야 합니다. 이 맵은 그래디언트를 그 공간의 올바른 형태로 바꾸는 역할을 합니다 — 마치 ‘힘’을 ‘위치 변화’로 바꿔주는 변환기처럼요.

모듈러 이중성(Modular Duality)은 바로 이 과정을 재귀적이고 기하학적으로 일관된 방식으로 만들어줍니다. 즉, 각 계층의 그래디언트를 단순히 수치적으로 더하는 게 아니라, 그 계층의 매니폴드(Manifold, 기하학적 표면) 에 맞게 변환하고 조정하는 규칙을 따르게 합니다. 이렇게 하면 학습이 실제로 모델의 구조에 맞는 올바른 방향과 거리에서 일어나게 되죠.

이 과정을 통해 생기는 효과는 단순히 “더 정교하다”가 아니에요. 이렇게 기하학적으로 일치하는 업데이트를 하면, 그래디언트가 잘못된 방향으로 흘러가서 학습을 느리게 하거나 불안정하게 만드는 일이 줄어듭니다. 실제로는 속도(Speed) 와 확장성(Scalability) 이 모두 개선되게 됩니다. 즉, 모델이 커져도 학습이 자연스럽게 이어지고, 계산량이 늘어나도 효율적으로 유지됩니다.

이 세 가지가 함께 만드는 힘

모듈러 매니폴드, 모듈러 놈, 모듈러 이중성 이 세 가지는 신경망에서 ‘기하학 인식형 최적화(Geometry-Aware Optimization)를 할 수 있게 해 주는, 하나로 통합된 이론적이면서도 실용적인 틀을 구성합니다. 여기서 각각의 역할은 이렇습니다:

모듈러 매니폴드 – 기하학이 신경망의 계층들을 어떻게 함께 묶는지를 설명합니다.
모듈러 놈 – 이 글로벌 매니폴드에 걸쳐서 가중치 업데이트를 측정하고 정규화하는 일관된 방법을 제공합니다. 최적화 알고리즘이 그 기하학 요소들이 안전하고 효율적으로 움직이게금 가이드하는 겁니다.
모듈러 이중성 – 같은 모듈러 틀을 그래디언트 업데이트에 적용합니다. 모든 계층에서 모듈러 놈과 매니폴드 기하학과 일치하는 방식으로 그래디언트를 가중치 업데이트를 할 수 있게 변환합니다.

지금까지 살펴본 측면을 모두 함께 모아보면, 모듈러 매니폴드 최적화 개념의 장단점을 확인해 볼 수 있을 겁니다.

모듈러 매니폴드의 장점

모듈러 매니폴드가 가져다주는 장점은 이런 것들이 있습니다:

계층 간 기하학적 일관성 (Geometric Consistency Across Layers)

모듈러 매니폴드는 각 계층의 최적화가 네트워크 전체의 기하학적 구조와 정렬되게끔 조화를 유지합니다. 그 결과로, 네트워크가 깊어져도 가중치의 변화가 안정적으로 이어지고, 계층 간 학습 흐름이 자연스럽게 맞물리게 됩니다.

내장된 정규화와 안정성 (Built-in Normalization and Stability)

가중치를 매니폴드(Manifold) 위에 제약하면, 그 크기가 일정하게 유지되면서 그래디언트 폭주(Exploding) 나 소실(Vanishing) 같은 문제를 예방할 수 있습니다. 즉, 네트워크가 자기 구조에 맞는 적절한 스케일로 학습하도록 도울 수 있습니다.

모듈러 놈 덕분에 가능한 구조적 학습률 관리 (Structured Learning Rate Budgeting Thanks to Modular Norm)

모듈러 놈(Modular Norm)은 각 계층의 민감도와 구조를 고려해서 학습률을 자동으로 조정합니다.
그래서 전체 네트워크가 균형 잡힌 속도로 학습할 수 있고, 특정한 계층이 과도하게 움직이거나 뒤처지는 일을 막습니다.

암묵적 정규화로 부드러운 최적화 경로 확보 (Implicit Regularization)

모듈러 매니폴드는 가중치의 자유도를 자연스럽게 제한해서, 업데이트 경로가 과도하게 요동치지 않고 부드럽게 이어지도록 만듭니다. 이렇게 되면 모델의 일반화 능력이 높아지고, 학습 과정이 훨씬 안정적으로 진행되게 됩니다.

Muon이나 AdamW 같은 옵티마이저와의 통합 (Integration with Optimizers like Muon or AdamW)

이 프레임웍은 기존 옵티마이저(Optimizer)와도 잘 어울립니다. 학습 루프를 바꾸지 않고도, 매니폴드 인식형(Manifold-Aware) 업데이트를 추가할 수 있습니다.

최적화·기하학·모델 설계를 하나로 묶는 통합적 관점 (Unified View of Optimization, Geometry, and Architecture Design)

모듈러 매니폴드는 최적화, 기하학, 그리고 모델의 구조적 설계를 하나로 연결합니다. 각 계층을 독립적인 모듈로 다루면서도, 모두가 같은 수학적 규칙과 언어를 공유하는 일관된 시스템을 만드는 거죠.

물론, 이제 막 탐구를 시작하고 있는 떠오르는 영역이니까, 주의 깊게 살펴봐야 할 한계점들이 있습니다.

한계점

매니폴드 연산은 계산 비용을 높입니다

매니폴드 연산(Manifold Operations)은 보통 추가적인 행렬 계산을 필요로 합니다. 예를 들어 SVD(특이값 분해)나 행렬 부호 함수(Matrix Sign Function) 같은 복잡한 수학적 처리가 포함되죠. 이런 연산은 계산량을 늘리고, 결과적으로 훈련 속도를 느리게 만들 수 있습니다.

아직은 연구가 진행 중인 영역입니다

모듈러 매니폴드 접근법은 아직 비교적 새로운 개념이고, 따라서 대규모 네트워크에서 충분히 검증되었다고 말하기는 어렵습니다. 현재까지는 작은 모델이나 중간 규모의 네트워크에서 주로 실험되고 있습니다.

각 모듈에 적합한 매니폴드를 고르는 일

모든 계층이 같은 매니폴드 제약을 가지는 건 아닙니다. 즉, 어떤 계층에는 구면(Sphere)이, 어떤 계층에는 스티펠(Stiefel) 매니폴드가 더 잘 맞을 수 있어요. 이 선택은 모델의 아키텍처적 의미(Architecture Semantics)에 따라 달라지기 때문에, 아직 정답이 없는 부분입니다.

제약된 가중치 공간과 저정밀 학습의 충돌 가능성

가중치를 매니폴드 위에서 제약하면, 그 구조가 혼합 정밀도(Mixed Precision) 나 양자화(Quantized) 학습 방식과 예상치 못한 방식으로 상호작용할 수 있습니다. 저정밀 수(float16 등)는 반올림 오차(Rounding Error)를 일으켜서, 학습 과정의 안정성을 떨어뜨릴 위험이 있습니다.

수렴 특성과 확률적 그래디언트의 거동은 아직 연구 중

모듈러 매니폴드가 실제 학습 과정에서 어떻게 수렴하는지, 또 확률적 그래디언트(Stochastic Gradient)와 어떻게 상호작용하는지는 아직 활발히 연구되고 있는 주제입니다. 즉, 이 접근법의 장점은 분명하지만, 이론적·실험적 완성도는 아직 발전 중인 단계라는 점을 역시 염두에 두어야 합니다.

맺으며

오늘 살펴본 ‘모듈러 매니폴드 최적화(Modular Manifolds Optimization)’, 아직 초기 단계의 기법이지만, 딥러닝 시스템을 더 빠르고 안정적으로, 동시에 더 이해하기 쉬운 형태로 발전시킬 가능성을 보여주는 방향이라고 하겠습니다.

즉, 지금까지는 ‘예술(Art)’처럼 느껴졌던 최적화라는 과정을, 이제는 공학(Engineering) 에 가까운 체계적인 프로세스로 바꾸려는 시도 중의 하나라고 할 수 있습니다.

기하학(Geometry), 최적화(Optimization), 그리고 모듈러 설계(Modular Design)를 결합함으로써 — (사실 ‘모듈러 접근법’은 지금 AI와 머신러닝에서 가장 흥미롭고 유망한 방향 중 하나이기도 하죠) — 모듈러 매니폴드는 신경망의 학습이라는 과정이 아키텍처 설계만큼이나 구조적이고 원칙적인 과정으로 진화할 수 있는 미래를 우리에게 살짝 보여주고 있습니다.

Thinking Machines Lab은 이 다층적이면서도 흥미로운 분야의 발전에 더 많은 사람들이 참여하고, 직접 탐구해보기를 권장하고 있는 스타트업입니다. 아직 개척되지 않은 영역이 많다는 건, 그만큼 진짜 변화를 만들어낼 기회가 많다는 뜻이기도 하겠죠? 어쩌면 여러분의 연구, 그리고 실 환경에 적용하려는 시도가, 이 새로운 방향의 다음 단계를 여는 시작이 될지도 모르겠습니다.

앞으로도 이 방향의 연구와 적용에 함께 관심을 가지고 지켜보시죠!

오늘의 에피소드가 도움이 되셨다면, 커피 한 잔으로 후원해 주세요. 여러분의 피드백, 후원은 큰 힘이 됩니다!

보너스: 참고자료

Other Thinking Machines Lab studies and developments

Defeating Nondeterminism in LLM Inference
LoRA Without Regret
Tinker (a training API)

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.