네모트론 3와 AI 연합군: 엔비디아가 설계한 ‘오픈 소스’ 역습

돌이켜 보면, 지난 수년 동안 ‘AI를 둘러싼 가열찬 경주’는 전세계를 이끄는 프런티어 기업과 연구소가 혼자서 빠르게 달려나가는, 평행선을 그리는 스프린트였다고 할 수 있을 것 같습니다. 하지만 만약, 영향력 있는 AI 연구소들이 지금까지처럼 경쟁 일변도로 가는 대신, 숙련된 개발자 및 연구진과 함께 힘을 합쳐 프론티어 모델을 구축하려고 한다면 어떨까요?

이게 정확히 여러분의 머릿속에 떠오르는 모습일지까지는 모르겠지만, 네모트론 연합(Nemotron Coalition)이라는게 그런 모습들 중 하나가 아닐까 합니다. 엔비디아(NVIDIA)는 네모트론 모델군을 개발하고 발전시키기 위해서 선도적인 AI 기업들로 이루어진 글로벌 협력체를 구성했고, 이 발표를 네모트론 3(Nemotron 3)을 오픈소스화한다는 결정과 함께 공개했습니다.

아마 많이들 아시는 이름들일 거에요: 블랙 포레스트 랩스(Black Forest Labs), 커서(Cursor), 랭체인(LangChain), 미스트랄 AI(Mistral AI), 퍼플렉시티(Perplexity), 리플렉션 AI(Reflection AI), 사르밤 AI(Sarvam AI), 씽킹 머신즈 랩(Thinking Machines Lab).

이 기업들은 일반적으로 외부에 공개하지 않는 데이터, 평가 시스템, 연구 인사이트, 심지어 컴퓨팅 자원까지 공유하고 있는 것으로 알려져 있는데, 궁극적인 목표는 어느 한 기업이 단독으로 구축할 수 있는 것보다 더 강력한 ‘공유 하이엔드 파운데이션 모델’을 만들고, 이를 더 전문화하는 것이라고 합니다. 이 움직임은 일종의 AI를 위한 공공 인프라이자, 생태계 전반에 걸쳐서 ‘진보가 복리로 축적되는’ 공동의 출발점이라고 할 수 있겠습니다. 누구나 그 토대를 가져와서 변화시키고 그 기반 위에 새로운 것을 구축할 수 있습니다.

이 주제는, 기술 스택이라는 측면 뿐 아니라 개발자 간의 협업 관점에서도, 일종의 새로운 현상이라는 점에서 아주 흥미롭습니다.

오늘 에피소드에서는, 엔비디아가 실제로 뭘 만든 건지 - 모델이든, 조직 연합체든 간에요 - 네모트론 3는 어떻게 동작하는지, 네모트론 연합이라는 협력체 뒤에 숨겨진 실제 권력의 역학 관계는 어떤 건지, 그리고 이게 오프 AI의 미래에 어떤 의미를 시사하는 걸지 등에 대해서 한 번 파헤쳐 보겠습니다.

❝

네모트론은 단지 모델이 아닙니다. 인공지능을 위한 개방형 생태계를 지원하려는 우리의 전체적인, 종합적인 접근 방식입니다.

브라이언 카탄자로(Bryan Catanzaro), 엔비디아 응용 딥러닝 연구 부문 부사장

오늘 다룰 내용은 아래와 같습니다:

엔비디아는 왜 네모트론 3를 만들고 오픈소스로 공개하나?
네모트론 3의 내부 구조
설계 원칙 요약
네모트론 연합: 누가 무엇을 만들고, 누가 권력을 쥐는가
이것이 시사하는 바는?
맺으며
보너스 및 참고자료

엔비디아는 왜 네모트론 3를 만들고 오픈소스로 공개하나?

네모트론 3는 지난 2년 동안 AI 업계를 지배해온 '폐쇄형 연구소' 방식과는 완전히 궤를 달리합니다. 엔비디아는 단순히 완성된 모델만 던져주는 게 아니라, 모델이 만들어지는 전 과정을 통째로 공개하고 있습니다.

구체적으로는 다음과 같은 것들이 포함된다고 합니다:

학습 데이터: 대규모 합성 추론 데이터셋을 포함한 원재료
학습 레시피: 사전 학습부터 강화 학습까지의 상세 설정값
사후 관리: 데이터 가공 파이프라인과 NeMo, NeMo RL, NeMo Gym 같은 핵심 개발 툴

더불어, 이 과정은 엔비디아 연합에 속한 기업들이 각자의 전문성을 발휘해 가면서 공동의 프로젝트를 진행할 수 있는 '협력의 씨앗' 역할을 합니다. 이 흥미로운 파트너십 이야기는 이 글의 뒷부분에서 더 자세히 다룰 예정이니 끝까지 놓치지 마세요.

자, 그렇다면 엔비디아는 왜 이렇게 '판'을 새로 짜려는 걸까요? 여기에는 아주 명확하고 합리적인 비즈니스 전략이 숨어 있습니다.

❝

네모트론의 첫 번째 임무는, 엔비디아가 회사로서 계속 존재할 수 있게 만드는 것입니다.

브라이언 카탄자로, 엔비디아 부사장 (Interconnects AI 인터뷰 중)

엔비디아는 하드웨어를 '더 빠르게' 만드는 가속 컴퓨팅 기업입니다. 하지만 어떤 하드웨어를 만들어야 할지 정확히 판단하려면, AI 모델이 내부적으로 어떻게 돌아가는지 완벽하게 꿰고 있어야 합니다.

그렇다고 경쟁자인 메타나 구글에 가서 "다음에 우리가 어떤 칩을 만들면 좋을까?"라고 물어볼 수는 없습니다. 그런 핵심 정보는 얻기도 힘들 뿐더러, 경쟁사들이 철저히 숨기는 일급 기밀이기 때문이예요.

그래서 엔비디아는 차세대 하드웨어 설계의 해답을 찾기 위해 직접 '프론티어 모델'을 학습시킵니다.

"어느 정도의 데이터 정밀도가 실제 성능에 결정적인가?"
"특정 아키텍처가 칩 설계에 어떤 영향을 미치는가?"
"학습 과정에서 구체적으로 어떤 병목 현상이 일어나는가?"

만약 네모트론을 직접 구축하지 않는다면, 엔비디아는 차세대 칩을 만들 때 마치 '눈을 가린 채 비행하는 것'과 다름없는 위험한 상황에 놓이게 될 수도 있겠죠.

엔비디아가 오픈 모델에 투자하는 또 다른 이유는 전체 AI 시장의 파이를 키우는, 일종의 '복리 베팅'이기 때문이겠죠. 이건 아주 치밀하고도 장기적인 전략입니다. 현재 엔비디아는 빅테크(하이퍼스케일러)부터 스타트업, 일반 기업, 그리고 국가 단위의 정부에 이르기까지 전 세계 거의 모든 곳과 손을 잡고 있습니다. 즉, AI 시장이 어떤 방향으로든 커지기만 하면 엔비디아는 반드시 이득을 보는 구조를 만든 셈입니다.

특히 엔비디아는 단순히 AI가 '사용'되는 단계뿐만 아니라, AI가 '만들어지는' 개발 프로세스 그 자체에서 수익을 창출합니다. 이게 바로 엔비디아가 오픈 생태계에서 독보적인 위치를 차지하게 된 비결이기도 합니다. 브라이언 카탄자로 부사장은 지난 GTC 2026의 강연에서 AI 업계가 가장 간과하고 있는 결정적인 사실 하나를 강조했습니다.

❝

실제 AI 구축에 들어가는 컴퓨팅 자원 중에 모델 학습에 쓰이는 비중은 3분의 1도 안 됩니다. 나머지 3분의 2, 많게는 4분의 3에 달하는 막대한 자원은 모델 주변의 실험, 합성 데이터 생성, 구축 프로세스 등에 사용됩니다.

브라이언 카탄자로, 엔비디아 부사장

이것이 엔비디아가 모델 가중치(Weight)뿐만 아니라 학습 레시피, 데이터셋, 절제 연구(Ablation Studies; 특정 기능을 제거했을 때 전체 성능에 어떤 영향을 미치는지를 확인하는 실험), RL 롤아웃까지 전부 공개하는 진짜 이유입니다. 다른 기업들이 영업비밀로 꼭꼭 숨기는 '개발 프로세스의 핵심'이야말로, 엔비디아가 오픈 생태계에 가장 크게 기여하면서 동시에 시장 지배력을 키울 수 있는 결정적 승부처라고 믿기 때문이겠죠.

이제 본격적으로 네모트론 3의 내부 아키텍처와 기술 스택이 왜 독보적인지 그 디테일을 좀 파헤쳐 보겠습니다.

네모트론 3의 내부 구조

최신 네모트론 3는 원시적인, 근본적인 모델의 지능을 높이는 것보다는 에이전틱(Agentic) AI와 함께 등장한 ‘시스템 수준의 병목 현상’을 해결하는 데 더 중점을 두고 있습니다.

멀티 에이전트 파이프라인을 구축하면, 길고 복잡해지는 컨텍스트를 실시간으로 추론해야 하는 지연 시간(Latency)과 최적화 문제에 직면하게 됩니다. 이런 시스템에서 컨텍스트는 비선형적으로 팽창합니다. 에이전트 간의 각 상호작용이 이전 상태, 도구 실행 결과, 중간 추론 과정을 계속 다시 불러오기 때문에, 일반적인 대화형 입력보다 시퀀스 길이가 보통 10배(한 자릿수) 이상 커지곤 합니다. 이렇게 컨텍스트가 길어지면, 당연히 비용 상승과 추론 속도 저하가 문제가 되겠고, 에이전트가 본래의 목표를 잃고 방황하는 불안정성을 유발하게 됩니다.

동시에, 파이프라인의 모든 단계마다 추론이 필요하다는 점도 문제입니다. 굳이 전체 성능을 다 쓸 필요가 없는 사소한 하위 작업에도 매번 거대한 밀집 모델(Dense Models)을 호출하게 되면, 일종의 "생각 비용(Thinking Tax)"이 발생합니다. 즉, 한쪽에는 눈덩이처럼 불어나는 컨텍스트를 유지하는 비용이 있고, 다른 쪽에는 매 단계 반복되는 비효율적인 추론 비용이 있는 거죠.

네모트론 3는 이런 두 가지 종류의 압박에 대한 아키텍처적 해답이라 할 수 있습니다. 기술적으로, 네모트론 3는 이 문제들을 완벽하게 보완하는 몇 가지 핵심적인 설계 결정들을 도입했습니다.

하이브리드 아키텍처: 트랜스포머 + 맘바(Mamba)

가장 흥미로운 지점은 시퀀스 모델링 패러다임의 '하이브리드화'입니다. 그동안 개발자들은 시퀀스 길이에 따라서 연산량이 기하급수적으로 늘어나는 트랜스포머의 근본적 한계에도 불구하고, 억지로 롱 컨텍스트(Long-context) 기능을 덧붙여서 100만 토큰 수준의 컨텍스트 창을 유지하도록 모델을 학습시켜야 했죠.

이 문제를 해결하기 위해서 네모트론 3는 시퀀스 수준에서 대부분의 트랜스포머 어텐션(Attention) 레이어를 맘바-2(Mamba-2) 상태 공간 레이어로 교체했습니다.

기존의 어텐션 방식은 시퀀스가 길어질수록 막대한 KV 캐시를 저장하고 참조해야 하니까 메모리와 연산 부담이 극심했습니다. 반면에, 맘바는 고정된 크기의 ‘Hidden State’만 유지하면서 선형 재귀를 통해서 시퀀스를 업데이트합니다. 덕분에 롱 컨텍스트 처리는 메모리 제약이 심한 어텐션 작업에서 효율적인 '스트리밍 상태 업데이트' 방식으로 전환됩니다 - 시퀀스 길이에 따라 선형적으로 확장될 뿐만 아니라 캐시 효율성도 압도적으로 높죠.

물론, 전체 토큰 간의 글로벌 상호작용 능력을 잃지 않도록 일부 레이어에는 여전히 어텐션이 남아 있지만, 더 이상 지배적인 비용 요인은 아닙니다. 두 기술의 역할 분담은 아래와 같습니다:

트랜스포머 레이어: 고차원 추론 및 토큰 상호작용을 처리합니다.
맘바 레이어: 아주 긴 컨텍스트에서 메모리 및 시퀀스 전파를 관리합니다.

Image Credit: NVIDIA Nemotron 3 오리지널 논문

이런 방식의 설계 전략으로 모델이 약 100만 토큰 컨텍스트까지 확장할 수 있습니다.

전문가 혼합(MoE) 및 LatentMoE

여기에 더해서, 네모트론 3는 모델의 파라미터 수(용량)와 실제 컴퓨팅 비용을 분리하려고 전문가 혼합(MoE) 설계를 채택했습니다. 모든 토큰이 전체 모델을 거치는 대신, 특정 전문가 그룹(Top-K 라우팅)으로만 보내지니까 모델의 전체 용량은 키우면서도 실제 가동되는 '활성 파라미터' 수는 낮게 유지할 수 있습니다.

예를 들어서, 네모트론 3 슈퍼(Super) 버전은 무려 1,200억(120B) 개의 파라미터를 가진 거대 모델이지만, MoE 덕분에 실제 토큰당 연산은 120억(12B) 개의 파라미터만 사용하는 '희소(Sparse) 시스템'으로 작동합니다. 결과적으로 대형 모델의 압도적인 표현력을 누리면서도, 추론 비용은 훨씬 작은 모델 수준으로 절감하는 두 마리 토끼를 모두 잡았다고 할 수 있습니다.

여기서 한 발 더 나아간 혁신이 바로 LatentMoE입니다. 이는 희소 MoE를 더 효율적으로 만들기 위해서 더 작은 '압축 공간'에서 라우팅을 수행하는 기술입니다.

기존에는 전체 크기의 토큰 표현을 그대로 전문가에게 보냈지만, LatentMoE는 이걸 먼저 훨씬 작은 차원으로 압축합니다. 모든 전문가 라우팅과 실제 계산은 이 압축된 공간 안에서 이루어지고, 이렇게 해서 아래와 같은 이점을 얻을 수 있습니다:

더 작은 가중치 행렬로 인한 메모리 비용 절감
전문가 간에 이동하는 데이터가 적어져서 통신 비용 절감

Image Credit: NVIDIA Nemotron 3 오리지널 논문

이런 기술적인 결정 덕분에, 단일 전문가와 비슷한 컴퓨팅 비용으로 4개의 전문가를 사용할 수 있게 되었다고 합니다. LatentMoE는, 절약된 용량을 전문가 수를 늘리고 토큰당 더 많은 전문가를 활성화하는 데 사용해서 전체 비용을 늘리지 않고도 모델의 표현력과 정확도를 높일 수 있다는 점에서 아주 전략적인 선택이라고 볼 수 있습니다.

멀티 토큰 예측(Multi-token Prediction)

추론 최적화는 AI 모델의 실질적인 성능을 결정짓는 핵심 병목 구간입니다. 네모트론 3는 이 병목을 해결하기 위해서 멀티 토큰 예측(MTP, Multi-Token Prediction)이라는 또 다른 효율화 레이어를 도입했습니다.

기존의 생성 방식은 한 번의 연산(Forward Pass)당 단 하나의 토큰만 만들어내는 엄격한 자기 회귀(Autoregressive) 방식이었습니다. 반면에, MTP는 짧은 토큰 묶음(Span)을 병렬로 한꺼번에 예측하는 방식으로 전환합니다. 즉, GPU에 모델 가중치가 로드되었을 때 한 번에 1개가 아니라 2~4개의 토큰을 동시에 예측해서 연산 효율을 극대화하는 것이죠.

이 방식은 단순히 속도만 높이는 게 아니라 아래와 같은 이점을 제공합니다:

학습 신호 개선: 모델이 다음에 올 내용을 미리 '계획'하면서 학습하게 되어서, 전반적인 이해도가 높아집니다.
디코딩 단계 단축: 전체 생성 과정에서 필요한 연산 횟수 자체를 줄여줍니다.
추론 속도 혁신: 특히 긴 문장을 생성할 때 투기적 디코딩(Speculative Decoding)과 결합해서 생성 속도를 비약적으로 높입니다.

실제로 네모트론 3 슈퍼(Super) 버전은 MTP 기술로 포워드 패스 횟수를 획기적으로 줄였고, 그 결과 추론 속도가 기존 대비 약 3배나 빨라졌습니다. 물론, 이 효과는 추가로 예측한 토큰들이 정확할 때만 유효하다는 전제가 따르기는 하지만, 엔비디아의 기술력은 이 '정확도'를 충분히 확보한 것으로 보입니다.

NVFP4 정밀도: 가속이 곧 지능이다

네모트론 3는 엔비디아의 차세대 블랙웰(Blackwell) GPU에서 NVFP4(4비트 부동 소수점) 정밀도를 활용해서 실행됩니다. 놀라운 점은 이 4비트 설정이 추론뿐만 아니라 학습 단계에서도 그대로 사용된다는 건데요.

이 방식은 이전 세대인 호퍼(Hopper) GPU의 FP8보다 약 4배 더 빠르고, BF16 대비 메모리 사용량은 획기적으로 적으면서도 성능 손실은 1% 미만으로 억제했다고 합니다.

여기서 한 가지 흥미로운 기술적 디테일이 있습니다. NVFP4의 실제 정밀도 수치는 순수한 4비트가 아닌 '4.75비트'입니다. 이 미세한 0.75비트의 차이가 모델의 정확도를 유지하는 결정적인 열쇠가 되기 때문이라고 해요. 모든 핵심 데이터(가중치, 활성화 값, 그래디언트)는 마이크로 블록과 글로벌 스케일링을 결합한 계층적 스케일링(Hierarchical Scaling) 기법을 통해서 이 4비트 부동 소수점으로 양자화됩니다.

하지만 무조건 낮추기만 하는 것은 아니고, 시스템의 안정성을 위해서 다음과 같은 치밀한 전략을 병행합니다:

선별적 고정밀도: 어텐션 투영이나 맘바 출력처럼 오차에 민감한 레이어는 높은 정밀도를 유지합니다.
학습 안정화: 확률적 반올림(Stochastic Rounding)과 입력 변환 기술을 동원해서 학습 과정에서 발생할 수 있는 수치적 불안정성을 차단합니다.

이 지점에서 브라이언 카탄자로 부사장은 엔비디아만이 내뱉을 수 있는 역사적인 선언을 던집니다.

❝

"엔비디아 외에 그 어느 곳도, 4비트 연산(4-bit math)만으로 이 정도 규모의 모델을 사전 학습(Pre-training)시킨 사례는 없습니다."

브라이언 카탄자로, 엔비디아 부사장

실제로 개발자들은 공개된 네모트론 사전 학습 데이터셋이 기존 오픈 웹 데이터셋보다 최대 4배 빠른 수렴(Convergence) 속도를 보인다는 점에 주목하고 있습니다. 네모트론 설계의 핵심 철학인 "가속이 곧 지능이다"를 완벽하게 증명하는 결과라고나 할까요?

이 철학은 젠슨 황이 GTC 2026 키노트에서 강조했던 엔비디아의 근본적인 신념과 궤를 같이합니다.

❝

"에너지는 곧 지능입니다. 낭비되는 단 1와트(Watt)의 전력조차 우리 AI를 더 멍청하게 만들 뿐입니다."

젠슨 황, 엔비디아 CEO

학습 스택

전체적인 학습 스택의 설계도 한 번 살펴볼 필요가 있습니다. 네모트론 3는 코딩, 수학, 도구 활용, 롱 컨텍스트 추론 등 서로 다른 작업들을 동시에 최적화하는 '다중 환경 강화 학습'으로 훈련되었습니다. 덕분에 AI 에이전트처럼 복잡한 일을 수행할 때 훨씬 안정적이고 뛰어난 응용력을 발휘합니다.

특히 엔비디아는 사후 학습(Post-training) 과정을 RLVR, 전용 소프트웨어 공학 RL, RLHF 등의 단계로 명확히 구분합니다. 긴 호흡이 필요한 에이전트 작업은 일반적인 추론과 구조가 다르고 속도도 훨씬 느리기 때문이라고 하네요.

이 모든 과정은 대규모의 비동기 강화학습 인프라 위에서 돌아갑니다. 수천 개의 GPU를 동원해서 서로 다른 환경에서 동시에 학습을 진행할 수 있는 실질적인 토대를 마련한 것입니다.

설계 원칙 요약

요약을 한 번 해 보면, 네모트론의 속도와 효율성 관점의 개선점이 어디서부터 오는지 구체적인 그림을 볼 수 있습니다:

MoE → 활성 파라미터 감소; LatentMoE → 더 저렴한 전문가로 더 많은 전문가 사용 가능
맘바 레이어 → 효율적인 롱 컨텍스트 처리
멀티 토큰 예측 → 한 번에 더 많은 토큰 예측 및 단계 단축
NVFP4 → 더 빠른 하드웨어 실행 및 가속화된 사전 학습

이 네 가지 요소를 결합하면 이전의 네모트론 버전보다 최대 5배의 처리량과 최대 2배 높은 정확도를 얻을 수 있는 겁니다.

Image Credit: Nemotron 3 Super Technical Report

또, 모델이 추론 예산 제어(Reasoning Budget Control)를 지원해서, 모델이 "생각"하는 데 소비하는 토큰 수를 명시적으로 제한함으로써 정확도와 속도 간의 절충안을 조절할 수 있습니다.

네모트론 3 패밀리 모델들 간에는 주로 비용과 기능의 절충 지점에 차이가 있습니다:

네모트론 나노(Nemotron Nano) (30B, 활성 3B): 2025년 12월 출시. 처리량과 저비용 작업에 최적화
네모트론 슈퍼(Nemotron Super) (120B, 활성 12B): 2026년 3월 11일 출시. 멀티 에이전트 오케스트레이션에 적합
네모트론 울트라(Nemotron Ultra) (~500B): 심층 추론 워크로드용 (출시 예정)

Image Credit: Bryan Catanzaro talk at GTC

네모트론 옴니(Nemotron Omni): 멀티모달 모델 (출시 예정)
네모트론 보이스 챗(Nemotron Voice Chat): 완전 양방향(Full Duplex) 음성 지원—AI 음성 상호작용의 진정한 새로운 패러다임. GTC에서 베타 출시

네모트론 3 슈퍼는, 단순한 언어 모델을 넘어서 '에이전트'로서의 실전 능력을 극대화한 모델입니다. 특히 엔비디아의 NIM 마이크로서비스로 패키징되어서 어디서든 즉시 배포하고 사용할 수 있는 것이 강점입니다.

주요한 활용 분야로는:

소프트웨어 에이전트: 전체 코드 리포지토리를 한 번에 읽고 버그 수정부터 코드 작성까지 끝냅니다.
연구 에이전트: 수천 페이지의 방대한 자료를 읽고도 논리적 일관성을 잃지 않으면서 추론합니다.
도구 사용 에이전트: 수많은 외부 툴과 함수를 자유자재로 호출하면서 복잡한 작업을 수행합니다.

숫자로 봐도, 엔비디아가 이 모델을 만들기 위해서 쏟아부은 리소스는 '역대급'이라는 말이 아깝지 않습니다.

항목	규모	의미
사전 학습 토큰	25조 개	고품질 합성 데이터와 정제된 데이터를 집대성한 지식의 양
사후 학습 샘플	4,000만 개	모델의 말투와 태도를 다듬기 위한 엄청난 양의 튜닝 데이터
강화 학습 데이터셋	37개	다양한 작업(코딩, 수학 등)을 전문적으로 익히기 위한 교재
RL 환경 & 롤아웃	21개 환경 / 120만 회	AI가 시행착오를 거치면서 스스로 똑똑해진 실전 연습 횟수

네모트론 3를 관통하는 철학은 명확합니다.

"빠른 모델이 곧 똑똑한 모델이다"
속도가 빨라야 더 많은 데이터를 학습할 수 있고, 더 많은 강화 학습을 거칠 수 있고, 실제 사용 시에도 더 많은 추론을 돌려서 정확한 답을 낼 수 있기 때문입니다.
"와트당 토큰(Tokens per Watt)을 최대화하라"
단순히 응답 속도만 빠른 게 아니라, 데이터 센터 전체의 전력 효율을 극대화해서 낭비되는 에너지 없이 지능을 생산하도록 설계되었습니다.
"하드웨어 맞춤형 설계"
범용 모델을 만들고 칩에 맞추는 게 아니라, 처음부터 특정 가속 시스템(블랙웰 등)의 성능을 100% 뽑아낼 수 있는 구성을 먼저 정하고 모델을 설계했습니다.

Image Credit: Bryan Catanzaro talk at GTC

네모트론 연합: 누가 무엇을 만들고, 누가 권력을 쥐는가

네모트론(Nemotron)은 단순히 성능이 뛰어난 '프론티어 오픈 모델'을 내놓는 프로젝트가 아닙니다. 이 프로젝트는 하나의 프로젝트 안에서 협업하는 연구소들 간의 권력 분배, 그리고 각 분야의 고차원적인 전문성을 하나로 융합하는 새로운 방식을 제안합니다.

왜 지금 이런 일이 일어날까요? 프론티어급 오픈 모델을 구축하는 비용이 이제는 개별 기업이 혼자 감당하기에는 너무 비싸졌기 때문이죠. 또 모델 자체가 고도로 전문화되었고, 주변 인프라에 대한 의존도도 아주 높아졌습니다. 그래서 엔비디아는 비용이 많이 드는 '기초 공사(파운데이션 작업)'를 공유하고, 파트너 기업들이 그 위에 자신들만의 차별화된 레이어를 구축하도록 제안한 겁니다.

이런 움직임은 엔비디아가 그동안 공개적으로 밝혀온 전략과도 일치합니다. 즉, 오픈 모델과 데이터셋, 에이전틱 AI를 위한 도구들이 모두 개방성, 전문화, 그리고 주권적 배포(Sovereign Deployment)를 중심으로 구성되는 겁니다. 실제로 엔비디아는 지난 GTC 2026에서 주요 오픈 모델 플레이어들과의 패널 세션을 마련하는 등, '오픈 프론티어 모델'을 대화의 중심에 두면서 이러한 전략을 모두에게 강력하게 각인시켰습니다.

지금 이 순간이 특히 흥미로운 이유는, 엔비디아가 단순히 전략을 설명하는 데 그치지 않고, 새로운 협업 모델을 통해서 이걸 실행에 옮기고 있다는 점입니다. 브라이언 카탄자로 부사장에 따르면, 이 연합은 데이터와 컴퓨팅, 전문 지식 전반에 걸쳐서 파트너와 목표, 라이선스 및 기여도가 명확히 정의된 독립적인 프로젝트들을 중심으로 조직됩니다.

그 첫 번째 프로젝트는 미스트랄(Mistral AI)과 함께 베이스 모델을 사전 학습시키는 것이었고, 이것이 바로 네모트론 4 베이스(Nemotron-4 Base)가 되었습니다. 사후 학습을 포함한 이후 프로젝트에는 더 많은 파트너가 참여해서, 각자의 애플리케이션과 필요에 맞게 모델을 함께 완성해 나갈 것으로 보입니다.

이 연합의 핵심은 엔비디아와 미스트랄이 강력한 '엔진'을 만들면, 나머지 파트너들이 각자의 전문성으로 그 성능을 극한까지 끌어올리는 그런 구조입니다.

NVIDIA: 설계자이자 공급주. 압도적인 컴퓨팅 자원과 인프라를 제공합니다. 브랜딩과 정치적 서사를 주도하면서 프로젝트 전체에 강력한 추진력을 불어넣습니다.
Mistral AI: 공동 제조사. 엔비디아와 손잡고 실제 플래그십 모델(베이스 모델)을 구축하는 핵심 파트너입니다.
Black Forest Labs: 시각 지능 담당. 이미지, 비디오 등 멀티모달 기능을 주입해서 모델의 감각을 확장합니다.
LangChain: 오케스트레이션 전문가. 도구 사용, 장기 추론 등 복잡한 에이전트 시스템이 매끄럽게 돌아가도록 설계합니다.
Cursor: 실전 검증팀. 개발자 환경에서 모델이 실제로 잘 작동하는지 확인하고, 평가 데이터셋과 성능 요구 사항을 정의합니다.
Perplexity: 사용자 경험 인사이트. 대규모 서비스 운영 경험을 바탕으로, 모델이 실제 사용자들에게 얼마나 유용하게 쓰일지 최적화합니다.
Sarvam AI: 현지화 및 다국어 전문가. 지역별 언어와 문화, 특히 음성 중심의 AI 시스템에 특화된 기여를 합니다.
Reflection AI & Thinking Machines Lab: 미래 역량 베팅. 각각 RL 기반의 사후 학습과 데이터/연구 협업을 담당하는데, 현재는 연합의 기술적 신뢰도를 높이는 역할을 합니다.

현재는 엔비디아와 미스트랄이 중심축을 잡고 나머지 파트너들이 지원하는 형국이지만, 프로젝트의 진행 상황에 따라서 이 역할과 비중은 언제든 재편될 수 있는 유연한 구조라는 점이 흥미롭습니다.

여기서 또 하나 흥미로운 관점이 있다면 이건데요. 엔비디아가 리플렉션(Reflection AI)이나 씽킹 머신즈(Thinking Machines Lab)를 '구출'하고 있는 걸까요? 재정적이나 운영적인 측면에서는 아닐 수도 있겠지만, 엔비디아가 그들에게 꽤 가치있는 것들을 선물하고 있다는 것만큼은 분명하지 않나 싶습니다 - 바로 빌려온 위상(Borrowed Prestige), 즉각적인 존재감, 그리고 판이 짜이기 전의 서사 속 지분 같은 것들입니다.

그 대가로 엔비디아는 그들의 '후광'을 얻죠. 예를 들어서, 미라 무라티(Mira Murati)의 이름값이나 리플렉션이 가진 혈통은, 비록 실제 작업의 초기 단계가 다른 곳에서 이루어지더라도 이 연합이 '오픈 프론티어 AI의 진정한 무게 중심'처럼 느껴지게 만드는 데 결정적인 역할을 할 테니까요.

이것이 시사하는 바는?

자, 여기에 엔비디아가 설계한 자유의 역설이라고도 할 만한 시사점이 있습니다.

첫째, 이런 권력 분배는 오늘날 AI 분야에서 목격되는 '프론티어 모델 개발의 모듈화' 현상을 그대로 반영합니다. 한 회사는 학습을, 다른 회사는 평가를, 또 다른 회사는 프레임웍 구축이나 도메인 데이터 공급, 멀티모달 처리, 현지화를 담당하는 식입니다.
둘째, 엔비디아는 바로 그 모듈형 스택의 '오케스트레이터(조정자)'가 되고 싶어 합니다. 그들은 OpenAI, 앤스로픽, 구글, 메타만이 유일한 주인공이 되는 세상을 원치 않는 거죠. 이것은 엔비디아가 자신들을 중심으로 한 '대체 권력 블록'을 공개적으로 조립하는 과정입니다.

결국 엔비디아가 "오픈 AI"를 하나의 '관리되는 산업 단지'로 탈바꿈시키고 있다고 보는 것이 타당해 보입니다. 모든 참여자가 각자의 로고를 내걸고 '개방성'을 찬양하지만, 결국은 엔비디아의 컴퓨팅 자원과 로드맵, 유통망이라는 거대한 기계 장치에 연결되는 단지 말이죠. 그들은 통제력을 잃지 않으면서도 "개방성"의 이점을 취하려고 하고, 이게 바로 이 전략의 핵심입니다.

GTC 2026에서 보여준 엔비디아의 발표 자료는 투명성, 협업, 주권이라는 단어로 가득 차 있지만, 어디에도 민주적인 거버넌스를 시사하는 내용은 없습니다. 결과물은 개방적일지 몰라도, 그 조율 과정은 철저히 중앙 집중적으로 들려요.

GTC 2026에서 젠슨 황이 진행한 오픈 모델 세션을 지켜본 이들에게 현재의 상황은 명확합니다. 우리는 모두 '젠슨의 거실'에 초대받은 손님이고, 그곳에서 우리가 따르는 것은 오직 '그의 규칙' 뿐입니다.

맺으며

데이터셋, 기술, 레시피, 연구 결과, 학습 인프라, 그리고 합성 데이터 파이프라인—이 모든 것이 모여서 비로소 네모트론(Nemotron)이 됩니다. 우리가 보는 모델은 수면 위로 드러난 빙산의 일각일 뿐입니다.

브라이언 카탄자로 부사장의 GTC 강연은 네모트론이 트랜지스터(하드웨어)부터 학습 토큰(데이터)에 이르기까지, AI 가치 사슬 전체에 대한 엔비디아의 수직 계열화된 베팅이라는 것을 분명히 보여줍니다.

FP4 사전 학습이라는 기술적 이정표
미스트랄, 블랙 포레스트 랩스, 커서 등과의 강력한 연합 구조
기존 대비 4배에 달하는 데이터셋 효율성
혁신적인 LatentMoE 설계

이 모든 요소는 단순한 오픈 모델 출시 이상의 야심을 드러냅니다. 엔비디아는 고품질의 '오픈 가중치 AI'를 위한 공유 기반을 구축하려고 하고 있고, 과거에 CUDA가 증명했듯이 그들은 20년 뒤를 내다보는 게임을 하는 데 아주 익숙합니다.

물론 이번 연합 발표가 전략적으로는 강력할지 몰라도, 아직 제품 차원에서 '경이로운' 단계는 아닙니다. 결과물인 네모트론 4 베이스 모델이 개발자들에게 진정한 오픈 파운데이션 역할을 할 만큼 강력해지고, 폐쇄형 연구소들에 실질적인 위협이 될 때 비로소 진짜 무서운 뉴스가 되겠죠. 그때까지 이 프로젝트는 정교하게 설계된 생태계 아키텍처의 한 조각으로 남을 겁니다.

마지막으로 한 가지 덧붙이자면, 엔비디아와 파트너들에게는 더 나은 네이밍, 브랜딩이 많이 필요해 보입니다. 이 연합의 모든 구성원이 각자 자신들이 "오픈 AI(open AI)"를 구축하고 있다고 말하기 시작하면, 그 단어가 주는 혼란이 지금보다 훨씬 더 극심해질 테니까요.

보너스 및 참고자료

NVIDIA Nemotron 3: Efficient and Open Intelligence | Paper
Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning | Paper
NVIDIA Debuts Nemotron 3 Family of Open Models | Nvidia Blog Post
New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI | Nvidia Blog Post
NVIDIA Open Models (including Nemotron 3) | Models
NVIDIA Launches Nemotron Coalition of Leading Global AI Labs to Advance Open Frontier Models | Nvidia Blog Post
NVIDIA GTC Keynote 2026
Why NVIDIA builds their own open models | Nemotron w/ Bryan Catanzaro | Interconnects AI Interview

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

‘커피 한 잔’ ☕ 응원하기

보너스 및 참고자료

Kiro and the future of AI spec-driven software development | 블로그 포스트
Transform DevOps practice with

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

프리미엄 구독하러 가기

주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고 기회 제공

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

네모트론 3와 AI 연합군: 엔비디아가 설계한 ‘오픈 소스’ 역습

엔비디아는 왜 네모트론 3를 만들고 오픈소스로 공개하나?

네모트론 3의 내부 구조

하이브리드 아키텍처: 트랜스포머 + 맘바(Mamba)

전문가 혼합(MoE) 및 LatentMoE

멀티 토큰 예측(Multi-token Prediction)

NVFP4 정밀도: 가속이 곧 지능이다

학습 스택

설계 원칙 요약

네모트론 연합: 누가 무엇을 만들고, 누가 권력을 쥐는가

이것이 시사하는 바는?

맺으며

보너스 및 참고자료

보너스 및 참고자료

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

Reply

Keep Reading

Turing Post Korea

Home

Account