Turing Post Korea
Posts
Topic #35: '월드 모델 (World Models)'이란 무엇인가?

Topic #35: '월드 모델 (World Models)'이란 무엇인가?

월드 모델의 역사와 현재 - 그리고 'AI의 미래'를 그릴 때 월드 모델이 필수 요소인 이유

Ksenia Se & Ben Eum
April 26, 2025

글을 시작하며

사람의 뇌. 대뇌 피질에 약 160억 개의 신경세포가 있다고 하는 이 1.4~1.6kg 짜리 기관. 여기에서 매일 매순간 엄청난 일들이 일어나지만, 그럼에도 불구하고 사람의 뇌는 우리가 보는 세상에서 일어나는 모든 일의 디테일한 세부 사항까지 하나하나 처리하지는 않습니다. 대신, 이전에 했던 경험으로부터 형성된, 추상적인 표현 - 즉, 멘탈 모델 (Mental Model) - 에 의존해서 복잡하고 정신없이 들어오는 정보들로부터 의사결정을 하게 되죠. 어떤 사건이 발생하기도 전에, 우리의 뇌는 이런 멘탈 모델, 그리고 이전에 했던 행동과 그 결과를 기반으로 해서 연속적으로 결과를 예측하게 됩니다.

Image Credit: Great Unknown

AI 영역에서 이야기하는 월드 모델 (World Models)이 바로 이런 개념이라고 할 수 있습니다.

즉, AI 에이전트가 실세계에서 직접 시행착오를 하는 방식으로만 학습하는 대신, ‘월드 모델’ - 환경에 대해서 학습된 시뮬레이션 정도로 이야기하겠습니다 - 을 사용해서 이후 일어날 수 있는 일들과 할 수 있는 연속적인 행동과 사건의 순서를 상상하고 탐색합니다. 이런 활동을 내부적으로 시뮬레이션한다면, AI가 원하는 목표, 원하는 결과를 가져오는 경로, 궤적을 찾아낼 수도 있겠죠.

이런 식의 접근법에는 중요한 장점이 있습니다:

첫째, 월드 모델 기반의 움직임은, ‘가능한 모든 행동을 실제로 물리적으로 해 보지 않아도’ 되도록 해 주기 때문에, 필요한 자원의 규모를 크게 줄여줍니다.

더 주목할 만한 건, 월드 모델 기반의 접근법이 AI와 사람 뇌가 실제 작동하는 방식 - 예측, 시나리오 상상, 결과 계산 - 간의 합치성을 더 높여준다는 점이죠.

메타 AI의 수장인 얀 르쿤은, ‘그 잠재력을 완전히 실현하는데는 10년이 더 걸릴 수도 있지만, 월드 모델은 사람과 비슷한 수준의 작업을 할 수 있는 AI를 달성하는데 아주 중요한 요소’라고 이야기한 적도 있습니다.

지금, 우리는 초기 단계의 월드 모델이 만들어지는 걸 목도하고 있습니다. 이 모델들의 메커니즘을 제대로 이해하고, 지금 우리가 가지고 있는 모델의 능력을 정확히 파악하고, 내부적으로 어떻게 작동하는지 분석해 보는 것, 다시 한 번 크게 도약할 미래 AI를 위해 필수적인 작업 아닐까요?

자, 그럼 ‘월드 모델’, 이 매혹적인 세계로 한 번 여행을 시작해 봅시다.

오늘의 에피소드는 아래와 같은 내용을 포함하고 있습니다:

최초의 ‘월드 모델’, 그 역사적인 배경

‘월드 모델’이라는 용어 자체가 인기를 얻게 된 건, 특히 AI 커뮤니티 사이에서는 최근 몇 년 사이가 아닌가 싶습니다. 그렇지만, 그 기본적인 개념은 이미 초기의 AI 연구에서 언급이 되고 있습니다.

이 아이디어는, 1990년 리처드 서튼 - 네, 강화학습의 리처드 서튼입니다 - 이 고안한 Dyna 알고리즘까지 거슬러 올라가는데요. 이 알고리즘은 모델의 학습과 계획, 그리고 반응까지 통합하는 ‘모델 기반 강화학습 (MBRL)’의 기본적 접근 방식으로, Dyna를 사용하는 에이전트는 이런 일을 할 수 있습니다:

행동을 시도하고, 어떤 게 효과가 있는지 확인합니다 (강화학습을 통한 시행착오)
시간이 지나면서, 세계의 모델을 학습, 구축해서 다음에 무슨 일이 일어날지 예측합니다 (학습)
구축된 멘탈 모델을 사용해서, 실세계에서 실제로 뭔가를 실행하지 않고도 ‘머릿속’에서 시도를 해 볼 수 있게 됩니다 (계획)
무슨 이벤트가 발생하면, 이미 학습한 내용을 바탕으로 즉시 반응합니다 - 즉, 매번 계획을 세우기 위해서 멈추지 않습니다 (빠른 반응)

Image Credit: Dyna 오리지널 논문

이어서, 2018년의 후속 연구 "The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces"에서는, 아케이드 학습 환경에서 Dyna를 테스트했습니다. ‘아케이드 학습 환경’이라는 건 원시 픽셀 이미지로부터 AI 에이전트를 훈련시키는 데 사용되는 Atari 2600 게임 모음을 말하구요. 이 연구를 통해서, ‘학습된 모델’이 Atari 게임 같이 고차원 입력이 들어오는 환경에서 학습의 효율성을 높이는 데 도움이 될 수 있다는 걸 처음으로 보여주었습니다 - Dyna가 ‘쓸만한’ 계획 기법이라는 점을 보여준 것이죠.

또 하나의 중요한 마일스톤은, David Ha (Sakana AI의 공동 창업자죠)와 Jürgen Schmidhuber (RNN의 창시자이구요)의 2018년 논문 "World Models"이었습니다. 이 논문에서는, 간단한 환경에서 실제로 작동하는 시스템을 구축했는데요. 자동차 레이싱 게임이라든가 2D 일인칭 슈팅 게임 같은 인기 있는 강화학습 환경을 비지도 방식으로 모델링하기 위해서 생성적 순환 신경망(Generative RNN)을 훈련시켰습니다. 여기서 논문 저자들이 만든 월드 모델은, 게임 화면의 압축된 공간 표현, 그리고 게임이 어떻게 진화하는지에 대한 시간적인 다이나믹스를 학습했습니다.

좀 더 정확히 말하면, 이 시스템은 세 부분으로 구성됩니다:

비전 (Vision)
Variational Autoencoder (VAE)가 고차원의 관찰(픽셀 이미지) 결과를 더 낮은 차원의 잠재 표현 (Latent Representation)으로 압축합니다.
메모리 (Memory)
Mixture-Density Recurrent Network (MDN-RNN)이 현재의 잠재 상태 (Latent State)와 에이전트의 행동을 고려해서 다음의 잠재 상태 (Latent State)를 예측합니다.
컨트롤러 (Controller)
잠재 상태와 RNN의 히든 스테이트 (Hidden State)를 받아서 행동을 출력합니다. 원래의 구현에서는, 보상을 최대화하기 위해 진화 전략 (Evolutionary Strategy)으로 훈련한, 간단한 선형 정책 (Linear Policy)이었습니다.

Image Credit: 월드 모델 (World Models) 오리지널 논문

David Ha와 Jürgen Schmidhuber 두 사람은, 학습된 모델의 소위 ‘꿈’ 안에서 정책 (컨트롤러; Controller)을 완전하게 훈련할 수 있고 그 후에 실제의 게임 환경으로 성공적으로 전이할 수 있다는 걸 보여주었습니다. 이렇게 해서 이 연구는 사람처럼 꿈을 꾸고, 계획하고, 행동할 수 있는, 더 똑똑한 에이전트를 구축할 수 있는 디딤돌이 되었고, 모델 기반의 접근 방식에 대한 큰 관심을 불러일으켰습니다.

그리고, 그 이후로 많은 게 변했습니다. 오늘 우리가 손에 넣을 수 있는 최신의 월드 모델은 어떻게 작동할까요? 월드 모델은 물리적인 세계를 이해할까요? 한 번 알아볼께요.

월드 모델을 구축하려면 뭐가 필요한가?

다시 한 번 요약하자면, 월드 모델(World Models)은 ‘다양한 입력 데이터’를 받아서 물리학, 공간 역학, 인과 관계 (최소한 기본적 인과 관계) 등 실제 환경의 ‘내부 표현 (Internal Representation)을 학습’하는 ‘생성형 AI 시스템’이라고 할 수 있습니다. 이렇게 학습된 표현을 사용해서 미래의 상태를 예측하고, 내부적으로 연속적으로 일어나는 행동을 시뮬레이션하고, 실제 환경에서의 실험을 하지 않고도 정교하게 계획하고 의사 결정을 지원할 수 있습니다.

엔비디아에서는 월드 모델 구축을 하려면 아래와 같은 구성 요소들이 중요하다고 강조했습니다:

데이터 큐레이션 (Data Curation)
월드 모델을 원활하게 학습시키려면, 특히 대규모의 멀티모달 데이터셋을 사용할 때, 필수적인 요소라고 하겠습니다. 이 작업에는, 데이터 품질을 보장하기 위해 진행되는 필터링, 주석 달기, 분류, 중복 이미지나 비디오 제거 등이 포함됩니다. 비디오 처리에서는 클립을 분할하고 변환하는 것으로 시작해서 품질 필터를 적용하게 됩니다. 비전-언어 모델은 핵심 요소에 주석을 달아 주고, 비디오 임베딩으로 중복되는 콘텐츠를 식별하고 제거할 수 있습니다.
토큰화 (Tokenization)
고차원의 시각 데이터를 작고 관리하기 쉬운 단위로 나누어서 학습을 가속화할 수 있습니다. 픽셀 수준에서 중복성을 줄이고, 학습과 추론을 효율적으로 하도록 도와줄 수 있는, 간결한 ‘의미론적 토큰 (Semantic Tokens)’을 생성합니다.
- 이산 토큰화(Discrete Tokenization)는 시각 정보를 정수로 표현합니다.
- 연속 토큰화(Continuous Tokenization)는 연속적인 벡터를 사용합니다.
파인튜닝 (Fine-tuning)
대규모 데이터셋으로 학습시킨 파운데이션 모델은, 이후 다운스트림에서 특정한 물리적 AI (Physical AI) 작업에 맞춰서 조정할 수 있습니다. 개발자들은 모델을 처음부터 구축하거나 추가 데이터를 사용해서 사전 학습된 모델을 파인튜닝할 수 있죠. 파인튜닝은 로보틱스, 자동화 및 기타 실제 사용 사례에서 모델이 더 효과적으로 작동할 수 있게끔 해 줍니다.
- 비지도 파인튜닝(Unsupervised Fine-tuning)은 더 광범위하게 일반화 (Generalization)가 될 수 있도록 레이블이 없는 데이터를 사용합니다.
- 지도 파인튜닝(Supervised Fine-tuning)은 특정한 작업에 집중하기 위해서 레이블이 있는 데이터를 활용, 추론 및 패턴 인식을 더 잘 하게끔 합니다.
강화학습 (Reinforcement Learning)
다양한 상호작용을 통해서 학습하게 해서 추론 모델을 훈련시키고, 모델이 취한 행동에 대해서 보상이나 패널티를 받는 방식이죠. 아시다시피, 강화학습은 AI가 시간이 지나면서 환경에 적응하고, 계획하고, 더 나은 의사 결정을 하는 데 도움을 줍니다. 특히, 강화학습은 다이나믹한 환경에서 복잡한 추론과 응답 능력이 필수적인 로보틱스라든가 자율 시스템에 유용합니다.

AI의 월드 모델을 구축하는 것과 관련한 포괄적인 연구를 담고 있는 놀라온 논문이 하나 있는데요: ‘Advances and Challenges in Foundation Agents’, 여기서는 월드 모델을 구축하는 4가지의 일반적인 방법, 패러다임을 설명하고 있습니다:

월드 모델을 만드는 4가지의 패러다임.

암시적 모델 (Implicit Models)
세계가 어떻게 변화하는지, 그리고 어떻게 관찰되는지 두 가지를 분리하지 않고, 미래의 결과를 예측하기 위해서 하나의 큰 신경망을 - 마치 블랙박스처럼 - 사용합니다. 이런 프레임웍은 에이전트가 압축된 이미지와 예측을 사용해서 미래의 행동을 "꿈"처럼 그릴 수 있게 합니다. 많은 바둑 대국을 보고 다음 수를 패턴으로 예측하는 모델을 예로 들 수 있겠습니다.
명시적 모델 (Explicit Models)
세계가 어떻게 변화하는지 (상태의 전이), 그리고 에이전트가 무엇을 보고 있는지 (관찰 내용)를 명확하게 분리합니다. 이런 구조는, 시스템의 해석 가능성, 그리고 디버깅 용이성이 높아집니다. 이 방식은, 자동차를 운전할 때, 물리 법칙(가속과 브레이크가 차량 속도에 미치는 영향)과 관찰(백미러와 사이드미러로 보이는 것)을 분리해서 이해하는 것과 같습니다.
시뮬레이터 기반 모델(Simulator-based Models)
처음부터 학습을 진행하는 대신, 시뮬레이터나 실제 환경을 사용해서 행동과 결과를 테스트합니다. 매우 정확한 방법이라고 할 수 있지만, 대신 진행이 느리고 비용이 많이 들 수 있습니다. 비행기 조종사가 실제 비행 전에 비행 시뮬레이터에서 다양한 시나리오를 연습하는 것과 같습니다.
하이브리드 및 지시 기반 모델(Hybrid and Instruction-driven Models)
학습된 모델과 외부의 규칙, 매뉴얼 또는 언어 모델을 결합합니다. 신경망이 예측하는 것, 그리고 규칙 기반 지침을 조합하는 이 방식은, 새로운 - 이전에 보지 못한 - 상황에서 모델을 더 유연하게 만들어 줍니다. GPS 내비게이션이 도로 규칙(속도 제한, 일방통행)과 실시간 학습(교통 패턴)을 모두 사용해서 최적의 경로를 제안하는 것과 유사합니다.

자, 그럼 ‘월드 모델 구축에 필요한 구성 요소’와, ‘월드 모델의 패러다임’에 대한 이해를 기반으로, 오늘날 접할 수 있는 월드 모델 사례 몇 가지를 살펴보죠.

주목할 만한 월드 모델

구글 딥마인드의 Dreamer V3

월드 모델과 관련해서, 아마 가장 영향력있는 연구 중의 하나가 ‘구글 딥마인드의 Danijar Hafner와 동료들이 만든 Dreamer 계열의 에이전트’ 연구일 겁니다.

이 범용 강화학습 알고리즘의 최신 버전 (2025년 4월 공개)이라고 할 수 있는 Dreamer V3는, 각각의 작업마다 별도로 조정할 필요없이 동일한 설정으로 150개 이상의 다양한 작업을 처리할 수 있습니다. 하지만 가장 큰 특징이라고 하면, 사람이 예시를 주지 않아도 오직 자체적인 ‘상상력’과 기본적인 설정만으로도 마인크래프트에서 처음부터 다이아몬드를 수집하는데 성공한 최초의 알고리즘이라는 겁니다. 이건 강화학습의 성과만이 아니라, ‘월드 모델’의 성과이기도 합니다.

Dreamer V3는 세계의 모델을 학습하고 이를 활용해서 더 나은 행동 방식을 찾기 위해서 다음에 일어날 일을 ‘상상’하는데, 이 시스템이 정확히 어떻게 작동하는지 한 번 살펴보겠습니다.

Dreamer V3는 3개의 부분으로 구성됩니다:

Image Credit: Dreamer V3 오리지널 논문

월드 모델 (World Model)
에이전트가 ‘보게 되는’ 이미지, 숫자 입력 같은 것을 받아서, 순환 신경망(RNN)을 사용해서 더 단순한 잠재 표현(Latent Representations)으로 압축합니다. 구체적으로는 순환 상태-공간 모델(recurrent state-space model, RSSM)을 사용하는데, 모델이 과거 사건의 기억을 유지하고 미래 상태를 더 잘 예측하도록 도움을 줍니다. 행동이 주어지면, 모델은 다음 상태, 예상 보상, 그리고 에피소드가 계속되는지 여부를 예측합니다. (참고: 최근 대부분의 AI 아키텍처와 달리, DreamerV3는 트랜스포머를 사용하지 않고, 대신 완전히 순환 모델에 집중합니다.) DreamerV3는 여기에 몇 가지 스마트한 개선 작업을 했습니다:
- KL 발산 (KL Divergence)
  예측이 현실과 얼마나 다른지 측정합니다. 일종의 "현실 검증"처럼 작동하죠. 예측이 틀리면 모델은 그에 맞춰서 스스로 조정합니다.
- 자유 비트(Free Bits)
  모델이 사소하게 부정확한 부분이 생겼을 때 과도하게 수정하지 않도록 방지합니다. "이미 충분히 좋다면, 완벽하게 만들려고 노력을 낭비하지 마세요" 하는 입장과 같습니다.
- Symlog 인코딩
  큰 양수와 음수의 실제 신호(보상이나 픽셀 값 같은)를 관리하기 쉬운 숫자 범위로 압축해서 시스템이 안정적으로 학습하도록 도와줍니다.
- 투-핫 인코딩(Two-hot Encoding)
  학습 대상을 두 개의 인접한 카테고리에 분산시켜서, 예측을 부드럽게 하고 학습 과정을 더 쉽고 안정적으로 만들어 줍니다.
비평가 (Critic)
월드 모델이 ‘상상’한 결과가 얼마나 좋은지 아니면 나쁜지 평가합니다. 보상이 극적으로 다를 수 있기 때문에, Dreamer V3는 정규화를 신중하게 하고 분포 (Distribution)를 기반으로 스코어를 매겨서, 희소하거나 예측할 수 없는 보상의 경우에도 안정적인 성능을 보장합니다. 또, 학습을 더 안정화하기 위해서 파라미터의 이동 평균을 사용합니다.
행위자 (Actor)
월드 모델과 비평가 (Critic)가 제공하는 통찰력을 바탕으로 최선의 행동을 결정하고, ‘즉각적인 보상’과 ‘새로운 전략을 탐색하는 것’ 사이의 균형을 맞춰서 막다른 상황에 빠지지 않도록 합니다. Dreamer V3는 예측된 리턴을 신중하게 정규화해서, 보상이 드문 경우에도 균형 잡힌 탐색이 이루어지도록 합니다.

구글 딥마인드의 Genie 2

구글 딥마인드에서 연구하는 ‘월드 모델’ 영역에서 또 하나의 흥미로운 사례라면, 바로 Genie 2일 겁니다. 이건 ‘실체화된 에이전트를 위해서 다양한 훈련 환경을 생성하는데요. 하나의 이미지 프롬프트를 사용해서 Genie 2는 키보드와 마우스로 제어할 수 있는, 플레이할 수 있는 가상 세계를 만들어내서, 사람이든 AI 시스템이든 모두 사용할 수 있게 해 줍니다. 이 모델은 장기 기억력, 일관된 세계의 생성, 그리고 공유된 시작점에서의 반사실적 (Counterfactual) 시뮬레이션 - "만약 ~했다면 어떻게 되었을까?"라는 가상의 상황을 모델링하고 탐색 - 을 지원합니다.

이 모델은, 아래와 같은 ‘창발적 (Emergent)’ 능력을 보여주는데요:

캐릭터의 움직임 처리
물리적 역학 시뮬레이션 (중력, 조명, 반사 등)
물체 및 NPC (비 플레이어 캐릭터)와의 상호작용 모델링
SIMA 같은 에이전트와 페어링했을 때, Genie 2는 지시 이행 (Instruction-following)을 테스트할 새로운 3D 시나리오를 생성, 에이전트가 자연어 명령으로 새로운 환경에서 탐색, 행동할 수 있게 해 줍니다.

Image Credit: Genie 2 블로그

Genie 2 내부의 어떤 구성 요소들이 이런 작업을 할 수 있도록 해 주는 걸까요?

간단하게 이야기하자면, Genie 2 그 자체는 대규모 비디오 데이터셋으로 학습을 하고, 비디오를 프레임 단위로 생성하는 자기회귀 잠재 확산 모델 (Autoregressive Latent Diffusion Model)인데요. 이 작업이 이루어지는 과정은 이렇습니다:

Genie 2는 오토인코더(Autoencoder)를 사용해서 비디오 프레임을 잠재 공간 (Latent Space)으로 압축합니다.
트랜스포머 기반의 자기회귀 모델이, 이전 프레임과 에이전트의 행동을 바탕으로 다음에 올 잠재 프레임 (Latent Frame)을 예측합니다.
잠재 확산 과정(Latent Diffusion Process)를 적용해서, 잠재 예측값으로부터 사실적인 비디오 프레임을 정제, 행성합니다.
잠재값(Latents)을 시각적 프레임으로 디코딩합니다.

Image Credit: Genie 2 블로그

이런 아키텍처를 통해서, Genie 2가 더 저차원의 잠재 공간 (Latent Space)에서 작동하면서도, 시간이 지나면서 사용자나 에이전트의 입력에 반응해서 사실적이고 일관된 비디오 출력을 만들어 낼 수 있게 해줍니다. 결국, 복잡한 가상 세계에서 다양한 작업에 적용할 수 있는 범용 시스템을 구축할 수 있다는 가능성을 보여주는 셈입니다.

엔비디아 코스모스 WFM (월드 파운데이션 모델)

엔비디아, 이 회사의 ‘월드 모델’에 대한 기여를 과소평가해서는 안 되겠죠. 엔비디아만큼 Physical AI에 열정을 쏟는 회사도 별로 없을 겁니다.

엔비디아는 코스모스 WFM (Cosmos World Foundation Model) 플랫폼이라는 완전하게 구성된 모듈식 생태계를 만들고 키우는데 초점을 맞추고 있는데, 이 플랫폼은 Physical AI를 위한 비디오 기반 월드 모델을 훈련하고 시뮬레이션, 적용하도록 설계되었습니다. 이 플랫폼에 대해서는 튜링 포스트 코리아에서 이전에 따로 커버한 적이 있으니, 우선 한 번 참고하셔도 좋겠습니다:

Topic #24: 엔비디아의 'Cosmos WFM 플랫폼'에 대해 알아봅시다!

Physical AI의 근간이 되는 월드 모델 - 엔비디아는 이걸 어떻게 구현하고 있을까요?

turingpost.co.kr/p/topic-24-ndivia-cosmos-wfm

그리고, 그 이후에 이 플랫폼과 모델에 대한 좀 더 많은 정보가 나와서, 오늘은 그 내용을 조금 더 살펴보겠습니다.

코스모스 WFM 플랫폼은 ‘세 가지의 주요 모델 패밀리’를 포함하고 있어요. 각각 패밀리가 하나는 풍부하게 시각적인 세계를 이해하게 해 준다든지, 다른 하나는 시뮬레이션과 추론을 가능하게 해 준다든지 하는, 구별이 되면서도 상호 보완적인 역할을 합니다.

Cosmos-Predict1
이 모델은, 시각적인 세계가 시간에 따라 어떻게 진화하는지를 시뮬레이션합니다. 1억 개 이상의 비디오 클립에서 일반적인 물리적 세계의 다이나믹스를 학습하고, 텍스트, 액션 또는 카메라 입력을 통해서 제어할 수 있도록, 더 소규모의 데이터셋을 사용해서 특정한 작업에 맞게 파인튜닝할 수 있습니다. 여기에는 두 가지 유형의 모델이 있습니다:
- 확산 모델(Diffusion Models. 예: Cosmos-Predict1-7B-Text2World)
  잠재 공간에서 노이즈를 제거해서 텍스트에서 비디오를 생성합니다.
- 자기회귀 모델(Autoregressive Models. 예: Cosmos-Predict1-13B-Video2World)
  GPT와 유사하게, 이전 컨텍스트에서 토큰별로 비디오를 생성합니다.
Cosmos-Transfer1
Cosmos-Predict1 위에 바로 직접 구축한 모델인데, 강력한 ‘적응형 멀티모달 제어 기능’을 더한 모델입니다. Cosmos-Transfer1은 사용자가 분할 맵(Segmentation Maps), 깊이 맵(Depth Maps), 엣지 맵(Edge Maps), 흐릿한 시각적 입력, HD 맵 및 LiDAR 데이터와 같은 여러 공간 제어 신호를 사용해서 ‘세계를 생성하는 과정’을 가이드해 줍니다.

다양한 입력값들을 효과적으로 처리하기 위해서, 엔비디아는 깊이용으로 하나, 엣지용으로 하나 등 모달리티별로 별도의 ControlNet 브랜치를 추가합니다. 이렇게 추가되는 ‘제어 브랜치’는 독립적으로 훈련시켜서 효율적으로 메모리를 사용하고 유연하게 운용할 수 있도록 합니다. 여기 더해서, 제어 브랜치를 통한 세밀한 제어도 가능한데, 예를 들면, 객체의 디테일을 위한 전경 엣지나 기하학을 위한 배경의 깊이를 강조하거나 할 수 있습니다.

Cosmos-Transfer1은 시공간에 걸쳐서 다양한 입력에 가중치를 다이나믹하게 할당하기 위해서 시공간 제어 맵(Spatiotemporal Control Maps)을 사용합니다.

결과적으로, Cosmos-Transfer1은 5초 미만에 5초 길이의 720p 비디오를 생성할 수 있어서, ‘실시간 추론 (Inference)’이 가능한 모델이라고 할 수 있겠습니다.

Image Credit: Cosmos-Transfer1 깃허브

Cosmos-Reason1
이 모델 계열(8B 및 56B 파라미터 크기로 제공됩니다)은, 실세계의 물리학과 환경의 다이나믹스에 근거해서 무슨 일이 일어나고 있는 건지, 다음에 무슨 일이 발생할지, 그리고 어떤 행동을 할 수 있는지 등에 대해서 추론하는 모델입니다.
Cosmos-Reason1은 Predict1에서 시뮬레이션한 세계, Transfer1에서 정제한 시각 정보를 사용해서 ‘정보에 기반한 의사결정’을 함으로써, 엔비디아가 이야기하는 ‘Physical AI 시스템의 순환’을 완성하는 조각입니다. 두 가지 추론의 기둥이 있는데요:
- 물리적인 상식 (Physical Common Sense)
  공간, 시간, 물체의 영속성, 물리학 등에 대한 일반적인 지식.
- 실체화된 추론 (Embodied Reasoning)
  물리적인 제약 조건(로봇, 인간, 자율 주행 차량 등) 하에서의 ‘에이전트 기반 의사 결정’을 의미합니다.
  
  흥미롭게도, Cosmos-Reason1은 긴 시퀀스 추론에 최적화된 Hybrid Mamba-MLP-Transformer를 사용합니다. 왜 그들은 다른 아키텍처들을 함께 사용했을까요? 우선, 1) Mamba는 장거리 의존성을 포착하는 데 뛰어나서 시스템의 효율성을 향상시켜 주고; 2) Transformer 블록은 완전한 셀프 어텐션을 사용해서 단거리 의존성과 고수준 초상화에서의 정밀도를 높여줍니다; 3) 마지막으로 MLP(다층 퍼셉트론) 레이어는 Mamba와 Transformer 레이어 사이에 강력한 비선형 변환을 제공하는데, 학습을 안정화하고 특히 여러 폼팩터 (비디오 + 텍스트) 간의 정보를 통합하기 위한 병목 역할을 하면서 유연성을 제공합니다.
  
  출력값으로는, Cosmos-Reason1은 아래 이미지에서 보듯이 CoT (Chain-of-Thought) 설명, 그리고 최종적인 행동이 포함된 자연어 블록을 생성합니다.

Image Credit: Cosmos-Reason1 오리지널 논문

전체적으로, Cosmos-Predict1, Cosmos-Transfer1, 그리고 Cosmos-Reason1 이 세 가지 모델 패밀리는 엔비디아의 ‘Physical AI를 위한 통합적 파운데이션’을 형성합니다:

Predict1은 현실적인 세계의 다이나믹스를 시뮬레이션
Transfer1은 다양한 모달리티에 걸쳐서 세밀하게 제어할 수 있는 비디오를 생성
Reason1은 실체화된 (Embodied) 결정을 내리기 위해서 물리적인 세계를 해석하고 추론

합니다. 결국, 함께 복잡한 실제 환경을 보고, 만들어내고, 추론할 수 있는 ‘지능형 에이전트’를 구동할 수 있는 통합적인 파이프라인을 완성하는 겁니다.

자, 그럼 오늘 살펴볼 마지막 월드 모델이지만, 결코 그 중요성은 떨어지지 않는, 또 다른 AI의 거인, 메타 (Meta)의 월드 모델을 살펴보러 가죠.

메타의 NWM (네비게이션 월드 모델)

일단, 메타, 그리고 월드 모델에 대해서 언급하고 넘어갈 것은, 메타 AI의 최고 AI 과학자인 얀 르쿤 (Yann LeCun)도 ‘월드 모델’을 지지하고 진두 지휘하고 있다는 겁니다. 얀 르쿤은, 향후 10년 내에 사람 수준의 AI에 도달하려면 ‘추론’, ‘계획’을 할 수 있도록 해 주는 월드 모델의 길로 가야 한다고 이야기합니다.

메타의 FAIR (Fundamental AI Research) 조직도, 그래서 월드 모델 개발로 방향을 전환하면서 모든 가능성을 빠르게 타진하고 열어가고 있는데요. 그 중 하나가 바로 오늘 이이기할, 뉴욕 대학 및 버클리 AI 연구소와 함께 만든 NWM (Navigation World Model, 네비게이션 월드 모델)입니다.

‘네비게이션’은, 지능형 에이전트에게는 핵심적인 기술입니다 - 특히 로봇이나 게임 속 가상 비서처럼 볼 수 있고 움직일 수 있는 에이전트에게는 말이죠. 여기서 NWM은 에이전트가 어디에 있었고 어디로 가고 싶은지를 기반으로 다음에 무엇을 볼지 상상할 수 있는, 스마트한 비디오 생성기 같다고 생각하면 됩니다. 가능한 이동 경로를 시뮬레이션하고, 그 경로를 따라가면 목표에 도달하는지를 확인할 수 있습니다. NWM에게는 고정된 규칙 따위는 없고, 새로운 지시, 제약 조건 등에 따라 계획을 조정할 수 있습니다.

꼭 알아야 할 핵심적인 것이 있는데, 바로 NWM이 강력한 CDiT (Conditional Diffusion Transformer)를 사용한다는 겁니다. CDiT는 확산을 기반으로 한 학습 과정을 따르지만, 어텐션의 복잡성을 크게 줄임으로써 표준적인 확산 트랜스포머(DiT 같은)를 훨씬 넘어서는 성능을 보여줍니다 - CDiT는 모든 토큰에 대해 연산을 하는 셀프 어텐션이 아니라, 크로스 어텐션을 사용해서 더 긴 컨텍스트를 처리하고 모델 사이즈도 더 키울 수 있고, DiT에 비한다면 4배나 적은 FLOPs로 작동합니다.

Image Credit: NWM (Navigation World Model) 오리지널 논문

‘네비게이션’이라는 관점에서 NWM이 가진 중요한 다른 이점은 무엇일까요?

사람과 로봇 모두에서 얻은 방대한 1인칭 비디오 세트로 훈련합니다.
훈련이 완료되면 시뮬레이션을 통해서 목표에 도달하는 새로운 경로를 계획하고 확인할 수 있습니다.
모델이 꽤 커서 (약 10억 파라미터), 복잡한 장면을 이해할 수 있는 능력을 갖추게 됩니다.
NWM은 심지어 새로운 환경도 잘 처리할 수 있습니다 — 단 하나의 이미지를 참조로 사용해서 전체 네비게이션 경로가 어떻게 보일지 상상할 수 있습니다.

이런 모든 측면들 때문에, NWM은 스마트한 네비게이션 시스템을 구축하고자 할 때 검토할 만한, 유연하고도 미래 지향적인 도구로 포지셔닝할 수 있습니다.

맺으며: 월드 모델은 왜 중요한가?

여기까지, 구글 딥마인드의 Dreamer V3와 Genie 2, 엔비디아의 코스모스 WFM, 그리고 메타의 NWM까지 여러 가지의 고급 월드 모델을 간단히나마 살펴봤습니다.

이 월드 모델들은 각각 서로 다른 백본, 작동 원리로 움직이는데요. 이미 많은 성과를 거둔 것도 사실이지만, 월드 모델의 발전은 이제 시작일 뿐입니다. 당장 예를 든다면, 수많은 거대 기업들과 Fei-Fei Li 교수의 월드 랩스 (World Labs)가 공간 지능과 월드 모델의 잠재력을 완전히 끌어내기 위해서 무슨 일을 함께 할지, 기대가 되지 않을 수가 없습니다.

그렇지만, 분명히 시간은 걸릴 겁니다. 월드 모델의 개발 단계는, 에이전트의 개발 단계와 어쩌면 비슷하다고 볼 수도 있겠는데, 결국 이 둘이 ‘Physical AI’를 위해서는 상호 필수 불가결한 존재들이기 때문입니다.

월드 모델은 왜 중요할까요? 바로, 월드 모델이 AI에게 꼭 필요하고 목표로 삼을 만한 핵심적인 기능을 얻도록 해 줄 단초를 제공하기 때문입니다:

계획 및 의사 결정 (Planning & Decision Making)
에이전트는 ‘월드 모델’을 통해서 다양한 행동 전략의 결과로 나타날 미래 상태의 시퀀스를 ‘상상’하고 최선의 계획을 선택할 수 있습니다. 이게 바로 모델 기반 강화학습의 본질이고, 멀리 내다보는 의사결정이라든지 여러 단계 앞을 계획하는데 도움을 줄 수 있습니다.
효율성 (Efficiency)
실세계 (또는 시뮬레이터)에서 시행착오를 통해 학습한다는 건, 의미는 크지만 비용이 많이 들고 속도를 빠르게 하기가 쉬운 작업이 아닙니다. 월드 모델은, 에이전트가 시뮬레이션된 경험 (일종의 ‘정신적 연습’이라고 할까요?)으로부터 학습을 할 수 있게 해서, 실제로 필요한 상호작용의 양을 극적으로 줄일 수 있습니다.
일반화 및 유연성 (Generalization & Flexibility)
좋은 월드 모델은 환경의 일반적인 속성을 포착해 내서 에이전트가 새로운 상황에 적응하는 데 도움을 줍니다. 기본 역학을 이해함으로써, 에이전트는 모델 내에서 추론을 통해 훈련에서 명시적으로 보지 못한 조건을 처리할 수 있습니다.
풍부한 근거 제공 (Richer Grounding in Reality)
월드 모델은 언어 모델보다 비디오 스트림 같은 더 많은 원시 정보를 가지고 훈련할 수 있기 때문에, 현실에서 더 풍부한 근거를 제공할 수 있는 가능성이 있습니다.
일반 지능 (General Intelligence)을 향한 디딤돌
많은 연구자들이 ‘월드 모델은 더 일반적인 AI 인식으로 향하는 디딤돌’이라고 인식합니다. 월드 모델은, AI 시스템에 세계가 작동하는 방식에 대한 일종의 ‘상상력’과 ‘직관적 이해’를 제공합니다 - 이게 바로 사람과 같은 상식, 추론, 문제 해결을 하기 위한 전제 조건이겠죠.

“우리에게는 세상을 이해하는 기계가 필요합니다. 사물을 기억할 수 있고, 직관력이 있고, 상식도 있고, 사람과 같은 수준으로 추론하고 계획할 수 있는 기계가 말이죠.”

얀 르쿤

아직 ‘월드 모델에 부족’한 것이 있다면 - 물론 많은 것들이 있을 수 있지만요 - , 중요한 것 하나는 ‘Causal AI와의 통합’입니다.

다음 번 AI 101 에피소드에서 이 주제 - Causal AI - 를 다뤄보려고 합니다. 아직은 주로 학술적인 관점에서, 또는 아주 니치한 영역에 초점을 맞추고 있는 주제이긴 하지만, AGI에 대한 논의를 하는데 있어서는 필수적인 사항이라고 생각합니다.

보너스: 참고자료

Dyna, an Integrated Architecture for Learning, Planning, and Reacting by Richard S. Sutton (paper)
The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces (paper)
World Models by David Ha and Jürgen Schmidhuber (paper)
Dream to Control: Learning Behaviors by Latent Imagination
Mastering Atari with Discrete World Models (paper)
Mastering Diverse Control Tasks through World Models (project page)
DayDreamer: World Models for Physical Robot Learning (paper)
Genie 2: A large-scale foundation world model (blog)
Cosmos World Foundation Model Platform for Physical AI (paper)
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control (paper)
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning (paper)
World Foundation Models (NVIDIA blog)
Navigation World Models (paper)
Keynote: Yann LeCun, "Human-Level AI" (video)
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy (paper)
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems (paper)
NVIDIA Isaac GR00T (NVIDIA blog)

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.