• Turing Post Korea
  • Posts
  • 12가지 강력한 월드 모델

12가지 강력한 월드 모델

월드 모델(World Models)은 아마도 AI 분야에서 가장 도전적인 영역 중 하나라고 해도 과언이 아닐 겁니다: 추론(Reasoning), 지각(Perception), 계획(Planning)의 경계를 가상의 세계에서 현실 세계로까지 확장하고 있는 분야죠.

월드 모델은 일종의 생성형 AI 시스템이긴 하지만, 모델과 에이전트가 ‘실제 세계 환경’에 대한 내부적인 표현(Internal Representation)을 학습할 수 있게끔 하는 기술입니다.

오늘은 특히 주목할 만한 12가지 월드 모델의 사례를 소개해 볼까 합니다:

  1. WorldVLA
    이 자기회귀(Autoregressive)형 월드 모델은 ‘행동 예측’과 ‘시각적 월드 모델링’을 하나의 프레임웍 안에 통합해서, 서로가 서로를 향상시키게끔 합니다. 또 행동 예측의 오류를 줄이기 위해서 어텐션 마스킹(Attention Masking) 전략을 활용합니다.

  2. SimuRA
    언어 기반의 월드 모델을 사용해서 실행 전에 행동을 시뮬레이션하고 계획할 수 있는 일반화된 월드 모델로, 더 일반적이면서도 유연한 추론을 할 수 있게 해 줍니다.

  3. PAN (Physical, Agentic, and Nested) world models
    불연속적인 개념 기반 추론(Discrete Concept-Based Reasoning, LLM을 통해서)과 연속적인 지각 시뮬레이션(Continuous Perceptual Simulation, Diffusion 모델을 통해서)을 결합한 하이브리드 아키텍처를 가지고 있어서, 풍부한 다층(Multilevel), 다중 모달(Multimodal) 이해와 예측을 할 수 있습니다.

  4. MineWorld by Microsoft Research
    마인크래프트에서 시각 정보와 행동을 토큰화(Tokenization)해서, 자기회귀 트랜스포머에 통합, 실시간의 상호작용형 월드 모델링을 구현합니다. 빠른 장면 생성(초당 4~7 프레임)을 위해서 병렬 디코딩(Parallel Decoding)을 사용합니다.

  5. WorldMem
    타임스탬프가 붙은 프레임과 상태들에 대한 어텐션을 활용한 메모리 뱅크(Memory Bank)를 사용해서, 장면을 생성할 때 장기적으로 3D의 공간적인 일관성을 유지합니다. 이 기법을 활용해서 과거의 장면을 재구성하고, 시간의 간격이 크더라도 다이나믹한 세계의 변화를 시뮬레이션할 수 있습니다.

  6. iVideoGPT
    시각적 관찰(Visual Observations), 행동(Actions), 보상(Rewards)을 단일한 토큰 시퀀스로 통합해서, 고차원 환경에 대한 확장 가능한, 상호 작용형의 월드 모델링을 가능하게 해 줍니다.

  7. MaskGWM
    자율주행(Autonomous Driving)에 사용되는 모델로, MAE 스타일의 특징 수준 컨텍스트 학습(MAE-Style Feature-Level Context Learning)을 비디오 생성(Video Generation)과 결합해서 장기 예측과 다중 시점 예측 성능을 향상시켜 줍니다. 주요한 혁신 요소로는 ‘확장 가능한 디퓨전 트랜스포머(Scalable Diffusion Transformers)’, ‘디퓨전 인식 마스크 토큰(Diffusion-Aware Mask Tokens)’, ‘시공간 마스킹(Spatial-Temporal Masking)’ 등이 있습니다.

  8. World-model-augmented (WMA) web agent
    월드 모델과 LLM 기반 웹 에이전트를 결합한 이 모델은, 에이전트가 미래에 나타날 어떤 결과를 자연어로 시뮬레이션하고, 장기 과제(Long-Horizon Tasks)에서 실수를 피할 수 있게끔 해 줍니다. 이 월드 모델은 ‘전이 중심의 추상화(Transition-Focused Abstraction)’를 통해서 정책을 효율적으로 개선할 수 있습니다.

  9. Navigation World Models from Meta
    에이전트가 행동하기 전에 내비게이션 경로를 시뮬레이션하고 평가할 수 있도록 합니다. 대형 조건부 디퓨전 트랜스포머(Large Conditional Diffusion Transformer) 기반으로 작동하는 NWM은 다이나믹한 제약 조건에 맞춰서 적응할 수 있고, 단 한 장의 이미지로도 낯선 환경에 일반화할 수 있습니다.

  10. Сosmos World Foundation Models by NVIDIA
    세 가지 모델 계열을 포함합니다:

    1. Cosmos-Predict1: 비디오 클립으로부터 물리적 세계의 역학(Physical World Dynamics)을 학습해서 비주얼한 세계의 ‘시간에 따른 변화’를 시뮬레이션합니다.

    2. Cosmos-Transfer1: 분할(Segmentation), 깊이 정보(Depth), 엣지 맵(Edge Maps), 흐릿한 시각 입력(Blurred Visual Inputs) 등 다양한 공간 제어 신호를 활용해서 ‘세계의 생성’을 유도할 수 있게 합니다.

    3. Cosmos-Reason1: 현재 상황, 앞으로 일어날 일, 가능한 행동 등에 대해 추론할 수 있습니다.

  11. DreamerV3, Google DeepMind
    단일한, 범용 월드 모델 기반의 강화학습 알고리즘으로, 사람의 데이터나 보상 설계(Reward Shaping)를 하지 않고도 복잡한 환경에서 강건(Robust)하고 멀리 내다보는 계획(Robust, Farsighted Planning)을 수행할 수 있습니다. 마인크래프트에서 다이아몬드를 처음부터 수집하는 등의 과제에서 뛰어난 성능을 보여줍니다.

  12. Genie 2, Google DeepMind
    Embodied Agents를 위한 다양한 훈련 환경을 생성합니다. 단 하나의 이미지 프롬프트로 키보드와 마우스로 제어할 수 있는, 플레이를 할 수 있는 가상 세계(Playable Virtual Worlds)를 만들어서, 사람과 AI 시스템 모두가 사용할 수 있습니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.