- Turing Post Korea
- Posts
- PAN은 무엇인가: 월드 모델의 새로운 판을 짜다
PAN은 무엇인가: 월드 모델의 새로운 판을 짜다
월드 모델의 한계를 돌파하는 새로운 아키텍처, PAN. 패러다임이 뒤집히는 순간이 온다
들어가며
이 글은 2025.9.26일 모든 구독자들이 보실 수 있게 공개되었습니다.
이미 튜링포스트 코리아에서 몇 편의 에피소드를 통해서 ‘월드 모델’의 끝없는 세계를 탐구해 본 적이 있습니다. 먼저, 엔비디아의 Cosmos WFM(World Foundation Model) 플랫폼이라는, 피지컬 AI로의 전환을 지원하는 생태계를 살펴본 적이 있구요:
그리고, 현재 월드 모델이 어떤 모습인지, 어떻게 작동하면서 이 시뮬레이션된 세계를 AI 에이전트 서비스에 활용할 수 있을지 등에 대해서도 커버한 적이 있구요:
하지만, 아직 월드 모델에 대한 탐구는 아직도 시작 단계라고 봐야 할 겁니다. 엄청나게 많은 이야기가 앞으로 펼쳐지겠죠.
오늘 에피소드에서는, 이 월드 모델을 구축하는 방식을 근본적으로 재고하는 관점에 대해서 한 번 살펴보려고 합니다. 지금까지 우리가 월드 모델을 만드는 아키텍처를 바라본 관점 자체가 올바르지 않은 것일 수도 있을까요? 물론, 이제 막 시작하는 단계에 있는 분야라서, 어떤 관점이든 완전히 옳거나 완전히 잘못된 것은 없겠고, 오로지 끝없는 탐구와 실험이 계속되어야 할 분야이기는 하죠. 월드 모델이 뭐냐에 대한 정의조차 완전한 합의에 이르지는 못한 상태이니, 이걸 어떻게 구축하는게 맞느냐는 건 더 어려운 이야기이긴 합니다.
그래서, 카네기멜론 대학교, MBZUAI, UC 샌디에이고의 연구자들이 기존의 월드 모델링(World Modeling) 방향에 대해 비판적인 접근을 취한 것에 더 관심이 갔습니다.
영화 ‘듄(Dune)’이 보여주는 상상의 세계, 그리고 심리학에서의 ‘가설적 사고(Hypothetical Thinking)’ 개념에서 영감을 받았다고 하는데, 이 연구자들은 월드 모델의 주요 미션을 이렇게 정의하고 있습니다: ‘실세계의 모든 실행 가능한 가능성을 시뮬레이션(Simulation)해서, 목적이 있는 추론(Reasoning)과 행동(Acting)을 가능하게끔 해 주는 것’이라구요. 연구자들에 따르면, 이 새로운 아키텍처는 아래의 특징을 나타내야 한다고 합니다:
계층적, 다층적(Hierarchical and Multi-level)
연속적 및 이산적 표현이 혼합(Mixed Continuous and Discrete Representations)
생성형이면서 자기 지도형(Generative and Self-supervised)
이런 접근의 결과, 물리적(Physical), 에이전트 중심적(Agentic), 중첩된(Nested) ‘PAN(P, A, N을 딴 줄임말) 월드 모델 시스템’으로 이어지는데, 이 시스템이 AGI(Artificial General Intelligence)의 기반을 형성할 가능성이 있다고 합니다.
자, 그럼 이 연구자들이 펼친 비판적 관점을 따라서, 효과적인 월드 모델링(World Modeling)의 더 깊은 측면을 한 번 탐구해 보겠습니다.
오늘 에피소드에서는, 다음과 같은 내용을 다룹니다:
월드 모델이 대체 왜 필요한가?
월드 모델(World Model)이 뭔지, 그리고 왜 이런 도구가 정말로 필요한지, 간단히 이야기하면서 시작을 해 보죠. 월드 모델은 에이전트(Agent), 즉 스스로 목표를 달성하기 위해 행동하는 시스템을 생각할 때 등장합니다. 에이전트의 환경(Environment)은 그 주변의 모든 것을 포함하죠: 물리적인 세계, 사회적인 세계, 어쩌면 우주 자체까지도 에이전트의 환경이 될 수 있을 겁니다. 일반적으로 에이전트는 이렇게 작동하게 될 겁니다:
현재 세계의 상태(State)를 관찰합니다.
관찰한 내용을 바탕으로, 특정 전략이나 규칙에 따라서 행동(Action)을 선택합니다.
그러면, 환경이 다시 이 행동에 반응해서 새로운 상태(New State)를 생성합니다.
에이전트는 목표의 달성 정도를 측정하는 보상(Reward)을 받습니다. 목표는 ‘예상되는 총 보상(Total Reward)을 극대화하는 행동을 선택’하는 것이구요.
이론적으로, 최적의 에이전트라면 완벽한 결정을 내리기 위해서 세계의 진정한 상태(True State)에 접근해야 하지만, 실제로는 노이즈(Noise)와 불완전성(Incompleteness)이 포함된 불완전한 정보(Imperfect Information)만을 가질 수 밖에 없습니다. 이 때, 월드 모델이 에이전트에게 일종의 ‘상상력(Imagination)’을 제공함으로써 도움을 줄 수 있습니다.
즉, 월드 모델은 미래를 생성적으로 시뮬레이션(Generative Simulator)하는 역할을 하는 셈이고, 에이전트가 실제 세계에서 행동하기 전에 일종의 ‘사고 실험(Thought Experiment)’을 할 수 있게 해 줍니다. 월드 모델이 있으면, 에이전트가 진정한 상태를 알 필요가 없어져서 일이 더 쉬워지게 됩니다 - 진정상 상태를 찾아가는 끝없는 여정 대신에, 아래와 같은 과정을 거쳐서 에이전트가 활동하게 됩니다:

Image Credit: Critiques of World Models 오리지널 논문
에이전트(Agent)는 센서를 통해 관찰한 것(oₜ)을 기반으로 자체적인 신념 상태(Belief State, ŝₜ)를 구축합니다.
인코더(Encoder)는 이런 관찰 내용을 내부의 신념 상태로 처리합니다.
그 다음 에이전트가 가능한 행동(Action, a′ₜ)을 고려합니다.
월드 모델은 다음의 신념 상태(ŝₜ₊₁)가 어떻게 될지 결정적으로가 아니라 확률적으로(Probabilistically) 예측합니다 - 보통의 경우라면, 수많은 가능한 미래와 불확실성(Uncertainties)이 존재하기 때문입니다.
에이전트는 이 예측-행동 주기(Prediction–Action Cycle)를 미래의 여러 단계에 걸쳐 반복합니다.
이런 능력을 통해서, AI 에이전트는 “A라는 행동을 하면 어떤 일이 일어날까?”, “대신 B를 시도한다면?”, “아무것도 하지 않는다면?” 같은 식의 사고 실험(Thought Experiment)을 수행할 수 있고, 에이전트가 목표 달성 가능성이 가장 높은 행동을 선택할 수 있습니다.
범용 월드 모델(General-purpose World Model)은 아래와 같은 다양한 도메인을 포괄할 수 있습니다:
물리적 역학(Physical Dynamics): 물체의 움직임, 물이 흐르는 방식 등
체화된 경험(Embodied Experiences): 균형, 자세, 더위나 어지럼증 같은 느낌
감정 상태(Emotional States)
사회적 상황(Social Situations)
정신적 세계(Mental World): 멀티 에이전트 상황에서의 계획, 전략, 문제 해결 같은 추상적인 추론(Abstract Reasoning)
반사실적 사고(Counterfactuals): “What-if” 시나리오 탐구
진화적 역학(Evolutionary Dynamics): 유전, 적응과 같은 세대 간 변화
월드 모델의 강점은, 시뮬레이션 추론(Simulative Reasoning)을 가능하게 해 주는 겁니다. 다시 말해서, 다양한 상상된 미래를 시뮬레이션하고 비교해서 최적의 계획을 선택하는 것이죠. 또, 월드 모델을 통해서 AI가 한 환경에서 다른 환경으로 지식을 전이(Transfer)할 수 있는데, 이건 인간이 다양한 기술을 활용하는 방식(예: 가상 캐릭터 조종 기술이 드론 조종에 도움이 됨)과 유사하기도 하고, 이 과정을 통해서 명시적인 훈련을 하지 않고도 새로운 상황에서 “제로샷 일반화(Zero-shot Generalization)”를 해 내는 멋진 기계를 만들 수도 있습니다.
모든 월드 모델을 연결하는 대담한 아이디어는 이런 겁니다: 모델이 다음 단어를 예측할 수 있다면, 미래가 펼쳐질 수 있는 모든 가능한 방식을 예측하도록 만들 수 있다는 것입니다. 그렇다면, 여기서 핵심 질문은 “이걸 어떻게 하도록 할 건가”겠죠.
현재 월드 모델들이 가진 문제
현재 찾아볼 수 있는 월드 모델(World Model)을 살펴보면, 대부분 비디오와 이미지 생성에 강한 초점을 두고 있다는 점이 먼저 눈에 띕니다. 사실 그래서 진짜 추론 엔진(Reasoning Engine)이라기보다는 비디오 생성기(Video Generator)처럼 보이는 경우가 많구요. 그렇지만, 현재 우리가 다루는 다양한 월드 모델에서는 고려해야 할 점이 더 있습니다:
게임 월드 모델(Gaming World Models), 예를 들어 Genie 2(Google DeepMind)나 Muse(Microsoft)는 1-2분 정도의 짧은 비주얼 시뮬레이션(Visual Simulation)에 적합하지만, 장기적인 일관성(Long-term Coherence)을 유지하는 데 어려움이 있고, 콘솔 스타일 입력이나 마인크래프트 같은 세계와 같이 도메인에 특화(Domain-specific)된 경우에만 효과적입니다.
World Labs에서 구축한 3D 장면 월드 모델(3D Scene World Models)은, 양식화된 3D 환경(Stylized 3D Environments)과 내비게이션에 초점을 맞춰서 ‘공간적인 사실성’을 추구하지만, 에이전트의 추론(Agent Reasoning)이나 인과적인 시뮬레이션(Causal Simulation)을 지원하지 않고, 역학(Dynamics), 물리, 풍부한 상호작용성(Rich Interactivity)이 부족합니다.
NVIDIA Cosmos나 Wayve GAIA-2 같은 물리적 월드 모델(Physical World Models)은 ‘Embodied Physical Tasks’ 용으로 설계되어서 물리학과 감각-운동 반응(Sensory-motor Responses)을 모델링하는 데 특화되어 있습니다. 하지만 개방형(Open-ended), 다중 에이전트(Multi-agent), 또는 사회적 추론(Social Reasoning) 같은 작업에까지 일반화하지는 못하고, 비교적 좁은 영역에서만 그 능력이 발휘된다는 단점이 있습니다.
OpenAI Sora, Google DeepMind Veo 같은 비디오 생성 모델은 프롬프트나 이전 프레임(Prior Frames)에서 고품질 비디오 시퀀스를 생성하지만, 고정된 비디오 궤적(Fixed Video Trajectories)만 생성하고, 명시적인 상태(State), 행동(Action), 또는 객체 수준의 이해(Object-level Understanding)는 없다고 봐야 합니다.
마지막으로, V-JEPA, DINO-WM 등 JEPA 계열의 Joint Embedding Predictive Model은, 예를 들어서 실제 로봇 팔 조작(Robotic Arm Manipulation)을 수행할 수 있는 가장 유망한 방향이기는 하지만, 복잡하고 장기적인 작업(Long-term Tasks)을 처리하기에는 아직 부족합니다.
결국, 우리가 월드 모델에서 원하는 모든 것을 제공하는 완벽한 아키텍처는 사실 아직 없다고 봐야 할 것 같습니다. 그렇다면, 이제 한 번 월드 모델에 대한 새로운 접근 방식을 생각해 볼 때는 아닐까요?
새로운 영감과 아이디어의 등장
이전의 다양한 월드 모델들이 가진 나름의 한계점을 극복할 수 있는 새로운 아키텍처를 만들어 보겠다는 목표로 연구를 하던 카네기멜론 대학교, MBZUAI, UC 샌디에이고의 연구자들은, 두 가지 개념에서 큰 영감을 얻었습니다.
우선 첫 번째는, SF같은, 미래적인 이야기에서 볼 수 있는 것으로부터 얻은 영감인데요. 이 새로운 월드 모델의 아이디어는 SF, 특히 듄(Dune)에서 가장 유명하게 나타납니다.

영화 듄, 퀴사츠 헤더락. Image Credit: 루리웹
이 이야기에서 퀴사츠 헤더락(Kwisatz Haderach)은 조상의 기억을 떠올리고 수많은 가능한 미래를 내다보고, 최상의 결과를 이끄는 경로를 선택할 수 있는, 그야말로 듄의 세계에서 인간이 가질 수 있는 모든 초인적인 요소를 하나로 합친 인물입니다. 이 능력으로 군대를 지휘하고, 사회를 변화시키고, 전체 행성의 운명조차 바꿀 수 있게 됩니다.
반면에, 우리 인간이 가진 ‘뇌’는 단순한 물리적 작업부터 고도로 추상적인 작업까지 다양한 과제를 처리하는 일종의 범용 시스템(Universal System)입니다. 각각의 과제는 물리적, 사회적, 감정적, 인지적 요소가 혼합된 멀티 모달 환경(Multimodal Environment)에서의 도전 과제라고 볼 수 있고, 이런 과제가 단기, 장기적인 타임라인에 걸쳐서 펼쳐지게 되죠. 인간이 이 과제들에 대처하게끔 도와주는 기제가 바로 심리학의 가설적 사고(Hypothetical Thinking), 즉 우리가 흔히 “만약에(What-if)” 사고라고 부르는 것이죠: 즉, 행동하기 전에 가능한 미래를 정신적으로 시뮬레이션하고 다양한 결과를 테스트하는 것, 이것이 바로 월드 모델이 포착하고자 하는 것이구요.
이 두 가지 영감으로부터 연구자들은 ‘미래를 예측하고, 다양한 형태의 데이터를 다루고, 행동하기 전에 결과를 시뮬레이션하는 능력을 갖춘’ 새로운 월드 모델을 만들겠다는 생각을 하게 된 거죠. 연구자들은 이 모델을 PAN(Physical, Agentic, Nested) 월드 모델이라고 불렀고, 이 월드 모델은 아래와 같은 특징을 가집니다:
텍스트, 이미지, 행동 등 모든 유형의 경험 데이터를 활용합니다.
스무드한 프로세스와 명확한 범주를 위해서 연속적 및 이산적 표현을 결합합니다.
LLM 백본으로 강화된 계층적 생성 모델링을 통해서 동작합니다.
실제 관찰에 연결된 생성 손실 (Generative Loss)로 훈련합니다.
시뮬레이션된 경험에서의 강화학습을 통해서 에이전트를 개선합니다.
다른 방식으로 요약을 해 보면, ‘퀴사츠 헤더락’이 수많은 미래를 예측하고 최상의 경로를 선택하듯이, PAN 모델은 시뮬레이션된 경험을 통해서 강화학습으로 에이전트를 개선하는 것, 그리고 ‘인간의 뇌’가 다양한 과제를 처리하고 가설적 사고를 통해 가능한 미래를 시뮬레이션하듯이, PAN 모델은 텍스트, 이미지, 행동 등 모든 유형의 경험에서 데이터를 활용하고 ‘가설적 사고’를 포착하는 것, 이 두 가지를 목표로 하겠다는 영감을 얻었다는 말입니다.
자, 그럼 PAN 월드 모델의 효과를 보기 전에, 어떻게 만들어지고 작동하는지를 간단히 살펴보죠.
더 나은 월드 모델은 어떻게 만들어지나
새로운 것을 구축하려면 이미 가지고 있는 것을 바닥부터 재검토해야 합니다. 카네기멜론 대학교, MBZUAI, UC 샌디에이고의 연구자들은 얀 르쿤 같은 영향력 있는 인물들이 제안한 패턴을 비판하는, 용감한 길을 택했습니다. 그런 패턴들은 큰 영향력이 있지만, 커뮤니티가 이 분야를 계속 탐구하는 과정에서 다양한 논란의 여지가 발견되기도 하니까요.
자, 월드 모델을 구축하기 위한 다섯 가지 측면의 기본적인 패턴은 다음과 같습니다:
데이터(Data) → 비디오, 오디오, 냄새, 촉각 같은 감각 데이터(Sensory Data)는 텍스트보다 우수합니다. 왜냐하면 실세계는 훨씬 더 많은 감각 데이터를 생성하기 때문이죠.
표현(Representation) → 세계의 상태(World State)는 이산 토큰(Discrete Tokens)이 아닌 연속적 임베딩(Continuous Embeddings)이어야 합니다. 대부분의 기계 학습(Machine Learning)이 훈련되는 방식인 그래디언트(Gradient)로 최적화하기 쉽기 때문이구요.
아키텍처(Architecture) → 오토리그레시브 생성 모델(Autoregressive Generative Models)은 오류를 누적하고 불확실성(Uncertainty)을 처리할 수 없기 때문에, 궁극적으로는 실패할 - 또는 왕좌의 자리를 내놓아야 할 - 운명이라고 봅니다.
목표(Objective) → 확률적 인코더-디코더(Probabilistic Encoder–Decoder) 기반의 데이터 재구성(Data-reconstruction) 목표는 효과가 없습니다. 대신, 잠재 공간(Latent Space)에서 직접 예측하고 잠재 재구성 손실(Latent Reconstruction Loss)을 사용해야 합니다.
사용(Usage) → 월드 모델은 강화 학습이 아닌 MPC(Model Predictive Control)와 함께 사용해야 합니다. 왜냐하면, MPC는 훈련 시도가 적게 필요해서 샘플 효율적(Sample-efficient)이고 안전하기 때문입니다.
다시 말씀드리지만, 위의 포인트들은 논란의 여지가 많고 절대적인 진리가 아닙니다. 비판의 여지가 있어요. PAN 월드 모델(PAN World Model)을 만든 연구자들도 바로 이런 논란을 파고들면서, 월드 모델을 위한 새로운 구축의 방향을 제시했습니다:
데이터(Data) → 원시 감각 데이터(Raw Sensory Data)는 양이 많지만 반복적이고 의미가 낮은 경우가 많습니다. 반면, 텍스트는 정의, 후회, 사회적 규범 같은 추상적 개념(Abstract Concepts)을 나타내는 압축된 인간 지식(Human Knowledge) 형태로, 센서로는 직접 관찰할 수 없습니다. 진정한 월드 모델은 텍스트, 이미지, 오디오 등 모든 모달리티(Modality)를 사용해야 하고, 각 모달리티는 고유한 인사이트(Insights)를 제공합니다.
표현(Representation) → 연속 데이터(Continuous Data)는 유연하지만 노이즈(Noise)가 많고 불안정합니다. 인간은 원시 연속 신호(Raw Continuous Signals)로만 생각하지 않고, 단어와 상징 같은 이산 개념(Discrete Concepts)으로도 많은 개념을 분류합니다. 이산 토큰(Discrete Tokens)은 일반적으로 세부적인 사항을 읽어버릴 수 있다는 문제가 있지만, 표현의 용량(Representation Capacity)을 확장하면 이런 문제를 해결할 수도 있습니다:
어휘 크기를 늘리기(스케일 업, Scaling Up)
더 긴 토큰 시퀀스를 처리할 수 있게 하기(스케일 아웃, Scaling Out)
스케일 업은 복잡도가 증가함에 따라서 어휘 크기를 기하급수적으로 늘리지만, 스케일 아웃은 시퀀스 길이를 로그적으로 늘리기 때문에 훨씬 효율적입니다. 따라서 충분한 시퀀스 길이(Sequence Length)가 있다면 이산 토큰은 복잡성을 잘 표현할 수 있고, 아주 미세한 연속적 차이도 근사(Approximation)할 수 있습니다.

Image Credit: Critiques of World Models 오리지널 논문
그렇지만 사실 가장 유망한 방향은, 이 다양한 패턴을 결합한 하이브리드 접근법(Hybrid Approach)입니다. 여기서:
연속 임베딩(Continuous Embeddings)은 세밀한 감각 뉘앙스(Fine-grained Sensory Nuance)를 포착합니다.
이산 토큰(Discrete Tokens)은 개념, 논리, 기억을 표현합니다.
아키텍처(Architecture) → 오토리그레시브 모델(Autoregressive Models)은 실제로 나쁘지만은 않습니다. 예를 들어서, JEPA마저도 실질적으로는 오토리그레시브 모델이잖아요? 미래 상태를 단계별로 재귀적으로 예측하니까요. 일반적으로 관찰 재구성(Observation Reconstruction) 스텝을 건너뛰게 되면, 예측이 불안정해질 위험이 있습니다. 연구자들은 계층적 추상화(Hierarchical Abstraction)와 생성적 잠재 예측(Generative Latent Prediction, GLP) 아키텍처가 더 나은 접근법일 거라고 제안합니다 - 바로 계층적/레이어드 디자인이죠:

Image Credit: JEPA vs. GLP, Critiques of World Models 오리지널 논문
저수준(Low-level): Next-embedding Predictors (디퓨전 모델)는 픽셀, 오디오, 신체 센서 같은 지각 데이터(Perceptual Data)에서 노이즈가 많고 세밀한 변화를 처리합니다. 이건 인코더-디코더 구조(Encoder–Decoder Structures)를 사용해서 예측이 실제 데이터(Real Data)에 기반을 두게끔 만들어 줍니다.
중간 수준(Mid-level): Next-token Predictors(오토리그레시브 트랜스포머)는 객체와 행동 같은 상징적 구조(Symbolic Structure)와 구성적 추론(Compositional Reasoning)을 포착하기 위해서 이산 토큰(Discrete Tokens)에서 작동합니다.
고수준(High-level): LLM 시스템은 장기 계획(Long-term Planning), 추상적 추론(Abstract Reasoning), 반사실적 사고(Counterfactuals)를 위해서 언어 토큰(Language Tokens)을 통해서 추론합니다.
목표(Objective) → 잠재 손실(Latent-only Loss)은 취약하기 때문에, 잠재 예측(Latent Predictions)은 실제 세계에 기반(Real-world Grounding)을 두어야 합니다. 이 실제 세계의 근거(Grounding)은 생성적 재구성(실제 다음 관측값을 예측하는 것)을 통해서 제공할 수 있구요.
사용(Usage) → MPC(Model Predictive Control)는 아주 유용하지만, 계산 비용이 크고(Computationally Expensive) 보통 몇 단계 앞만 “내다보기” 때문에 장기 추론(Long-term Reasoning)을 처리하는 능력에 제약이 있습니다. 반대로, 월드 모델을 사용한 강화 학습은 상상된 롤아웃(Imagined Rollouts)을 통해서 오프라인으로 에이전트 정책(Agent Policy)을 훈련시켜서, 런타임에서 빠르게 작동하는 재사용 가능한 의사결정 시스템(Decision-making System)을 만들 수 있습니다.

Image Credit: Critiques of World Models 오리지널 논문
전반적으로, 견고한 월드 모델은 다양한 모달리티(Modality), 표현(Representation), 훈련 방법(Training Method)의 강점을 결합해서 만들어야 합니다. 결국, 모두 하이브리드 접근법(Hybrid Approaches)에 관한 것이라고 할 수 있겠죠. 이런 출발점에서 카네기멜론 대학교, MBZUAI, UC 샌디에이고의 연구자들이 마침내 그들만의 새로운 아키텍처를 구축할 수 있었던 겁니다.
PAN 월드 모델은 어떻게 작동하나
우선, 월드 모델의 행동(Action)이 보여주는 복잡성과 광범위함을 뒷받침하기 위해서, PAN은 현실적이고 복잡한 시나리오인 등반 원정(Mountaineering Expedition)에서 영감을 받았습니다.
고수준 작업(High-level Tasks)에는 장비 선택, 경로 계획, 날씨 평가, 팀원과의 조율이 포함되겠죠. 저수준 작업(Low-level Tasks)에는 등반, 로프 사용, 자세 조정, 스트레스 상황에서의 운동 제어(Motor Control) 등이 있습니다. 멀티 모달 입력은 시각(눈, 절벽), 소리(팀원의 외침), 촉각 감각(바람, 추위), 신체 긴장(Body Strain)을 결합합니다.
아래 글미은 PAN 월드 모델이 계층적 인코더-월드 모델-디코더 파이프라인(Hierarchical Encoder–World Model–Decoder Pipeline)을 사용해서 단계적으로 작동하는 방식을 나타냅니다:

Image Credit: PAN-World 아키텍처, Critiques of World Models 오리지널 논문
PAN은 멀티 모달 입력(Multimodal Inputs, 𝑜)을 감각 인코더(Sensory Encoder, h)를 통해서 받아서 두 가지 경로로 나눕니다. 두 경로는 함께 신념 상태(Belief State)를 형성합니다:
이산 경로(Discrete Pathway): 토크나이저(Tokenizer)는 신호를 여러 추상화 수준에서 토큰(Tokens)으로 변환합니다. 토큰은 “내가 어디에 있지?”, “누가 나와 함께 있지?”, “내가 가진 도구는 무엇이지?” 같은 개념을 나타냅니다. 토큰은 다음과 같은 것들이 될 수 있습니다:
VQ-VAE를 통해서 학습된 이산 토큰(Learned Discrete Tokens), 또는
자연어 단어(Natural Language Words)
연속 경로(Continuous Pathway): 이 경우에, 저수준의 감각 세부 사항(Low-level Sensory Details)은 지각 뉘앙스(Perceptual Nuance)를 위해 연속 임베딩(Continuous Embeddings)으로 인코딩됩니다.
예를 들어 “카라비너를 채우다”와 같은 행동(Action)이 주어지면, PAN은 다음 세계 상태(Next World State)를 예측하는데, 학습된 스위치(Learned Switch)가 작업 요구사항에 따라 이 둘을 조합합니다:
자연어 토큰과 학습된 어휘를 사용한 상징적 추론(Symbolic Reasoning)을 위한 LLM 기반 백본(LLM-based Backbone).
저수준의 Embodied Reasoning을 위한 디퓨전 기반 예측기
마지막으로, 멀티 모달 디코더(Multimodal Decoder, g)는 다음 관찰(Next Observation)을 재구성해서 실제 데이터(Real Data)와 비교합니다. 디코더는 비디오뿐만 아니라 소리, 온도, 고유의 수용 감각(Proprioception), 심지어 텍스트까지 출력할 수 있게 해서, 예측이 완전한 감각 현실(Full Sensory Reality)에 기반을 두게끔 하는 것이 중요합니다.
PAN 시스템을 훈련시키기 위해서 연구자들은 아주 구체적인 전략을 따르게 됩니다:
각 모듈은 텍스트에 대한 LLM, 비디오에 대한 디퓨전 모델 등으로 개별적으로 사전 훈련(Pretrained)되며, 자기 지도 기법(Self-supervision)을 사용합니다.
이후 멀티 모달 데이터를 사용해서 임베딩을 연속적으로 연결(Cascading Embeddings)하고 그래디언트 전파(Gradient Propagation)를 통해서 통합합니다.
연속 모듈(Continuous Modules)은 그래디언트 최적화(Gradient Optimization)를 사용하고, 이산 모듈(Discrete Modules)은 강화 학습 같은 그래디언트 없는 방법을 사용할 수 있습니다.
특히, PAN은 모든 복잡한 활동에 대한 완전한 데이터셋이 필요하지 않고, 계층화된 데이터(Stratified Data)와 불완전한 소스(Incomplete Sources)에서 학습합니다: 내비게이션을 위한 책과 지도, 운동 기술(Motor Skills)을 위한 실내 등반 비디오, 사회적 추론(Social Reasoning)을 위한 언어 데이터, 체화된 기술(Embodied Skills)을 위한 시뮬레이션 데이터(Simulation Data) 등, 정말 다양한 자료를 활용합니다. 이 모든 기능을 결합해서, 결국 우리는 비디오 생성기(Video Generators)였던 것으로부터 미래를 시뮬레이션하는 내부 샌드박스(Internal Sandbox)로 전환하게 해 주는 시스템을 갖게 되는 겁니다.
PAN의 주요 장점
PAN 월드 모델의 장점은 이런 것들입니다:
첫째, PAN은 범용 월드 모델(General-purpose World Model)로서 돋보이는 모델입니다.
멀티 모달 데이터(Multimodal Data: 텍스트, 이미지, 오디오, 감각 신호), 하이브리드 표현(Hybrid Representations: 연속 + 이산), 계층적 생성 모델(Hierarchical Generative Models), 그리고 실제 관찰(Real Observations)에 기반한 목표(Objectives)를 적용한다는 데서 강점이 있습니다.
PAN은 발전된 에이전트로서의 행동(Advanced Agentic Behavior)을 보여줍니다. PAN-에이전트(PAN-Agent)는 가능한 세계 상태(World States)와 행동(Actions)을 미리 생성하고, 빠른 검색을 위해 캐싱(Cache)하고, 이를 신중한 계획(Deliberate Planning) 과정, 유연한 반응(Flexible Reaction)을 할 수 있도록 하는 데 활용할 수 있습니다.

Image Credit: Critiques of World Models 오리지널 논문
강화 학습과 MPC(Model Predictive Control)를 결합해서, PAN은 에이전트가 전략적으로 계획(Strategically Plan)하고, 반사실적으로 추론(Counterfactually Reason)하고, 선견지명과 적응력(Foresight and Adaptability)을 갖추고 행동할 수 있게 합니다.
PAN의 한계점
PAN 월드 모델(PAN World Model)은 아직 제안 단계일 뿐, 검증된 시스템이 아닙니다.
복잡한 계층과 아키텍처 때문에 엔지니어링 상의 난점, 높은 계산 비용(High Compute Costs), 그리고 훈련 과정의 불안정성(Training Instability)을 초래할 수 있습니다.
포괄적인 실제 세계 데이터(Real-world Data)를 수집한다는 것, 상당히 비현실적으로 보일 수도 있습니다.
강화 학습과 관련된 리스크가 있습니다. 에이전트(Agent)는 견고한 전략(Robust Strategies)을 학습하기보다는 시뮬레이션된 세계(Simulated World)의 결함을 악용할 수 있거든요.
하지만 PAN의 핵심 아이디어는 월드 모델을 더 효과적으로 구축하는 방향을 다시 한 번 고민하는 것이니만큼, 실제로 PAN의 아이디어를 따라서 뭘 할 수 있을지는 미래에 남겨진 몫이기도 합니다.
맺으며
PAN 월드 모델, 이 아이디어는 범용의 월드 모델을 만들고, 그걸 실제로 실행 가능하고 적응력있게 만들어보자는 하나의 시도이자 약속입니다. PAN 월드 모델의 설계 방향은, 개발자로서의 경험을 하는 과정에서도 적용을 고민해 볼 만한 다섯 가지의 원칙을 따르고 있습니다:
데이터의 모든 모달리티(Modality)를 사용하세요.
연속 및 이산 표현(Continuous and Discrete Representations)을 결합하세요.
확장된 LLM 백본(Extended LLM Backbone)과 생성적 임베딩 예측기(Generative Embedding Predictor)라는 두 가지 추론 엔진(Reasoning Engines)을 가진 계층적 생성 모델(Hierarchical Generative Model)을 구축하세요.
잠재 손실(Latent Loss)뿐만 아니라 관찰 데이터(Observation Data)에 기반한 생성 손실(Generative Loss)로 훈련하세요.
강화 학습을 통해 에이전트(Agent)를 훈련시키는 과정에서, 모델을 활용해서 ‘경험을 시뮬레이션(Simulate Experiences)’하세요.
이 다섯 가지 원칙은, 에이전트가 불확실성을 탐색하고, 사회적으로 조율하고, 다양한 타임라인에 걸쳐서 추론할 수 있는 ‘인간과 유사한 인지(Human-like Cognition)’를 하는 기계에 더 가까워질 수 있게 해 줄 겁니다.
월드 모델이 추론(Reasoning), 상상력(Imagination), 행동(Action)의 기반이 되어가면서, PAN과 같은 접근법은 경험에 기반한 설계(Grounding in Experience), 계층적 추상화(Layered Abstractions), 확장성(Scalability)을 통해서 현재 우리가 볼 수 있는 월드 모델보다 더 범용의 역량을 가질 수 있게 해 줄 수 있습니다.
또, PAN 프레임웍은 현재에도 중요하지만 미래에 다가올 몇 가지의 방향성을 강하게 시사하는 중요한 발전이기도 합니다:
단일 에이전트(Single-agent)로부터, 더 흥미롭고 포괄적인 멀티 에이전트 시뮬레이션(Multi-agent Simulations)으로의 확장
밀리초에서 천년 단위에 이르는 다양한 타임라인의 포괄
시각, 소리, 움직임을 더 잘 통합해서 모달리티 간의 해상도를 높이기 (Fidelity)
마지막으로, 에이전트가 ‘상상된 경험(Imagined Experiences)’에서 직접 학습하게끔 하기
PAN과 같은 시스템, 그리고 또 다른 월드 모델의 미래에 아주 큰 기대를 걸게 됩니다. 앞으로 더 다양한 접근법과 철학을 통해서, 연구자들이 진정 포괄적인 월드 모델을 만들어 낼 수 있기를 바랍니다.
보너스: 참고자료
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!


Reply