- Turing Post Korea
- Posts
- PAN은 무엇인가: 월드 모델의 새로운 판을 짜다
PAN은 무엇인가: 월드 모델의 새로운 판을 짜다
월드 모델의 한계를 돌파하는 새로운 아키텍처, PAN. 패러다임이 뒤집히는 순간이 온다
들어가며
이미 튜링포스트 코리아에서 몇 편의 에피소드를 통해서 ‘월드 모델’의 끝없는 세계를 탐구해 본 적이 있습니다. 먼저, 엔비디아의 Cosmos WFM(World Foundation Model) 플랫폼이라는, 피지컬 AI로의 전환을 지원하는 생태계를 살펴본 적이 있구요:
그리고, 현재 월드 모델이 어떤 모습인지, 어떻게 작동하면서 이 시뮬레이션된 세계를 AI 에이전트 서비스에 활용할 수 있을지 등에 대해서도 커버한 적이 있구요:
하지만, 아직 월드 모델에 대한 탐구는 아직도 시작 단계라고 봐야 할 겁니다. 엄청나게 많은 이야기가 앞으로 펼쳐지겠죠.
오늘 에피소드에서는, 이 월드 모델을 구축하는 방식을 근본적으로 재고하는 관점에 대해서 한 번 살펴보려고 합니다. 지금까지 우리가 월드 모델을 만드는 아키텍처를 바라본 관점 자체가 올바르지 않은 것일 수도 있을까요? 물론, 이제 막 시작하는 단계에 있는 분야라서, 어떤 관점이든 완전히 옳거나 완전히 잘못된 것은 없겠고, 오로지 끝없는 탐구와 실험이 계속되어야 할 분야이기는 하죠. 월드 모델이 뭐냐에 대한 정의조차 완전한 합의에 이르지는 못한 상태이니, 이걸 어떻게 구축하는게 맞느냐는 건 더 어려운 이야기이긴 합니다.
그래서, 카네기멜론 대학교, MBZUAI, UC 샌디에이고의 연구자들이 기존의 월드 모델링(World Modeling) 방향에 대해 비판적인 접근을 취한 것에 더 관심이 갔습니다.
영화 ‘듄(Dune)’이 보여주는 상상의 세계, 그리고 심리학에서의 ‘가설적 사고(Hypothetical Thinking)’ 개념에서 영감을 받았다고 하는데, 이 연구자들은 월드 모델의 주요 미션을 이렇게 정의하고 있습니다: ‘실세계의 모든 실행 가능한 가능성을 시뮬레이션(Simulation)해서, 목적이 있는 추론(Reasoning)과 행동(Acting)을 가능하게끔 해 주는 것’이라구요. 연구자들에 따르면, 이 새로운 아키텍처는 아래의 특징을 나타내야 한다고 합니다:
계층적, 다층적(Hierarchical and Multi-level)
연속적 및 이산적 표현이 혼합(Mixed Continuous and Discrete Representations)
생성형이면서 자기 지도형(Generative and Self-supervised)
이런 접근의 결과, 물리적(Physical), 에이전트 중심적(Agentic), 중첩된(Nested) ‘PAN(P, A, N을 딴 줄임말) 월드 모델 시스템’으로 이어지는데, 이 시스템이 AGI(Artificial General Intelligence)의 기반을 형성할 가능성이 있다고 합니다.
자, 그럼 이 연구자들이 펼친 비판적 관점을 따라서, 효과적인 월드 모델링(World Modeling)의 더 깊은 측면을 한 번 탐구해 보겠습니다.
오늘 에피소드에서는, 다음과 같은 내용을 다룹니다:
월드 모델이 대체 왜 필요한가?
월드 모델(World Model)이 뭔지, 그리고 왜 이런 도구가 정말로 필요한지, 간단히 이야기하면서 시작을 해 보죠. 월드 모델은 에이전트(Agent), 즉 스스로 목표를 달성하기 위해 행동하는 시스템을 생각할 때 등장합니다. 에이전트의 환경(Environment)은 그 주변의 모든 것을 포함하죠: 물리적인 세계, 사회적인 세계, 어쩌면 우주 자체까지도 에이전트의 환경이 될 수 있을 겁니다. 일반적으로 에이전트는 이렇게 작동하게 될 겁니다:
현재 세계의 상태(State)를 관찰합니다.
관찰한 내용을 바탕으로, 특정 전략이나 규칙에 따라서 행동(Action)을 선택합니다.
그러면, 환경이 다시 이 행동에 반응해서 새로운 상태(New State)를 생성합니다.
에이전트는 목표의 달성 정도를 측정하는 보상(Reward)을 받습니다. 목표는 ‘예상되는 총 보상(Total Reward)을 극대화하는 행동을 선택’하는 것이구요.
이론적으로, 최적의 에이전트라면 완벽한 결정을 내리기 위해서 세계의 진정한 상태(True State)에 접근해야 하지만, 실제로는 노이즈(Noise)와 불완전성(Incompleteness)이 포함된 불완전한 정보(Imperfect Information)만을 가질 수 밖에 없습니다. 이 때, 월드 모델이 에이전트에게 일종의 ‘상상력(Imagination)’을 제공함으로써 도움을 줄 수 있습니다.
즉, 월드 모델은 미래를 생성적으로 시뮬레이션(Generative Simulator)하는 역할을 하는 셈이고, 에이전트가 실제 세계에서 행동하기 전에 일종의 ‘사고 실험(Thought Experiment)’을 할 수 있게 해 줍니다. 월드 모델이 있으면, 에이전트가 진정한 상태를 알 필요가 없어져서 일이 더 쉬워지게 됩니다 - 진정상 상태를 찾아가는 끝없는 여정 대신에, 아래와 같은 과정을 거쳐서 에이전트가 활동하게 됩니다:

Image Credit: Critiques of World Models 오리지널 논문
에이전트(Agent)는 센서를 통해 관찰한 것(oₜ)을 기반으로 자체적인 신념 상태(Belief State, ŝₜ)를 구축합니다.
인코더(Encoder)는 이런 관찰 내용을 내부의 신념 상태로 처리합니다.
그 다음 에이전트가 가능한 행동(Action, a′ₜ)을 고려합니다.
월드 모델은 다음의 신념 상태(ŝₜ₊₁)가 어떻게 될지 결정적으로가 아니라 확률적으로(Probabilistically) 예측합니다 - 보통의 경우라면, 수많은 가능한 미래와 불확실성(Uncertainties)이 존재하기 때문입니다.
에이전트는 이 예측-행동 주기(Prediction–Action Cycle)를 미래의 여러 단계에 걸쳐 반복합니다.
이런 능력을 통해서, AI 에이전트는 “A라는 행동을 하면 어떤 일이 일어날까?”, “대신 B를 시도한다면?”, “아무것도 하지 않는다면?” 같은 식의 사고 실험(Thought Experiment)을 수행할 수 있고, 에이전트가 목표 달성 가능성이 가장 높은 행동을 선택할 수 있습니다.
범용 월드 모델(General-purpose World Model)은 아래와 같은 다양한 도메인을 포괄할 수 있습니다:
물리적 역학(Physical Dynamics): 물체의 움직임, 물이 흐르는 방식 등
체화된 경험(Embodied Experiences): 균형, 자세, 더위나 어지럼증 같은 느낌
감정 상태(Emotional States)
사회적 상황(Social Situations)
정신적 세계(Mental World): 멀티 에이전트 상황에서의 계획, 전략, 문제 해결 같은 추상적인 추론(Abstract Reasoning)
반사실적 사고(Counterfactuals): “What-if” 시나리오 탐구
진화적 역학(Evolutionary Dynamics): 유전, 적응과 같은 세대 간 변화
월드 모델의 강점은, 시뮬레이션 추론(Simulative Reasoning)을 가능하게 해 주는 겁니다. 다시 말해서, 다양한 상상된 미래를 시뮬레이션하고 비교해서 최적의 계획을 선택하는 것이죠. 또, 월드 모델을 통해서 AI가 한 환경에서 다른 환경으로 지식을 전이(Transfer)할 수 있는데, 이건 인간이 다양한 기술을 활용하는 방식(예: 가상 캐릭터 조종 기술이 드론 조종에 도움이 됨)과 유사하기도 하고, 이 과정을 통해서 명시적인 훈련을 하지 않고도 새로운 상황에서 “제로샷 일반화(Zero-shot Generalization)”를 해 내는 멋진 기계를 만들 수도 있습니다.
모든 월드 모델을 연결하는 대담한 아이디어는 이런 겁니다: 모델이 다음 단어를 예측할 수 있다면, 미래가 펼쳐질 수 있는 모든 가능한 방식을 예측하도록 만들 수 있다는 것입니다. 그렇다면, 여기서 핵심 질문은 “이걸 어떻게 하도록 할 건가”겠죠.
현재 월드 모델들이 가진 문제
현재 찾아볼 수 있는 월드 모델(World Model)을 살펴보면, 대부분 비디오와 이미지 생성에 강한 초점을 두고 있다는 점이 먼저 눈에 띕니다. 사실 그래서 진짜 추론 엔진(Reasoning Engine)이라기보다는 비디오 생성기(Video Generator)처럼 보이는 경우가 많구요. 그렇지만, 현재 우리가 다루는 다양한 월드 모델에서는 고려해야 할 점이 더 있습니다:
게임 월드 모델(Gaming World Models), 예를 들어 Genie 2(Google DeepMind)나 Muse(Microsoft)는 1-2분 정도의 짧은 비주얼 시뮬레이션(Visual Simulation)에 적합하지만, 장기적인 일관성(Long-term Coherence)을 유지하는 데 어려움이 있고, 콘솔 스타일 입력이나 마인크래프트 같은 세계와 같이 도메인에 특화(Domain-specific)된 경우에만 효과적입니다.
World Labs에서 구축한 3D 장면 월드 모델(3D Scene World Models)은, 양식화된 3D 환경(Stylized 3D Environments)과 내비게이션에 초점을 맞춰서 ‘공간적인 사실성’을 추구하지만, 에이전트의 추론(Agent Reasoning)이나 인과적인 시뮬레이션(Causal Simulation)을 지원하지 않고, 역학(Dynamics), 물리, 풍부한 상호작용성(Rich Interactivity)이 부족합니다.
NVIDIA Cosmos나 Wayve GAIA-2 같은 물리적 월드 모델(Physical World Models)은 ‘Embodied Physical Tasks’ 용으로 설계되어서 물리학과 감각-운동 반응(Sensory-motor Responses)을 모델링하는 데 특화되어 있습니다. 하지만 개방형(Open-ended), 다중 에이전트(Multi-agent), 또는 사회적 추론(Social Reasoning) 같은 작업에까지 일반화하지는 못하고, 비교적 좁은 영역에서만 그 능력이 발휘된다는 단점이 있습니다.
OpenAI Sora, Google DeepMind Veo 같은 비디오 생성 모델은 프롬프트나 이전 프레임(Prior Frames)에서 고품질 비디오 시퀀스를 생성하지만, 고정된 비디오 궤적(Fixed Video Trajectories)만 생성하고, 명시적인 상태(State), 행동(Action), 또는 객체 수준의 이해(Object-level Understanding)는 없다고 봐야 합니다.
마지막으로, V-JEPA, DINO-WM 등 JEPA 계열의 Joint Embedding Predictive Model은, 예를 들어서 실제 로봇 팔 조작(Robotic Arm Manipulation)을 수행할 수 있는 가장 유망한 방향이기는 하지만, 복잡하고 장기적인 작업(Long-term Tasks)을 처리하기에는 아직 부족합니다.
결국, 우리가 월드 모델에서 원하는 모든 것을 제공하는 완벽한 아키텍처는 사실 아직 없다고 봐야 할 것 같습니다. 그렇다면, 이제 한 번 월드 모델에 대한 새로운 접근 방식을 생각해 볼 때는 아닐까요?

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!
튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!
주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply