• Turing Post Korea
  • Posts
  • 월드 모델, 어떻게 발전하고 있나?

월드 모델, 어떻게 발전하고 있나?

CWM, PSI, 그리고 그 너머 – AI가 세상을 ‘파악하는’ 방식이 새로워지고 있다

들어가며

저희 튜링포스트 코리아에서도 몇 차례 다뤘던 ‘월드 모델(World Model)’.

간단히 이야기하자면, 월드 모델은 ‘우리가 살아가는 3D의 현실이 어떻게 작동하고 움직이는지를 포착하게끔 - 또는, 포착하기를 바라면서 - 설계한, 그런 생성형 AI 시스템’이라고 할 수 있겠습니다. 다양한 데이터를 사용해서 물리적인 원리, 공간적인 관계, 그리고 인과 관계를 학습해서, 다음에 일어날 일을 예측하고, 내부 시뮬레이션을 실행하고, 끊임없이 실제 테스트를 하지 않고도 적절한 의사결정을 내릴 수 있 - 기를 바라는 거 - 겠죠.

전체 AI 판의 관점에서 보면, 월드 모델은 아직 그 비중이 엄청나게 크다고는 할 수 없지만, 잠재력만큼은 무궁무진합니다. 이 분야에서 나와는 새로운 발견과 혁신 하나하나가, AI 모델이 물리적인 세계 그 자체, 그리고 그 안에서 일어나는 행동의 논리를 어떻게 모델링하는지에 대한 인사이트를 우리에게 줍니다.

저희가 여러분께 이전에 공유드렸던 월드 모델 글에서는, 월드 모델이란 게 뭐고 중요한 사례들은 어떤 것들이 있는지 같은 기본적인 내용, 그리고 또 다른 글에서는 PAN 시스템 - Physical, Agentic, Nested System - 으로 월드 모델을 구축하는 일종의 대안적 관점을 설명드리기도 했습니다:

오늘은, 아래의 두 가지를 중심으로 이야기를 해 볼까 합니다:

  1. 메타에서 내놓은, 획기적인 ‘CWM(Code World Model, 코드 월드 모델)이 과연 ‘월드 모델’을 코드의 세계와 어떻게 연결하는지, 그리고 GRPO를 어떻게 변경해서 새로운 강화 학습(Reinforcement Learning) 전략을 도입했는지.

  2. 스탠퍼드 신경AI 연구소(Stanford NeuroAI Lab)의 PSI(Probabilistic Structure Integration, 확률적 구조 통합), ‘구조 자체가 새로운 어휘가 되는’, 프롬프트로 조작 가능한 확률적 월드 모델은 무엇인지.

그리고 Dreamer 4, Genie 3, Cosmos WFM 2.5의 업데이트에 대해서도 간단히 다룰 예정입니다.

오늘 에피소드에서는 다음과 같은 내용을 다룹니다:

CWM(코드 월드 모델)

GRPO가 제대로 작동하는 기법이냐에 대해서 전 세계적으로 있었던 논쟁에 한 몫을 했던 모델, CWM부터 시작해 보죠.

단, 그 전에, 먼저 메타의 이 새로운 CWM 뒷편에 숨어있는 아이디어, 그리고 코드와의 연관성은 뭘까요?

메타 FAIR의 CodeGen 팀은 월드 모델의 개념을 전통적으로 월드 모델을 이야기할 때 보통 등장하지 않았던 영역, 즉 ‘코드’ 영역으로 확장했습니다. 거대 언어모델과 코드는 오랫동안 자연스럽게 함께 언급되어 온 단짝이었지만, 이 관계에서 대부분의 경우 모델은 코드를 단순한 텍스트로 취급합니다 - 즉, 코드를 생성, 수정하고 설명하는데서 그칠 뿐, 코드가 실행될 때 어떤 일이 일어나는지, 시스템의 상태를 어떻게 변화시키는지는 이해하지 못하죠. 이런 갭이, 바로 모델이 진짜 제대로 작동하는, 신뢰할 수 있는 고품질 코드를 생성할 수 있는 기회를 제한한다고 생각합니다.

여기서 등장하는, 메타의 최신 CWM은 코드라는 것의 실용적이면서도 실행 가능한 측면을 ‘모델의 추론 과정’과 겹쳐서, 이 갭을 메우고자 하는 시도입니다.

CWM은 320억 개 파라미터 규모의 모델인데, 정적인 코드 뿐 아니라 코드가 실행될 때의 동작을 포착한 데이터로 훈련했습니다. 이 결과로, CWM은 각각의 코드 라인이 변수에 어떤 영향을 미치는지, 그리고 뭔가 변경했을 때 전체 프로그램에 어떤 영향을 끼치는지 추적할 수 있게 되고, 디버깅, 테스트, 프로그램 자체에 대한 추론 능력을 한 단계 업그레이드할 수 있었던 겁니다.

그렇다면, 기술적으로는 어떻게 구성돼 있을까요?

CWM 아키텍처와 트레이닝

앞서 언급했듯이, CWM은 320억 개 파라미터를 가진 디코더 전용 트랜스포머로, 64개의 레이어, 48개의 어텐션 헤드로 구성되어 있습니다. 이 모델은 로컬 및 글로벌 슬라이딩 윈도우 어텐션(Sliding Window Attention, SWA)을 교차로 사용하는 패턴을 채택하고 있는데요:

  • 로컬 SWA(8k 토큰)는 단거리 종속성(Short-range Dependencies)을 처리합니다.

  • 글로벌 SWA(131k 토큰)는 대규모 코드베이스나 추론 체인에서 장거리 컨텍스트(Long-range Context)를 포착합니다.

이 패턴이 모델 전체에서 15번 반복되면서, CWM이 131k 토큰의 컨텍스트 윈도우를 가질 수 있게끔 해 줍니다.

Image Credit: CWM 오리지널 논문

또, 더 효율성을 높이기 위해서, CWM은 GQA(Grouped Query Attention)을 구현해서 어텐션 속도를 높이고, SwiGLU 활성화 함수를 사용해서 복잡한 패턴을 학습하고, RMSNorm 정규화로 안정성과 훈련 속도를 개선하고, 스케일드 RoPE 위치 인코딩(Scaled RoPE Positional Encoding)을 적용해서 아주 긴 시퀀스에서도 토큰 순서를 이해할 수 있도록 합니다.

라마 3 토크나이저에 특별한 추론과 트레이스 형식을 위한 추가의 예비 토큰이 포함되어 있고, 양자화를 해서 단일 80GB NVIDIA H100 GPU에서도 추론을 실행할 수 있습니다.

그럼, 이제 이 특별한 추론과 트레이스 형식이 어떤 것인지 살펴보겠습니다.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

  • 주간 AI 뉴스레터

  • AI 유니콘 기업들에 대한 심층 분석 기사

  • AI 기술, 산업, 정책 전문가 인터뷰

  • AI 기술 및 산업에 대한 심층 분석 시리즈

  • 분석 기사 요청 및 튜링 포스트 코리아 기고

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.