Spencer Huang, 여러분들께 널리 알려진 이름은 아니지만, 바로 엔비디아의 CEO 젠슨 황의 아들입니다.

현재 엔비디아에서 로보틱스 소프트웨어 제품을 총괄하는 리더로 일하고 있는데요. 로봇이 실제 현실세계에서 안전하고 빠르게 움직일 수 있게 도와주는 시뮬레이션·물리엔진·AI 학습 플랫폼(Isaac Lab, Omniverse 등)의 전략과 제품 개발을 이끌고 있습니다.

Spencer는 단순한 ‘2세’가 아닌 엔지니어이자 제품 리더로서 커리어를 쌓아왔습니다. MIT에서 컴퓨터공학을 전공하고, 실리콘밸리의 여러 스타트업과 테크 기업에서 소프트웨어와 제품 개발 경험을 쌓은 뒤에 엔비디아에 합류했습니다. 지금은 ‘로봇이 세상을 이해하고 행동하는 법을 배우게 하는 시뮬레이션 생태계’를 구축하는 데 집중하고 있다고 하고, 로봇 공학과 AI의 접점에서 ‘Physical AI’ 시대를 여는 핵심 인물 중의 한 명으로 주목받고 있기도 합니다.

편집자 주

로봇이 실제 세계에 등장하고 확산된다고 할 때, 가장 중요한 요소가 뭘까요? 각자 다른 생각이 있을 수 있지만, 아마도 로봇 작동 시의 ‘속도’, 그리고 ‘안전성’이 공통적으로 떠오르지 않을까 싶습니다. 이 ‘속도’와 ‘안전성’을 담보하는데 필수불가결한 요소가 바로 ‘시뮬레이션’입니다.

오늘의 인터뷰는, 엔비디아의 로보틱스 소프트웨어 제품 리드인 Spencer Huang — 젠슨 황의 아들이기도 한 — 의 첫 공식 인터뷰(!!)입니다.

Spencer는 오늘 인터뷰를 통해서 ‘모든 자료와 정보에 접근할 수 있는’ 수평적인 엔비디아의 조직 문화 속에서 자신이 맡고 있는 역할, 그리고 엔비디아가 어떻게 로보틱스와 시뮬레이션을 중심으로 산업용 AI 생태계를 만들어가고 있는지에 대해 이야기합니다.

더불어, 이 인터뷰에서 오픈소스가 엔비디아의 로보틱스 생태계를 어떻게 형성하는지, 로봇은 어떤 과정을 통해서 시뮬레이션을 통해서 물리학을 학습하는지, 그리고 신경 시뮬레이터와 월드 모델이 기존 물리 시뮬레이터와 함께 진화하게 될 이유에 대해서 이야기를 나눕니다.

인터뷰를 진행한 Ksenia가 Spencer와의 대화가 아주 즐거웠다고 하는데요. 엔비디아의 로보틱스 전략, 그리고 미래 계획을 살짝 들여다볼 수 있는 인터뷰이니 재미있게 읽어주세요.

오늘 인터뷰에서 다루는 토픽들은 다음과 같습니다:

  • 엔비디아의 큰 그림

  • ‘로보틱스’의 세 가지 컴퓨터 시스템 – 학습, 시뮬레이션, 그리고 배포

  • Isaac Lab과 Arena, 그리고 정책 평가를 대규모로 스케일링하는 법

  • 물리 엔진과 OpenUSD – 분절되어 있는 툴체인을 하나로 묶는 표준의 힘

  • 신경 시뮬레이터 vs. 전통적 시뮬레이터 – 경쟁이 아닌, 데이터의 플라이휠

  • ‘안전’을 설계의 일부로 담는다 – 우아한 실패(Graceful Failure)와 기능적 안전성

  • 매니퓰레이션(Manipulation)을 위한 합성 데이터 – 부드러운 물체, 접촉력, 분포적 사실성(Distributional Realism)

  • 가장 큰 병목은 ‘로보틱스 데이터’ – 오픈소스가 어떻게 베이스라인을 끌어올려주는가

  • 엔비디아의 ‘Mission is Boss’ 문화 – 연구와 로보틱스의 교차점

전체 대담 내용을 확인하고 싶으시면 아래 유튜브 영상을 참고하시고, 그럼 시작합니다!

Q. 안녕하세요 Spencer, 인터뷰에 응해 주셔서 감사합니다. 바로 질문을 드릴께요. 엔비디아는 로보틱스, 시뮬레이션, 그리고 옴니버스를 산업용 AI 전략의 중심에 두고 있는 것으로 보이는데요. 옴니버스(Omniverse)와 OVX가 디지털 트윈 기반의 AI 팩토리를 구동하고, Isaac Lab은 시뮬레이션 속에서 로봇을 훈련시키고 있는 거죠. 이 생태계는 앞으로 어떻게 진화할까요? 그리고 시뮬레이션은 그 안에서 어떤 역할을 하나요?

불러주셔서 감사합니다. 오늘 어떤 이야기를 하게 될지 기대가 크네요.

우선 한 걸음 뒤로 물러서서, 엔비디아가 로보틱스와 ‘피지컬 AI(Physical AI)’ 측면에서 어떻게 큰 그림을 보고 있는지 설명드릴께요.

Image Credit: 엔비디아

아마 ‘세 가지의 컴퓨터 시스템(Three-Computer System)’에 대해서는 들어보셨을 거라고 생각합니다. 로보틱스에서는 이 세 가지 모두를 활용해야만 진정한 의미의 발전을 할 수 있습니다. 특히, 로봇을 산업 재활성화(Reindustrialization)와 리쇼어링(Reshoring) 등을 위한 실질적인 도구로 만들기 위해서는요.

첫 번째는 DGX, 즉 로봇의 ‘두뇌’를 학습시키는 컴퓨터입니다. 여기서 로봇의 인지(Perception) 모델과 제어 정책(Control Policy) — 즉, 로봇의 배치(Deployment)에 필요한 모든 AI 에이전트들을 훈련합니다. 로봇은 단순히 ‘요소 기술(Skill)’만의 문제가 아닙니다. 인지, 안전, 내비게이션 등 전체적인 스택이 함께 움직여야 하니까요.

두 번째는 OVX, 즉 옴니버스용 시뮬레이션 컴퓨터입니다. 로봇을 개발하고 훈련시킬 뿐 아니라, 실제 배치를 하기 전에 가상의 환경에서 테스트할 수 있는 방법이 필요합니다. 이건 안전을 위해서이기도 하고, 스케일링을 위해서도 중요합니다. 인간은 평생을 걸쳐 한 번에 하나의 경험만을 하고 배울 수 있지만, 로봇 학습을 시키겠다고 20년을 기다릴 순 없잖아요? 시뮬레이션은 이 학습 속도를 ‘실시간보다 빠르게’ 끌어올릴 수 있게 해줍니다.

그리고 이렇게 훈련된 기술들을 실제 스택과 동일한 환경에서 시뮬레이션으로 검증합니다. 이 단계에서는 꼭 빠른 속도가 중요하다기보다는, 오히려 현실과 최대한 흡사한 높은 정확도(High Fidelity)가 중요합니다. 그래야 현실 상황에 배치했을 때 예상대로 동작할 수 있으니까요.

세 번째는 실제 세상에 나가는 Jetson이나 IGX 플랫폼, 즉 물리적인 로봇 안에 탑재되는 컴퓨터입니다. 여기에는 로봇의 두뇌, 인지 스택, 그리고 모든 하위 시스템이 탑재됩니다. 우리가 자율주행차처럼 ‘기능적 안전성(Functional Safety)’을 확보하려면, 시스템의 일부가 고장나도 안전하게 동작을 지속할 수 있어야 합니다.

자동차는 ‘세상과 부딪히지 않기 위해’ 존재한다고 하면, 로봇은 ‘세상과 올바르게 부딪히기 위해’ 존재한다고 표현할 수 있을 것 같습니다. 로봇이 요리나 청소, 돌봄 같은 일을 하게 될 미래에는 반드시 안전해야 합니다. 그래서 시뮬레이션은 단지 데이터 생성이나 학습, 테스트를 위한 도구가 아니라, 실제 배치 전 마지막 검증 단계로 사용되어야 합니다.

Q. 지금 말씀하신 그림은, 아직까지는 아주 초기 단계가 아닌가 하는데요. 이 모든 것들이 잘 맞물려서 하나로 돌아가려면 언제쯤이 되어야 할까요?

네, 말씀대로 이것들의 일부는 아주 초기 단계라는 걸 인정하지만, 전체적으로는 생각보다 훨씬 빠르게 진전되고 있습니다. 다행히도, 우리는 지난 몇 년간 자율주행차 스타트업들이 해온 작업과 개발된 기술들을 기반으로 해서 거기서부터 출발할 수 있는 상황이죠. 자율주행차 스타트업들은 이미 데이터를 수집하고 검증하는 법, 합성 데이터를 생성하는 법, 그리고 그 품질을 측정하는 방법을 다듬어 왔습니다. 이 경험을 그대로 로보틱스에 옮겨서 활용할 수 있습니다.

하지만 문제는, 자동차가 필요로 하는 것은 ‘시각적인 현실감(Visual Realism)’이면 충분하지만, 로봇에게 필요한 건 그보다 훨씬 더 크고 복잡한 ‘물리적 현실감(Physical Realism)’이라는 것이죠.

예를 들어서, 꽃이 담긴 화병이 있다고 해봅시다. 로봇의 인지 스택은 그걸 ‘화병’이라고 인식할 수 있습니다. 하지만 그것을 ‘만지려는 순간’, 시뮬레이션은 그 물체의 무게, 재질, 마찰 등 물리적 특성을 알아야 합니다. 자동차는 이런 것들을 전혀 필요로 하지 않았다는 것이죠.

이제 우리는 그런 물리적 속성들을 시뮬레이션 안에 구축하고 있습니다. 매니퓰레이션을 하려면 물리학이 필수적이기 때문이죠. 그리고 단순히 ‘현실과 똑같이 만드는 것’만이 목표가 아닙니다. 현실 세계의 ‘분포(Distribution)’를 포착하는 것이 더 중요합니다.

예를 들어서, 화병 속의 물이 절반만 차 있을 수도 있고, 3분의 1만 차 있을 수도 있습니다. 강화학습(Reinforcement Learning)은 이런 변동성(Variability)에 의존해서 학습을 하게 되죠.

이게 바로 Isaac Lab이 하고 있는 일입니다. 강화학습과 도메인 랜덤화(Domain Randomization)를 활용해서, 로봇이 수많은 가상 세계에서 시행착오를 거치며 배우도록 하는 것입니다. 예를 들어서, 로봇은 나무 바닥, 카펫, 얼음, 모래, 눈 등 서로 다른 환경에서 걷는 법을 학습합니다 — 이 모든 환경이 무작위로 설정됩니다. 그래서 현실에서 처음으로 눈 위를 걷게 되더라도, 로봇은 그저 “우주 N+1번”을 맞이하는 것일 뿐이죠.

이게 바로 강건성(Robustness)의 의미입니다: 단순히 영리한 로봇이 아니라 탄력적이고 쉽게 문제를 일으키지 않는 로봇을 만드는 것이 지금 우리가 목표하고 있는 과제입니다.

Q. 잘 이해했습니다. 이번 NVIDIA GTC 2025 행사에서 CEO 젠슨 황이 키노트에서 “로봇은 물리학을 이해한다”고 말했는데요. 당신도 정말 그렇게 생각하시나요?

저도 그렇게 생각합니다.

아까 말씀드렸듯이, 강화학습에서 우리는 도메인과 특성들을 무작위로 변형시키며 학습시킵니다. 그 중 하나가 바로 ‘물리적 특성(Physics)’입니다.

지금 당신이 서 있는 곳이 카펫 위라고 해볼게요. 마찰이 충분해서 미끄러질 일이 거의 없겠죠. 하지만 얼음 위라면 전혀 다릅니다. 그래서 로봇이 학습하는 시뮬레이션 안에서 지면의 마찰력 같은 요소들을 무작위로 변화시켜주면, 로봇은 서로 다른 환경에서 적응하는 법을 배웁니다. 미끄럽거나, 그렇지 않거나 — 결국 다 기초 물리학으로 귀결됩니다.

그래서, 그런 의미에서 로봇은 물리학을 이해한다고 할 수 있는 것이죠.

하지만, 젠슨 황이 말한 진짜 의미는 좀 더 깊은 이해를 해야 합니다. 우리가 ‘매니퓰레이션’의 영역으로 들어갈 때, 즉 로봇이 완전한 자율성과 범용성을 가지게 될 때, 로봇은 단순히 물체의 물리학을 이해하는 게 아니라, 그걸 넘어서 ‘그 물리학이 만들어내는 결과(Consequence)’를 이해해야 합니다.

사과를 던지면 떨어지고, 테이블 가장자리의 물건을 밀면 떨어지죠. 이건 로봇이 스스로의 경험을 통해 배워야 하는 법칙들입니다.

걷는 법을 배우는 것처럼, 모든 태스크마다 각기 다른 물리적 직관이 필요합니다.

인간, 특히 아기들은 세상을 배울 때 끊임없이 물리 실험을 합니다. 물건을 떨어뜨리고, 던지고, 무거운 것과 가벼운 것을 구분하죠. 그 과정을 통해 중력, 힘, 운동에 대한 ‘직관’을 만들어갑니다. 로봇도 마찬가지입니다. 오직 경험과 피드백을 통해서만 배울 수 있습니다.

이건 단순히 계산의 문제가 아니라 의미적 이해(Semantic Understanding)의 문제이기도 합니다. 인간에게는 직관적인 것이지만, 기계에게는 훨씬 더 어려운 일입니다.

Q. 흥미롭네요. 그런데 아직까지 물리학은 여전히 ‘비어있는 조각(Missing Piece)’처럼 느껴지는 게 솔직한 심정이예요. 월드 모델(World Model) 연구는 이제 막 시작되었고, 여전히 많은 실험이 진행 중이잖아요. 그런데 “로봇이 물리학을 이해한다”고 말씀하셨죠. 그렇다면 지금 우리의 발전을 가로막고 있는 병목(Bottleneck)은 어디에 있는 건가요?

좋은 포인트예요. 방금 말씀하신 ‘월드 모델’이라는 개념이 바로 핵심입니다.

제가 말한 강화학습은 보통 물리 기반의 전통적인 시뮬레이터(Physically Grounded Simulator)를 의미합니다. 예를 들어, Isaac Sim 같은 것이죠.

하지만 다른 한편에는 뉴럴 시뮬레이터(Neural Simulator), 즉 월드 모델이 있습니다. 그리고 지금 많은 연구자들이 바로 그 방향으로 관심을 가지고 연구하고 있습니다.

월드 모델의 강점은 다양한 환경을 아주 빠르게 생성할 수 있다는 것인데, 다만 그 물리적 완성도는 아직 완벽하지가 않은 거죠.

예를 들어서, 내가 ‘부드러운 물체(Soft Object)’, 즉 천이나 물풍선 같은 물체를 정확하게 시뮬레이션하려고 한다고 해보죠. 부드러운 물체의 역학(Soft-body Dynamics)을 현실적으로 구현하는 건 기존 시뮬레이터에서도 아주 어렵습니다. 그래서 이런 경우에, 월드 모델이 그 복잡한 물리 계산을 대신 근사치로 표현(Approximate)하도록 하는 거예요.

문제는, 이런 뉴럴 시뮬레이터가 아직 충분한 ‘물리 기반 데이터’로 훈련되지 않았다는 점입니다. 그래서, 물리적으로 일관성이 깨지거나(Hallucinate), 실제 물체의 거동과 다르게 반응하기도 합니다.
그런 상황이라서, 지금은 일부 영역에서는 잘 작동하지만, 다른 영역에서는 여전히 불안정하죠.

결국 중요한 질문은 이겁니다: “전통적인 시뮬레이터와 월드 모델을 어떻게 결합해서, 하나의 데이터 플라이휠(Data Flywheel)로 만들 것인가?” 하는 질문이요.

현실 세계의 로봇이 수집한 대량의 물리 데이터(Real Contact, Force, Motion)를 월드 모델 학습에 사용하고, 반대로 Isaac Sim이나 Omniverse에서 생성한 합성 물리 데이터(Synthetic Physics Data)를 뉴럴 시뮬레이터의 학습에 피드백할 수 있습니다.

이렇게 되면 두 시스템이 서로의 부족한 부분을 보완하며 진화하게 됩니다. 결국 월드 모델은 단순히 이미지나 장면을 생성하는 데 그치지 않고, 행동(Action), 접촉력(Contact force), 물리 신호(Physical Signal) 같은 것까지 예측할 수 있게 되어야 합니다. 그때가 되면 두 시스템은 진정으로 서로를 보완하는 관계가 되겠죠.

로보틱스 연구자들은 사실 ‘디지털 아티스트’가 아닙니다. 그 분들은 모델링보다 로봇의 학습에 더 집중하길 원하죠. 하지만 지금은 3D 자산(Asset)이 제한적이라서, 연구자들이 직접 오브젝트를 일일이 모델링해야 하는 경우가 많습니다. 그래서 우리의 여러 연구팀은 뉴럴 리컨스트럭션(Neural Reconstruction), 즉 실제 사물을 스캔해서 시뮬레이션에 자동으로 불러오고, AI 에이전트가 그 물체의 물리 속성(질량, 관절, 마찰 등)을 자동으로 부여해서 로봇이 잡거나 움직일 수 있게 하는 방법을 연구하고 있습니다.

반면에, 최근 딥마인드 같은 곳에서 발표한 디퓨전 기반 월드 모델(Diffusion-based World Model)들은, 단 한 장의 RGB 프레임에서 시작해서 텍스트나 액션 조건을 받아서 시간의 흐름에 따라서 일관된 3D 세계를 생성할 수 있습니다. 그리고 이게 바로 우리가 말하는 뉴럴 시뮬레이터죠. 이 기법은, 데이터 생성(Data Generation), 증강(Augmentation), 정책 평가(Policy Evaluation) 같은 작업들을 하는, 완전히 새로운 방식을 열어줍니다. 그리고 언젠가는 이런 뉴럴 월드 안에서 실제 사후훈련(Post-Training)까지 가능해질지도 모르죠.

중요한 건, 이 두 가지 시뮬레이터가 나란히 성장해야 한다는 점입니다. 전통적 시뮬레이터와 뉴럴 시뮬레이터는 형제처럼 나란히 자라면서 서로 배우는 관계가 되어야 합니다.

Q. 아, 정말 훌륭한 설명을 해 주셨어요. 그런데 궁금한 게 하나 있습니다. 당신의 원래 전공이 로보틱스가 아니시잖아요. 어떻게 이 분야로 오시게 된 건가요? 그리고 지금 역할은 구체적으로 어떤 일을 맡고 있나요?

지금 저는 엔비디아의 로보틱스 소프트웨어 제품군 전체를 총괄하고 있습니다. 여기에는 Isaac 제품군, 로봇 오케스트레이션을 위한 GROOT, 워크로드 스케줄링과 이기종 컴퓨팅 리소스를 확장하는 OSMO, 그리고 최근에는 Cosmos 팀과의 협업 — 즉 뉴럴 시뮬레이터 탐구까지 포함됩니다.

제 배경은, 사실 전통적인 로보틱스와는 거리가 멀어요 - 저는 ‘학교 밖에서 얼마나 많이 배울 수 있는지’ 보여주는 사례에 가깝다고 생각합니다. 기술적인 환경에서 자라기는 했죠, 그래서 어릴 때부터 서버, 네트워크, 분산 컴퓨팅 같은 걸 직접 구축하는 걸 좋아했어요. 소프트웨어 개발도 늘 즐겼고, 로봇 팀 근처에서 활동했기 때문에 완전히 낯선 분야는 아니었죠.

20대에는 전혀 다른 걸 해보고 싶어서 타이베이에서 바를 운영하기도 했고, 일본에서 웨딩 사진작가로 활동하기도 했습니다. 하지만 어느 순간에 나 자신을 돌아보니 바 운영보다 코딩에 훨씬 더 많은 시간을 쓰고 있더라고요. 그래서 기술로 다시 돌아왔죠. 그때부터는 클라우드 시스템과 로보틱 시뮬레이션의 클라우드 분산 처리를 깊게 파고들었어요. 이건 제 흥미와 경험이 정확히 교차하는 지점이었던 거죠. 그래서, 아마 제 LinkedIn만 보면 제가 해 온 일들의 이력이 다소 엉뚱해 보일 수도 있지만, 제 주변 사람들은 “그럴 줄 알았지” 했을 겁니다.

Q. 요즘도 직접 코딩을 하시나요?

예전만큼은 아닙니다. 지금 제 주요 역할은 ‘박사 학위가 없어도 쓸 수 있는 로보틱스 플랫폼’을 만드는 것이거든요. 그리고 안타깝게도, 저도 박사는 아니거든요. 수학 쪽은 이제 제 한계를 훌쩍 넘어섰죠 ^.^

Q. 그게 부족하다고 느끼시진 않나요?

전혀요. 박사과정의 대부분은 알고리즘 설계나 정책 최적화 등 구현 중심의 영역이에요. 그건 지금 제 역할과는 조금 다릅니다.

저는 ‘올바른 제품을 만드는 것’이 제 일이로 생각합니다. 즉, 개발자들이 실제로 쓰고 싶어하는 플랫폼을 만드는 거죠. 우리 팀이 해결하는 문제는 수식보다는 ‘개발자 경험(DevX)’과 ‘확장성(Scalability)’에 가깝습니다.

우리의 로드맵은 네 가지 큰 축으로 구성되어 있어요:

1️⃣ 데이터 획득과 생성(Data Acquisition & Generation)
현실 세계를 어떻게 포착하고, 그 데이터를 기반으로 더 많은 데이터를 만들어낼 것인가.

2️⃣ 시뮬레이션 플랫폼과 로봇 학습 프레임웍(Simulation Platform & Robot Learning Frameworks)
그 데이터를 어떻게 표현하고, 어떻게 정책(Policy)을 효과적으로 훈련할 수 있을까.

3️⃣ 모델 스펙트럼(Model Spectrum)
지능은 이분법이 아닙니다. 완전한 엔드투엔드 자율성과 전통적 로보틱스 사이에는 ‘하이브리드 모델(Hybrid Models)’의 거대한 스펙트럼이 존재해요. 이건 젠슨 황이 키노트에서 언급했던 MPC + 특화 정책 + 전문가 혼합 시스템(Mixture-of-Experts) 개념과 일맥상통합니다.

4️⃣ 배포와 최적화(Deployment & Optimization)
이 모든 것들을 실제 하드웨어에 통합하고, 최적화해, 현실 세계로 가져가는 단계입니다.

이 네 가지가 우리 제품팀의 핵심 축입니다. 연구팀과는 긴밀히 협업하지만, 저희 팀 대부분은 박사 출신이 아니에요. 우리가 방정식을 직접 풀 필요는 없습니다. 연구자들이 어떤 문제를 해결하려 하는지를 이해하고, 그들이 더 잘 해낼 수 있도록 돕는 도구를 만드는 게 우리의 역할이예요.

Q. 맞아요. 요즘은 교육이 기술의 속도를 따라잡지 못하는 것 같아요. 결국 열정 있는 사람들이 스스로 배우며 따라가는 시대인 것 같습니다.

100% 동감합니다. AI의 등장은 ‘학습의 격차’를 줄이는 거대한 기회를 만들어줬어요. 저는 Perplexity를 정말 자주 씁니다.

Q. 공부를 하실 때요?

네, 공부용이죠. 물론, Perplexity만 쓰는 건 아니고 다른 여러 에이전트들을 다양하게 씁니다. 그렇지만, 제게는 기술적인 문제를 쪼개서 이해하기엔 Perplexity만큼 좋은 도구도 거의 없습니다. 처음 배우는 사람에게는 특히 강력한 학습 도구예요.

로보틱스의 세계는 연구와 실무의 경계가 거의 없습니다. 오늘은 연구 단계였던 게, 내일이면 제품에 통합되죠. VLA도 그랬고, Cosmos도 그랬어요. 세상은 정말 빨리 움직입니다.

그래서 중요한 건, ‘이건 어떤 가치를 가지는가?’ ‘나는 어느 정도 깊이 이해해야 하는가?’를 빠르게 판단하는 능력입니다.

특히 여러 기술을 연결해야 하는 순간에는, 기초부터 제대로 이해해야 하죠. 그래야 다른 기술과 접점을 만들 수 있으니까요.

결국 우리의 일은 “점(Dot)을 연결하는 일”입니다. Cosmos 팀이 만드는 기술을 우리 제품 로드맵과 정렬시키고, 그걸 다시 연구자들의 방향성과 연결시키는 일 말이죠. 우리 팀은 기술의 조각들을 미리 보고, 어디에 어떻게 맞춰야 하는지를 설계하는 역할을 합니다.

Q. 그렇군요, 잘 이해했습니다. 현재 로보틱스 영역의 상황을 보면, 개발의 다양한 영역이 전체적으로 통합되어 있다기보다는 분절되어 있는 느낌이에요. 엔비디아는, 마치 DGX를 만들었던 처럼, 로보틱스에도 ‘표준 스택’을 만들려는 건가요? 다시 말해서, 인지·계획·배포를 한 번에 다루는 통합 플랫폼 같은 거 말이죠. 그리고, 로보틱스 개발을 진짜로 표준화할 수 있는 요소는 무엇일까요?

저희가 찾은 핵심 포인트는 세 가지입니다.

첫째, 로보틱스 생태계는 정말 파편화되어 있습니다.

모두가 각자 다른 툴체인을 쓰고 있죠. 하지만 대부분의 연구자들은 ‘바퀴를 다시 발명하려고’ 그러고 있는 건 아닙니다. 원하는 기능을 제대로 해주는 도구가 없어서 직접 만들 수밖에 없는 상황이에요.

예를 들어서, 한 팀은 전신 제어기(Whole-body Controller)를 훈련하고, 다른 팀은 단순한 그리퍼 매니퓰레이션에 집중합니다. 모두 MuJoCo, Isaac Gym, Isaac Lab 같은 시뮬레이터를 사용하지만,
각자 접촉(Contact), 부드러운 물체(Soft-body), 촉각(Tactile Sensing) 등 자신의 도메인에 맞는 솔버를 따로 구축해야 합니다.

그래서 저희의 첫 번째 목표는 ‘물리학 상호운용 레이어(Physics Interoperability Layer)’를 만드는 겁니다. 이 레이어가 있으면, 서로 다른 툴체인 간 이동이 가능해집니다. 그러면 세팅을 할 때마다 커스텀 작업을 할 필요가 없어지겠죠.

이 작업을 하기 위해서 Google DeepMind, Disney Research 같은 파트너들과 협력해서 ‘Project Newton’을 진행 중인데, 이건 여러 시뮬레이터를 연결해주는 통합 물리 인터페이스(Unifying Physics Interface)를 만드는 프로젝트예요.

둘째, 데이터 표현(Data Representation) 문제입니다.

모두가 제각각의 포맷을 사용하고 있어요. Omniverse가 OpenUSD로 3D 포맷을 통합하려는 것처럼,
우리는 로보틱스 전용 USD 익스텐션(Robotics-specific USD Extension)을 만들고 있습니다.

그렇게 되면, URDF나 MJCF 같은 로봇 정의 파일을 USD로 변환해서 모든 시뮬레이터에서 그대로 사용할 수 있게 됩니다.

즉, MuJoCo용, Isaac용, PyBullet용 자산을 따로 관리할 필요가 없습니다. 로봇, 환경, 객체를 한 번 정의하면 — 물리적 특성과 관절 정보까지 그대로 유지된 채 — 어디서든 작동할 수 있는 구조가 되는 거죠.

셋째, ‘유연한 시뮬레이터(Flexible Simulator)’가 필요합니다.

거대한 단일 엔진(Monolithic Engine)은 더 이상 답이 아니라고 생각합니다. 그래서 지난 1년간 Isaac Lab을 개발하면서 특정한 물리 엔진에 종속되지 않도록 설계했습니다. Newton이 제공하는 통합 API를 활용하면 서로 다른 솔버들이 플러그인처럼 끼워 맞춰지면서 함께 작동할 수 있죠.

이 모두가 Warp, 즉 엔비디아의 Python 기반 GPU 커널 프레임워크 위에 구축되어 있습니다. 그래서,개발자들은 자기가 필요한 정밀도(Fidelity)를 직접 선택할 수 있습니다:

  • 포토리얼리즘이 필요한 경우라면 RTX 렌더링

  • 대규모 학습 속도를 우선할 땐 경량화된 렌더링

Isaac Lab Arena라는 새로운 모듈을 도입했는데, 이건 Isaac Lab 위에 구축된 정책 평가(Policy Evaluation) 프레임워크입니다. 완전히 통합된 건 아니지만, Isaac Lab을 가볍게 유지하면서도 통합형 벤치마킹 환경을 제공합니다.

결국 우리의 핵심적인 생각은 이거예요 — “아무도 발판(Scaffolding)을 다시 만들고 싶어 하진 않는다”는 거요. 사람들은 단지 ‘로봇’을 만들고 싶을 뿐이거든요.

Q. 이했습니다. 그런데, 이렇게 되면 오히려 - 역설적으로 - 더 폐쇄적인 ‘엔비디아 생태계’가 만들어지는 건 아닌가요? 일종의 ‘울타리(Walled Garden)’처럼요.

전혀 그렇게 생각하지 않아요. 오히려 정반대입니다. 우리는 모든 걸 오픈소스로 공개합니다.

Isaac Lab, Isaac Lab Arena, Newton, Warp — 모두 오픈소스로 출시될 겁니다. Newton은 이미 Linux Foundation의 일부로 넘어갔고, 심지어 엔비디아의 소유도 아닙니다. PhysX 역시 오픈소스입니다.

생태계를 통합하려면, 문을 닫는 게 아니라 ‘고속도로(Highway)’를 만들어야 합니다. 누구나 자유롭게 오가면서 호환될 수 있도록요.

그래서 우리의 전략은 이렇습니다.

  • 상호운용성 레이어(Interoperability Layer)

  • 호환 표준(Compatibility Standard)을 만들고,

  • 그걸 모두에게 개방(Open)합니다.

엔비디아가 모든 로보틱스 문제를 해결할 수 없습니다. 하지만 엔비디아가 독보적인 가치를 더할 수 있는 부분은 직접 해결하고, 나머지는 누구나 함께 구축할 수 있도록 개방합니다.

이게 바로 우리의 철학이자 전략입니다.

Q. 오픈소스 이야기를 들으니, 오늘 아침에 사람들이 당신을 둘러싸고 질문하던 모습이 떠오릅니다. 특히 “당신이 젠슨 황의 아들이라면서요?”하는 질문이 많았죠. 그래서 한 번 물어볼께요. 로보틱스 문제를 해결하는 게 더 어렵나요, 아니면 ‘젠슨 황의 아들로 사는 것’이 더 어렵나요?

좋은 질문이네요 ^.^

로보틱스를 해결하는 게 훨씬 더 어렵습니다. 아버지의 아들로 사는 건… 뭐, 35년 동안 연습해 왔으니까요 ^.^

Q. 로보틱스 외에 개인적으로 요즘 가장 흥미를 가지고 계신 분야는 뭔가요?

저는 언제나 ‘근본적인 기술(Fundamental Technologies)’에 가장 큰 흥미를 느낍니다.

엔비디아의 가장 큰 장점 중 하나는 조직 구조가 수평적이라는 점이에요. 그 덕분에 — 동시에 위험하기도 하지만 — 정말 많은 정보에 접근할 수 있습니다.

처음 입사했을 때는 그야말로 소방호스로 물을 마시는 기분이었어요. 처음엔 로보틱스에만 집중했지만, 곧 다른 분야들에서도 엄청난 아이디어들이 쏟아져 나온다는 걸 보고 느꼈습니다.

결국 새벽 세 시, 네 시까지 잠도 안 자면서 내부 문서와 데모를 보고 배우는 게 일상이 되었어요. 잠은 줄었지만, 그만큼 배움의 속도는 가속화됐습니다.

로보틱스에서 일하면, 엔비디아의 다른 팀들이 하는 일들이 전부 ‘내 성장의 직접적인 연료’가 됩니다. 서로의 기술이 곧바로 로보틱스에 연결될 수 있거든요.

우리 내부에는 이런 표현이 있습니다: ‘Mission is Boss.’

조직도가 아니라, ‘미션’이 모든 걸 결정한다는 뜻이에요. 문제가 있다면, 누가 어느 팀에 속했는지는 중요하지 않습니다. 그 문제를 해결할 수 있는 사람이라면 누구든 끌어올 수 있죠.

예를 들어서, 우리가 ‘야생의 유튜브 영상에서 액션 데이터를 추출하는 법’을 연구한다고 해봅시다. 유튜브에는 요리, DIY, 공예 등 수많은 ‘인간의 동작 데이터’가 숨어 있습니다. 하지만 현재 로봇은 그걸 학습할 방법이 없습니다. 그 동작을 인식하고, 모션 데이터를 로봇 정책(Policy)으로 전환할 방법이 없기 때문이죠.

이 문제를 풀려면 게이밍 팀의 도움이 필요할 수도 있습니다. 그 친구들은 이미 게임 캐릭터의 AI 모션 생성을 연구하고 있으니까요. 또는 비디오 이해(Video Understanding) 팀이라든가, 2D 영상을 3D로 재투영(Reprojection)하는 팀의 역량이 필요할 수도 있죠.

위에 설명한 기술들은 로보틱스 프로젝트는 아닐지 몰라도, 이 기술들이 연결되는 순간, 로보틱스가 해결해야 하는 문제를 극복하기 위한 직접적인 돌파구가 됩니다.

저는 이런 ‘연결’의 순간이 가장 흥미롭습니다. 엔비디아가 빠르게 움직이는 이유가 바로 여기에 있어요.

Q. 정말 흥미로운 이야기예요. 저는 개인적으로 그런 연결을 ‘크로스폴리네이션(Cross-Pollination)’이라고 부르거든요. 최근에 읽은 일론 머스크의 전기를 보니, 일론 머스크도 여러 분야의 깊은 지식을 엮어서 새로운 걸 만들어내더군요.

맞아요. 일론 머스크는 그걸 아주 잘하죠.

엔비디아에서는 그걸 조직 문화로 제도화했습니다.

물론, 이런 문화는 익숙해지기까지 시간이 걸립니다. 좁은 영역에만 집중하면 더 많은 진전을 만들어내고 있는 것처럼 느껴질 수가 있거든요. 하지만 ‘최첨단(State-of-the-Art)’이라는 건 오히려 시야를 좁히는 함정이 될 수도 있습니다.

예를 들어서, Omniverse 팀이 Cosmos 팀의 연구를 무시했다면, 시뮬레이션과 뉴럴 모델링을 융합할 기회를 놓쳤을 겁니다. 하지만 서로의 연구를 관찰하고 연결했기 때문에, 두 세계가 만나 새로운 형태의 솔루션이 탄생할 수 있었죠.

이게 우리가 가장 중요하게 여기는 문화입니다 — ‘벽을 가능한 한 낮게 유지해야 아이디어가 빠르게 이동한다.’는 생각이예요.

Q. 이렇게 새로운 세상을 만들어가고 있는 입장에서 가장 걱정되는 건 뭔가요?

저의 가장 큰 우려는 ‘두려움’이라기보다, 현실적인 제약(Reality Check)에 가깝습니다.

대형 언어모델(LLM)은 인류가 수백 년간 쌓아온 기록된 데이터 덕분에 태어날 수 있었어요. 모든 문화, 언어, 역사 — 그게 학습 데이터가 됐죠.

하지만 로보틱스에는 그런 데이터가 없습니다. 우리의 가장 큰 병목은 바로 데이터가 부족하다는 것(Data Scarcity)입니다.

우리는 수백 년치의 인간 행동 데이터나 물리적 상호작용 기록을 갖고 있지 않습니다. 그래서 이 생태계가 공유 데이터셋(Shared Dataset)을 함께 구축하지 않는다면, 모두가 제자리걸음만 엄청나게 오래 하고 있어야 할 거예요.

젠슨 황이 키노트에서 말한 ‘세 가지 스케일링 법칙(Three Scaling Laws)’은 언어모델뿐 아니라 로보틱스에도 똑같이 적용됩니다.

LLM에서는 대규모 프리트레이닝 덕분에 스케일을 달성했죠. 하지만 로보틱스는 아직 프리트레이닝 데이터셋이 너무 작아서, 파운데이션 모델을 만들기조차 어렵습니다.

지금은 모두가 ‘전문가 로봇(Specialist Robot)’을 만들고 있습니다. 특정한 일을 아주 잘하지만, 그 외의 일은 못 하죠. 뭐 괜찮아요 - 그 과정에서 새로운 데이터가 만들어지니까요.

하지만 진짜 목표는 ‘범용의 다목적 로봇(Baseline Generalist)’입니다. 아직 완벽하진 않더라도, 여러 가지 일을 ‘적당히’ 해낼 수 있는 존재. 마치 ChatGPT 1.0처럼요. 그게 바로 새로운 출발점이 될 겁니다.

그다음에는 그 위에 ‘특화된 제너럴리스트(Generalist-Specialist)’, 즉 심화된 이해를 가지고 작업을 할 수 있는 로봇들이 만들어질 겁니다.

그런데 그 단계로 가려면 ‘데이터를 나만이 움켜쥐는 태도’를 버려야 합니다. 어떤 기업, 대학, 국가도 세상을 그 속도로 디지털화할 수 없습니다.

함께 협력하고, 데이터를 공유하고, 공통의 베이스라인을 만들어야 합니다. 왜냐하면 그 베이스라인에 도달한 로봇은 쓸모는 있겠지만, 세상을 바꾸진 못할 거거든요.

진짜 가치는 인간을 ‘대체’하는 게 아니라 ‘보완(Augment)’할 때 생깁니다. 새로운 직업, 산업, 경제가 거기서 나올 겁니다. 저는 그 미래가 무척 기대됩니다. 다만, 우리가 데이터의 벽을 허무는 속도가 얼마나 빠를지 — 그게 제 유일한 걱정이에요.

Q. 마지막 질문이에요. 당신에게 가장 큰 영향을 준 책이 있다면요?

책이요? 두 권이 생각나네요.

하나는 아이작 아시모프의 『파운데이션(Foundation)』 시리즈. 단순한 SF 명작이 아니라, 심리학과 인간 사회에 대한 깊은 통찰을 담고 있습니다. 공동의 목적을 잃은 사회가 어떻게 분열되는지를 보여주죠.

두 번째는 폴 앤더슨(Poul Anderson)『Harvest of Stars』입니다. 조금은 건조한 책이지만, 끝까지 읽어 볼 만한 가치가 있습니다. 소설 속에서 우주선을 탄 승무원들이 블랙홀 주변을 지나면서 이상한 신호, 즉 단순한 잡음처럼 들리는 소리를 포착합니다. 하지만 나중에 그게 ‘소통의 형태’일지도 모른다는 걸 깨닫죠.

이 책이 제게 준 교훈은 단순합니다. “노이즈로 들리는 것 속에도 의미가 있을 수 있다.” 우리가 해야 할 일은, 그 차이를 들을 줄 아는 법을 배우는 것이겠죠. 어쩌면, 그게 제 인생에서 가장 큰 배움이었을지도 모르겠네요.

Q. 정말 흥미로운 인터뷰였습니다. 고맙습니다.

저야말로 감사합니다. 정말 멋진 질문들이었어요.

오늘 에피소드가 재미있으셨다면, 커피 한 잔으로 후원해 주세요. ☕ 여러분의 피드백, 후원은 큰 힘이 됩니다!

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

Avatar

or to participate

Keep Reading