Turing Post Korea
Posts
로보틱스: 아주 기초적인 것부터

로보틱스: 아주 기초적인 것부터

AI의 ‘몸’을 만들다: Figure 03, NEO, 유니트리 로봇부터 엔비디아의 최신 동향까지 — 피지컬 AI가 학습되고 구동되는 방식

Ksenia Se & Ben Eum
November 07, 2025

들어가며

드디어, 여러분과 ‘로보틱스’에 대해 이야기를 시작할 시간이 왔습니다. 현실 세계에 존재하는, ‘피지컬 AI’의 구현체들이 바로 로봇이라고 하면 되겠죠? 저도 개인적으로 지난 8월부터 ‘피지컬 AI’ 영역의 스타트업에서 새로 일을 시작하게 되면서, 이 로보틱스에 대한 관심이 한층 커졌습니다.

로봇은 디지털 공간에서 현실 세계로 AI를 옮겨서 그 영향력을 확장하는 플랫폼입니다. 기계가 인식하고, 움직이고, 실시간으로 액션을 할 수 있는 시대, 즉 AI가 세상과 상호작용하는 완전히 새로운 형태가 열리고 있는 겁니다.

모든 빅테크 기업 - 엔비디아, 테슬라, 오픈AI를 포함해서 - 이 이 피지컬 AI 영역의 지배자, 선두주자가 되기 위해서 달려나가고 있다는 것, 말 안 해도 다들 아실 거구요.

그 동안 이 로보틱스라는 주제를 적극적으로 다루지 않았던 건, 아무래도 로보틱스의 기술 스택이 비전-언어-행동 (VLM) 모델, 컴퓨터 비전, 월드 모델, 기계적 시스템 등으로 구성되는데 이 영역들의 일부 또는 상당 부분을 다른 글에서 다루게 되었기 때문도 있고, 또 로보틱스가 ‘에이전틱 AI’하고 겹치는 부분들도 있잖아요?

그렇지만, 이제는 이 분야를 따로 이야기하지 않으면 안 되는 때가 온 것 같습니다 - 로보틱스가 단순히 ‘에이전트로서의 행동’, ‘비전’, ‘물리 시뮬레이션’ 같은 분리된 각각의 문제가 아니라, 이 모든 요소가 결합된 ‘통합된 지능 시스템의 총합’으로의 발전을 이끌어가는 분야가 되어가고 있기 때문이죠.

언제쯤이면 로봇과 함께 사는, 로봇과 함께 일하는 게 자연스러워질까요? 정확히는 아무도 모르겠죠. 하지만, 지금처럼 발전 속도가 유지되고, 혹은 더 빨라진다면, 그 미래는 분명히 많이 앞당겨질 겁니다.

Figure 03, 1X의 Neo, 유니트리나 레인보우로보틱스의 사족보행 로봇, 그리고 엔비디아의 최신 기술까지 — 로보틱스 영역은 그 어느 때보다도, 그 어느 분야보다도 빠르게 진화 중입니다.

그럼, 오늘은 그 변화를 이끄는 핵심 기술들을 간단히 정리하고, 현대 로봇 시스템을 우리 일반인이 이해할 수 있게 해 주는 기본적인 개념과 구체적 기술을 함께 살펴보려고 합니다.

오늘 에피소드는, 단순한 기술 요약이 아니라, 로보틱스의 시대를 이해하고 함께 살아가야 할 우리 모드를 위한, 아주 기초이긴 하지만 필독 자료라고 생각하고 만들어 봤습니다. 그렇게 어렵지 않으니 편하게 봐 주세요!

오늘 에피소드에서는 아래와 같은 내용을 다룹니다:

로보틱스와 친해지기 위한 기본 개념
1. 로봇의 주요 유형
2. 로보틱스를 구성하는 4대 핵심 축
로봇이 학습하는 방식
1. 강화학습(Reinforcement Learning)
2. 모방학습(Behavioral Cloning)
미래에 당신과 함께 할지도 모를 ‘집안의 동료들’
유니트리 로봇
엔비디아의 최신 업데이트 — 로보틱스를 움직이는 인프라
맺으며

로보틱스와 친해지기 위한 기본 개념

로봇의 주요 유형

아시다시피, 로봇에는 하드웨어라는 관점에서 여러 형태가 있죠 - 대표적인 것들을 보면 아래와 같습니다.

휴머노이드 로봇(Humanoid Robot)
사람처럼 생겼고, 사람과 비슷한 움직임을 보이는 로봇들입니다. Figure 03, Tesla Optimus, Agility Digit, Boston Dynamics의 Atlas, 1X의 Neo 등이 대표적이죠.

Image Credit: Atlas, Boston Dynamics

사족보행 로봇(Quadruped Robot)
네 발로 걷는 로봇으로, 개나 동물의 형태에서 영감을 받았습니다. Boston Dynamics Spot, Unitree B2, 레인보우로보틱스의 RBQ-10, ANYmal 등이 있습니다.

Image Credit: Unitree

매니퓰레이터(Manipulator)
흔히 ‘로봇 팔’로 불리는 하드웨어로, 공장, 실험실, 병원 등에서 사람의 손을 대신해서 작업을 할 때 사용할 수 있습니다.

Image Credit: Hugging Face LeRobot GitHub

자율주행 시스템(Autonomous Vehicle)
자율주행 자동차(Waymo, Tesla Autopilot), 드론, 배달 로봇(예: Serve Robotics) 등이 여기에 속합니다.

Image Credit: Serve Robotics

엑소스켈레톤(Exoskeleton)
사람이 착용하는 로봇 형태로, 신체 움직임을 보조하거나 강화합니다. Sarcos Guardian XO, Ekso Bionics가 대표적입니다.

Image Credit: The Robot Report

그리고, 이제는 모든 로봇이 AI와 머신러닝(ML)으로 강화되어 가면서, 스스로 상황을 인식, 판단해서 행동할 수 있는 ‘지능(Intelligence)’을 가지게끔 되어가고 있습니다. 로봇의 형태가 어떤 것이든간에, 로봇이 의미있게 작동하려면 네 가지의 핵심적인 축이 필요합니다.

로보틱스를 구성하는 네 가지 핵심 축(Pillars)

인지 (Perception)

‘인지’는 로봇이 주변 환경을 보고, 듣고, 느낄 수 있도록 하는 능력입니다. ‘인지’의 주요 구성 요소는 다음과 같습니다.

컴퓨터 비전 (Computer Vision): 카메라와 신경망을 이용해서 사물, 사람, 장면을 인식합니다.
깊이 감지 (Depth Sensing): LiDAR(빛을 쏘아 반사 시간을 계산해서 거리와 3D 포인트 클라우드를 생성), 레이더, 혹은 스테레오 비전을 활용해서 3D 지도를 만듭니다.
촉각 및 힘 감지 (Touch & Force Sensing): 접촉 여부와 그립의 세기를 추정하는 촉각 센서나 관절 토크 센서입니다.
음향 처리 (Audio Processing): 마이크, 음성 인식 모델, 음원 위치 추적 기능을 통해서 소리를 분석하고 이해합니다.

이 영역에서 AI 모델은 로봇의 ‘감각’을 해석합니다. 센서가 감지한 원시 데이터를 상징적든 수치적이든 모델이 이해하하고 처리할 수 있는 형태로 바꿔서 세상을 이해하게 하고, 물체 인식, 분할(Segmentation), 움직임 감지 등을 처리합니다.

위치 추정 및 지도 작성 (Localization and Mapping, SLAM)

SLAM(Simultaneous Localization and Mapping)은 이름 그대로 두 가지 작업을 동시에 수행합니다.

로봇이 지도 안에서 자신의 위치를 추정하는 Localization(위치 추정)
주변 환경의 지도를 실시간으로 작성하거나 갱신하는 Mapping(지도 작성)

이런 작업을 하기 위해서 확장 칼만 필터(Extended Kalman Filter), Graph-SLAM, 파티클 필터 등의 알고리즘을 활용해서 센서 데이터를 시간 순서로 정렬하고, 위치 오차(Drift)를 최소화합니다.

모션 (Motion)

‘모션’은 로봇이 물리적으로 움직이는 모든 과정을 의미합니다. 여기에는 이동(Locomotion), 조작(Manipulation), 전신 제어(Whole-body Control)가 포함됩니다.

Image Credit: Robot Learning: A Tutorial

이동(Locomotion):
로봇이 환경 내에서 이동하는 방식입니다. 하드웨어적으로는 바퀴, 다리, 트랙, 날개 등이 사용되고, 소프트웨어적으로는 AI 기반 제어 시스템이 이 과정을 관리합니다. 과거에는 예측 가능한 경로를 따라 고정된 방식으로 움직였지만, 이제는 강화학습과 AI 제어를 통해서 균형 유지, 장애물 회피, 지형 적응, 실시간 경로 계획이 가능해졌습니다.
조작(Manipulation):
로봇이 물체를 집거나 옮기는 등 환경과 상호작용하는 능력입니다. 시각 및 촉각 피드백을 이용해서 적응형 파지(Grasping), 언어 기반 조작(“그 컵을 들어줘” 같은 명령), 물체의 움직임 예측 등을 수행합니다. 로봇이 이동하면서 물체를 다루는 모바일 매니퓰레이션(Mobile Manipulation)은 더욱 복잡한 응용 사례이구요.
전신 제어(Whole-body Control):
로봇의 모든 관절과 부위를 조화롭게 제어하는 기술입니다.

로봇 모션을 생성하는 방식은 크게 두 가지 접근법으로 나뉩니다.

명시적(Explicit, 물리 기반) 모델 – 물리 법칙과 수식을 이용해서 로봇의 움직임을 정밀하게 계산합니다.
암시적(Implicit, 학습 기반) 모델 – 데이터에서 직접 패턴을 학습해서 다양한 상황에 적응합니다.

현재 대부분의 로봇 시스템은 이 두 접근 방식을 결합해서 더 높은 안정성과 유연성을 확보합니다.

계획 및 의사결정 (Planning and Decision-Making)

이 부분은 로봇의 ‘사고 시스템’이라 할 수 있습니다. 로봇의 임무나 환경에 따라서 다양한 AI 모델—강화학습, 월드 모델(World Model), 트랜스포머, 뉴로-심볼릭(Neural-Symbolic) 플래너 등—이 사용됩니다.

이들은 아래와 같은 역할을 수행합니다.

행동 선택 및 경로 탐색
고수준의 작업 계획 수립
새로운 정보에 대한 반응
목표, 안전, 윤리적 제약 간의 균형 유지

또, 필요에 따라서 언어 이해(Communication), 지속 학습 및 적응(Learning and Adaptation), 에너지 관리(Energy Management) 기능이 함께 탑재되기도 합니다.

로봇이 학습하는 방식

최근 허깅페이스에서 발표한 “Robot Learning: A Tutorial”은 로봇 학습이 어떻게 진화하고 있는지를 잘 보여주는데요. 기존의 물리 기반 모델(Dynamics-based Control)에서 벗어나서, 머신러닝 기반의 접근 방식으로 로봇의 계획과 행동 방식을 근본적으로 바꾸고 있습니다.

기존의 방식은 복잡한 시뮬레이터, 커스텀 플래너, 모듈형 파이프라인에 의존했지만, 학습 기반의 로봇은 경험으로부터 직접 학습하면서 인지부터 제어까지를 하나의 파이프라인으로 통합합니다.

이 접근 방식의 주요 장점은 다음과 같습니다.

새로운 로봇과 작업에 빠르게 적응 가능
고차원 입력(카메라, 자기감각, 음향 등)을 직접 처리
데이터가 늘어날수록 자동적으로 성능 향상
‘관찰 → 행동(o→a)’을 하나의 정책으로 학습하는 단순한 구조

Image Credit: Robot Learning: A Tutorial

이 ‘정책’, 시각-운동 정책(Visuomotor Policy)이라고 부를 수 있는 이 정책은 두 가지의 중요 패러다임을 활용해서 학습을 시키는데요:

강화학습(Reinforcement Learning): 시행착오를 통해 학습하고, 보상(Reward)을 최적화합니다.
모방학습(Behavioral Cloning): 시연(Demonstration)을 모방함으로써 학습합니다.

Image Credit: Robot Learning: A Tutorial

강화학습 (Reinforcement Learning)

로봇에서의 강화학습 역시 보상(Reward)을 최대화하는 제어 정책을 학습하는 것이죠. 주요 알고리즘은 다음과 같습니다.

TRPO (Trust Region Policy Optimization): 신뢰 가능한 범위 내에서 업데이트 수행
PPO (Proximal Policy Optimization)
SAC (Soft Actor-Critic): 보상과 정책 엔트로피를 함께 최적화

학습은 보통 시뮬레이션에서 시작해서 하드웨어가 현실 세계에서 바로 작동할 때 발생할 수 있는 위험을 줄이고, 도메인 랜덤화(Domain Randomization)를 통해서 실제 환경과의 차이를 줄입니다.

또한 사람이 개입해서 실시간으로 수정할 내용을 피드백으로 제공하는 ‘Human-in-the-loop RL’은 저비용의 로봇에서도 단 1~2시간 만에 99% 이상의 성공률을 달성하기도 합니다.

모방 학습 (Behavioral Cloning)

모방 학습(Behavior Cloning)은 로봇의 제어를 ‘지도학습 문제’로 다루는 거라고 볼 수 있습니다. 즉, 관찰값에서부터 전문가의 행동으로 연결되는 매핑(o → a)을 학습하는 방식입니다. 여기서, 로봇의 성능은 여러 로봇과 다양한 작업에서 더 많은 사람의 시연(Trajectory) 데이터가 쌓일수록 향상됩니다. 그렇지만, 시연자, 즉 전문가만큼만 잘 하는 것이 한계라는 측면도 있죠.

또 몇 가지 잠재적인 문제가 더 있습니다: 기본적인 모방 학습은 전문가의 행동을 단순히 모방하는 수준에 그치는 것이라서, 한 가지 작업을 여러 방식으로 수행할 수 있는 멀티 모달 데이터(multimodal data)를 처리하는데는 뛰어나지 못합니다. 또 순차적 제어(Sequential Control) 과정에서 작은 오차가 시간이 지날수록 누적되고, 일반화 능력도 부족한 편이구요.

이런 몇 가지 이유로 모방 학습은 로봇의 정책(즉, 의사결정 모델)을 어떻게 학습하고 실행할지를 정의하는 소프트웨어 아키텍처의 확장(Extension)을 해야 합니다.

작동 방식은 다음과 같습니다:

1. 학습(Training)은 로봇 외부에서 이루어집니다.

로봇(또는 사람)이 시연 데이터를 수집합니다. 예를 들어서, 카메라 영상, 관절 각도, 행동(Action) 등이 포함됩니다.
이 데이터는 클라우드나 연구소의 고성능 GPU를 이용해서 VAE, ACT, Diffusion Policy 같은 모델을 학습시키는 데 사용됩니다.
이렇게 학습된 모델은 관찰값 → 행동으로의 매핑을 더 정교하고 안정적인 방식으로 학습하게 해 줍니다.

2. 배포(Deployment)는 로봇 내부에서 이루어집니다

학습이 완료된 모델은 로봇의 온보드 컴퓨터에 업로드됩니다.
로봇이 작동할 때, 모델은 실시간으로 다음 과정을 수행합니다:
- 카메라나 센서가 관찰값(Observation)을 입력으로 제공합니다.
- 학습된 정책(Policy)이 행동(Action)을 출력합니다. 예를 들어 “관절을 움직이기”, “물체를 잡기” 같은 명령을 수행합니다.

이 과정에서 사용되는 주요 생성 모델들은 - 위에도 적었지만 - 다음과 같습니다:

VAE (Variational Autoencoder) → 전문가의 행동 분포 전체를 모델링합니다. 단순히 평균적인 행동만 복제하는 것이 아니라, 무작위성(Stochasticity)을 추가하고, 여러 가지의 유효한 행동(예: 왼손으로 잡기 vs 오른손으로 잡기)을 포착합니다.

Image Credit: Robot Learning: A Tutorial

Diffusion Model (확산 모델) → 노이즈가 섞인 행동 샘플을 점차 전문가와 유사한 궤적(Trajectory)으로 디노이징(Denoising)해서, 부드럽고 현실적인 멀티 모달 궤적을 생성합니다.
ACT (Action Chunking with Transformers) → Conditional VAE(CVAE)와 Transformer를 결합해서, 여러 연속된 행동을 하나의 덩어리(Chunk)로 학습합니다. 이렇게 해서 일관된 행동 시퀀스를 생성할 수 있고, 장기 작업(Long-horizon Tasks)에서의 오차 누적을 줄일 수 있습니다.

Image Credit: Robot Learning: A Tutorial

VLA (Vision-Language-Action Model) → 로보틱스 분야가 파운데이션 모델(Foundation Model)로 전환되고 있음을 보여주는 영역인데, π₀, SmolVLA 같은 모델들은 언어와 시각 정보를 행동 예측과 통합하고, Transformer나 Flow-Matching 기반 아키텍처를 사용합니다. 사전 학습된 VLM(Vision-Language Model)을 통해서 의미적인 이해를 수행하고, 시각 및 언어적 기반을 활용해서 다양한 작업과 로봇 형태로 모방 학습을 확장합니다.

Image Credit: Robot Learning: A Tutorial

미래에 당신과 함께 할지도 모를 ‘집안의 동료들’

Figure 03

Figure AI의 목표는 “사람이 할 수 있는 모든 일을 수행할 수 있는 범용 휴머노이드”를 만드는 것입니다. 이 회사의 최신 모델 Figure 03은 대량생산을 염두에 두고 설계된 로봇이라고 하는데, 음성 명령을 통해서 집안일을 수행하게 할 수 있습니다.

핵심은 로봇의 ‘두뇌’ 역할을 하는 Helix 신경망인데요.

Image Credit: Helix: A Vision-Language-Action Model for Generalist Humanoid Control

System 2 (S2): 느리지만 똑똑한 비전-언어 모델(VLM)로, 장면과 명령을 이해합니다. (초당 7~9회 실행)
System 1 (S1): 빠른 Visuomotor 모델로, 실시간 반응(초당 200회)과 부드러운 동작을 수행합니다.

Helix는 약 500시간 분량의 로봇 시연 데이터로 학습을 했는데, 이 시연 데이터는 여러 대의 로봇을 사용해서 사람, 즉 조작자들이 직접 수행한 작업을 녹화한 것입니다. 이후에, AI 시스템이 각 영상에서 로봇이 수행한 행동을 바탕으로 “컵을 서랍에 넣기” 같은 텍스트 지시문을 자동으로 생성했습니다.

모델은 엔드 투 엔드(End-to-End) 방식으로 학습되었고, 이미지와 텍스트 명령을 물리적 행동으로 직접 매핑했습니다. 이 과정에서 수동으로 파인튜닝(Fine-Tuning)이나 별도의 단계를 거치지 않았다고 합니다.

Helix의 “사고 엔진(Thinking Engine)” 덕분에 Figure 로봇은 아래와 같은 기능을 갖추게 되었습니다:

정밀한 전신 제어(Precise Full-Body Motion)
Helix는 손가락부터 몸통까지 총 35개의 관절을 동시에 부드럽게 제어해서, 잡기나 뻗기 같은 복잡한 동작을 수행할 수 있습니다.
두 로봇의 협동(Two-Robot Teamwork)
두 대의 동일한 로봇이 역할별로 따로 프로그래밍을 하지 않고도, 오로지 공유된 언어 프롬프트만으로 협력할 수 있습니다.
일반화 능력(Generalization)
Helix는 “디저트 아이템을 집어 들어라” 같은 추상적인 개념도 이해하고 실행할 수 있고, 예를 들어서 장식용 선인장이 그 설명에 해당한다는 것을 인식할 수 있습니다.

흥미로운 점은 Figure 03 로봇의 학습 방식입니다. 엔지니어(‘파일럿’이라고 불립니다)들이 VR 헤드셋을 착용하고 가짜 부엌 공간에서 빨래 개기, 설거지, 수건 정리 같은 일상적인 집안일을 직접 수행합니다. 그러면, 로봇은 이 과정을 관찰하고 학습하는 겁니다.

현재까지 Helix는 단 80시간의 영상만으로 수건 개는 법을 학습했고, Figure는 이런 영상 제작과 학습의 양을 수백만 시간 규모로 확장할 계획입니다. Figure는 더 많은 데이터를 확보하기 위해서 사무실 내부에 가정과 공장을 모사한 시뮬레이션 공간(Mock-up)을 구축하고 있다고도 합니다.

그 밖의 특징으로, Figure 03은 이전 모델보다 기계적·디자인 측면에서 여러 개선이 이루어졌습니다:

더 작고 강력한 관절(액추에이터)
촉각 패드와 손바닥 카메라가 장착된 더 슬림한 손
부품 비용이 이전보다 90% 저렴, 대량 생산이 가능해짐
더 안전한 배터리와 가벼워진 전체 프레임(보다 덜 위압적인 외형)
기억 기능(Memory): 예를 들어서, 열쇠를 어디에 두었는지 기억할 수 있습니다.

이전 버전인 Figure 02 로봇은 이미 산업 현장에서 사용되고 있는데, BMW의 스파턴버그 공장에서 BMW X3 조립을 위한 부품 운반 작업을 수행하고 있습니다. 하지만 가정 환경에서는 여전히 셔츠 개기나 떨어진 빨래 줍기처럼 아주 사소한 일들조차 어려움을 겪고 있는게 현실이기도 합니다. 이런 것이 바로 모라벡의 역설(Moravec’s Paradox)이 현실에서 드러나는 사례입니다 — 인간에게는 사소하게 느껴지는 일들이, 예측할 수 없는 형태나 질감 때문에 로봇에게는 매우 어려운 과제이기 때문이죠.

Figure의 CEO 브렛 애드콕(Brett Adcock)은 완전한 가정용 자율 로봇이 2026년쯤 가능할 것이라고 말하지만, 여전히 “넘어야 할 큰 산이 남아 있다”고 인정했습니다. 화려한 홍보와는 달리, 현재의 Figure 03 시연 영상 대부분은 여전히 이전 세대 로봇에 의존하고 있고, 실제 환경에서의 테스트는 이제 막 시작된 단계입니다.

NEO by 1X

1X의 NEO는 가정용으로 설계된 휴머노이드 로봇입니다.

Image Credit: NEO, 1X

이 로봇은 바로 며칠 전에 공개되었는데, 월스트리트 저널의 테크 컬럼니스트가 1X의 CEO와 한 인터뷰에 제품에 대한 이야기가 많이 있으니 한 번 보시기 바라구요:

저 리뷰 영상을 보면, 현재 기준으론 ‘자율 행동(Autonomous Action)’의 범위는 상당히 제한적이고, 리모트로 사람이 로봇을 작동시키는 모드가 많은 비중을 차지하는 것 같기는 합니다만, 어쨌든 이 글에서는 NEO 로봇의 내부에 어떤 기술이 들어 있는지에 더 관심이 있으니 그 부분을 보죠.

NEO는 물리적 사실성과 시뮬레이션 학습을 결합한 두 개의 첨단 AI 시스템에 기반하고 있습니다.

먼저, 1X 월드 모델(1X World Model)은 가상 환경으로서의 역할을 합니다.

이건 물리 법칙에 기반한 시뮬레이터로, 로봇이 실제로 행동하기 전에 어떤 일이 일어날지를 예측합니다. 이걸 일종의 “환상(Hallucination)”의 과정이라고 볼 수 있을까요? 어쨌든 이 덕분에 로봇은 위험하지 않게, 그리고 빠르게 여러 아이디어를 실험할 수 있고, 엔지니어들은 이 과정에서 AI 모델의 성능을 측정할 수 있습니다. 모든 것이 데이터 안에서 시뮬레이션되니까, 로봇의 행동을 학습하고 개선하는 속도는 실제 환경에서 시행착오를 거쳐야 하는 경우보다 훨씬 빠릅니다.

다음으로, Redwood AI 시스템은 NEO에게 움직임과 사고의 능력을 동시에 부여합니다.

Redwood는 모방학습(Behavioral Cloning)와 스테레오 비전(Stereo Vision)을 활용해서, 하나의 통합된 컨트롤러 안에서 로봇이 걷고, 달리고, 무릎을 꿇고, 계단을 오르는 등의 움직임을 부드럽게 수행하도록 합니다. 동시에 이 시스템은 비전-언어 트랜스포머(Vision-Language Transformer)로, 로봇이 보고 있는 것을 이해하고 그 상황에 맞게 반응할 수 있도록 해 줍니다.

예를 들어, 빨래를 개거나, 문을 열어 주거나, 집 안을 탐색하는 등 다양한 상황에서 문맥을 이해해서 행동할 수 있습니다.

NEO가 새로운 경험을 할 때마다 Redwood의 모델은 더욱 정교해지고, 로봇은 점점 더 유능해지고, 적응력을 확보할 수 있고, 인간이 살아가는 환경 속에서 자연스럽게 행동할 수 있게 됩니다.

이 두 가지 기술의 발전을 보고 있으면, 정말 휴머노이드 로봇이 우리의 일상 공간으로 점점 더 가까워지고 있구나 느껴지기도 하는데요.

이제 로봇은 전문가나 산업용 장비에만 머무르지 않고, 일반 사람들의 일상 속 — 편안함을 돕고, 빨래를 개 주는 — 존재로 자리잡아 갈 시대가 멀지 않은 것 같습니다.

유니트리 로봇

앞서 소개된 두 로봇이 주로 가정용 작업에 특화되어 있다고 한다면, 중국 기업인 유니트리 로봇은 훨씬 더 폭넓은 용도를 위해 다양한 폼팩터로 만들어지고 있을 뿐 아니라, 정말 빠른 속도로 새로운 제품들이 이어지고 있습니다.

여러분도 아마 로봇이 다양한 묘기를 부리는 멋진 영상들을 본 적이 있을 텐데요 — 네, 바로 그 로봇들이 많은 경우에 유니트리의 작품입니다.

그중 하나가 바로 키 1.3미터의 휴머노이드 로봇 G1입니다.

이 로봇은 연구와 개발용으로 만들어졌으며, “매우 넓은 관절 움직임 범위”와 “23~43개의 관절 모터”를 갖추고 있습니다. 또한 손에는 힘-위치 하이브리드 제어(Force-Position Hybrid Control) 기술이 적용되어 있어서 정밀한 조작이 가능하다고 합니다.

G1은 모방학습(Imitation Learning)과 강화학습을 모두 활용해서 학습하고, Unitree Robot Unified Large Model (UnifoLM)이라는 월드 모델에 의해 구동됩니다.

Image Credit: Unitree G1

Unitree 로봇 제품군에서 또 하나 주목할 만한 모델은 Go2, A2, B2 등의 사족보행 로봇들입니다.

(제가 몸담고 있는 회사 - 디스펙터 - 에서도 주로 다양한, 이기종의 사족보행 로봇들을 좀 더 쉽게, 그리고 지능적으로 운용할 수 있는 하드웨어 및 소프트웨어 플랫폼을 만들고 있습니다. 관심있으신 분은 연락주세요 ^.^)

그 중에서 Go2는 첨단 물리 센서와 AI로 구동되는 바이오닉 4족 보행 로봇입니다. 그 핵심에는 360° × 90° 초광각 4D LiDAR(L1)가 장착되어 있고, 최소 감지 거리가 단 0.05미터에 불과합니다. 그래서 그 덕분에 거의 완벽한 지형 인식과 전천후 주행이 가능합니다.

구동 측면에서는, Go2는 알루미늄 합금과 고강도 엔지니어링 플라스틱으로 된 15kg짜리 본체를 가지고 있고, 관절 토크는 약 45 N·m, 최고 속도는 실험실 기준 약 5m/s에 달합니다. 이 로봇은 강화학습을 통해 학습되었다고 합니다.

엔비디아의 최신 업데이트 — 로보틱스를 움직이는 인프라

지난 10월 말에 있었던 NVIDIA GTC 2025에서의 최신 발표와 자료를 통해서 보면, 일단은 실제의 로봇에 대한 새로운 발표는 없었죠. 이번 NVIDIA GTC의 주요 내용, 그리고 혁신은, 피지컬 AI(Physical AI)의 뼈대를 구축하고, 그 강력한 기능을 뒷받침하는 기술들에 초점이 맞춰져 있습니다.

각각에 대해서 하나씩 살펴보면서, 이것이 로보틱스의 미래에 어떤 의미를 가지는지 알아보겠습니다.

Image Credit: 젠슨 황 키노트

젠슨 황은 키노트에서 “언어 모델 학습에 두 개의 컴퓨터(학습용, 추론용)가 필요한 것처럼, 피지컬 AI에는 세 개의 컴퓨터가 필요하다”고 설명했습니다.

트레이닝 컴퓨터 (The Training Computer)
→ Grace Blackwell GB200은 로봇의 ‘두뇌’를 형성하는 대규모 AI 모델을 학습하고 평가하는 역할을 합니다.
시뮬레이션 컴퓨터 (The Simulation Computer)
→ Omniverse DSX를 기반으로 한 시스템으로, 로봇·공장·환경의 디지털 트윈(digital twin)을 생성합니다. 이곳에서 AI는 시뮬레이션을 통해 안전하게 학습할 수 있습니다. 또 생성형 AI, 컴퓨터 그래픽스, 레이 트레이싱(Ray Tracing), 센서 시뮬레이션 등 현실감 있는 가상 학습에 필요한 모든 요소를 처리합니다.
로보틱 컴퓨터 (The Robotic Computer)
→ Jetson Thor 플랫폼으로, 실제 로봇이나 자율주행차 내부에 탑재됩니다. 학습된 모델을 실행해서 로봇이 현실 세계에서 움직이고, 판단하고, 실시간으로 결정을 내리게 합니다.

Image Credit: 젠슨 황 키노트

이 세 가지의 컴퓨터 시스템은 모두 NVIDIA의 CUDA 아키텍처 위에서 작동하고, AI가 학습 → 시뮬레이션 → 배포되는 완전한 파이프라인을 형성합니다. 이 덕분에 AI가 물리 법칙, 인과관계, 영속성(Permanence) 같은 개념을 실제로 이해하는, 즉, 세상을 ‘진짜로’ 이해하는 AI를 만드는 기반이 됩니다.

NVIDIA가 그리는 피지컬 AI의 비전은 미국의 재산업화(Reindustrialization)와 맞닿아 있습니다. 휴스턴에서는 폭스콘(Foxconn)이 NVIDIA AI 인프라 시스템을 제조하는 완전 자동화 공장을 건설 중인데, 이 공장은 처음부터 디지털로 설계된, 말 그대로 “디지털 네이티브(Factory Born Digital)”의 공장입니다.

이곳에서는 Omniverse와 Siemens의 디지털 트윈 기술을 통해서 기계, 전기, 배관 시스템까지 모든 것을 실제 건설 이전에 가상 환경에서 설계·테스트·최적화할 수 있습니다.

공장 내부에서는 Isaac Sim에서 훈련된 로봇들이 AI 하드웨어를 조립하고, 자율주행 로봇들이 Omniverse 기반 센서 시뮬레이션을 통해서 협력하며 작업을 조율합니다.

또 Metropolis와 Cosmos의 AI 에이전트들이 운영을 관리하고, 이상 상황을 탐지하고, 직원 온보딩까지 인터랙티브 코칭 시스템으로 지원합니다.

결과적으로, 로봇이 다른 로봇을 관리하고 오케스트레이션하는 새로운 형태의 공장이 탄생하고 있습니다 — 디지털 트윈으로 설계되고, 학습되고, 운영되는 완전한 자동화 공장이죠.

젠슨 황은 로보택시(Robotaxi) 산업이 중대한 전환점을 맞고 있다고도 강조했습니다.

Uber와의 파트너십을 발표했는데, 이를 통해서 NVIDIA Drive Hyperion 플랫폼 기반의 차량들이
글로벌 네트워크로 연결될 예정입니다. 이 플랫폼은 자율주행차를 위한 엔드투엔드 아키텍처로,
360도 카메라, 레이더, 라이다(LiDAR) 등을 포함한 종합 센서 스위트(Sensor Suite)와
실시간 인지·지도화·의사결정을 위한 이중 AI 컴퓨팅 구조를 갖추고 있습니다.

가까운 미래에는, 승객들이 Uber 앱을 통해서 직접 AI 자율주행차를 호출할 수 있을 것 같네요.

Image Credit: 젠슨 황 키노트

또 하나 주목할 만한 혁신이 바로 NVIDIA IGX Thor입니다.

이 차세대 프로세서는 클라우드 환경의 지연 없이, 로봇과 기계가 현장에서 즉시 판단할 수 있는 실시간 인공지능을 제공합니다.

Blackwell 아키텍처를 기반으로 하고, 통합형 + 외장형 GPU를 함께 탑재해서 이전 세대보다 최대 8배의 AI 연산 성능을 제공합니다.

이 차세대 프로세스를 통해서 로봇은 카메라, LiDAR, 센서 데이터를 즉시 처리하고, 주변 환경을 인식하고, 순간적인 의사결정(Splitting-Second Decision)을 안전하게 내릴 수 있습니다.

그렇게 되면 로봇과 기계들은 더 인간처럼 보고, 움직이고, 반응하게 되겠죠. 이는 더 똑똑한 공장 자동화, 더 안전한 의료 로봇, 그리고 더 빠르고 유연한 차세대 물리적 AI 시스템으로 이어질 것입니다.

맺으며

종합적인 관점에서의 로보틱스 기술, 그리고 산업은 아직 초기 단계임에는 분명합니다 - 고품질의 피지컬 AI(Physical AI)를 현실로 만들기 위해서는 아직 몇 번의 큰 도약이 필요할 거예요.

하지만 로봇은 이미 가정과 산업 현장으로 들어오기 시작하고 있는 것 또한 사실이고, 지금 가장 중요한 단계는 모든 시스템이 어떻게 함께 작동할지를 설계하는 것, 그리고 시뮬레이션 환경과 실제 환경에서 모두 학습을 시킬 수 있는 구조를 만드는 것입니다. 그리고, 이건 우리가 언어 모델이나 비전 모델을 학습시켜온 과정, 그 구조와 크게 다르지 않을 겁니다.

이 목표에 도달하기 위해서는, 개발자들이 반드시 극복해야 할 과제가 있습니다.

리얼리티 갭(Reality Gap) — 시뮬레이션 환경과 실제 환경이 얼마나 다른가의 문제
퍼포먼스 갭(Performance Gap) — 로봇이 시뮬레이션에서 보인 행동이나 성능이 실제 환경에서는 얼마나 다르게 나타나는가의 문제

이 두 격차를 줄이는 것이 앞으로의 핵심 과제입니다. 아직 갈 길이 멀고, 많은 연구와 노력이 필요합니다.

로보틱스는 AI, 기계공학, 전자공학, 디자인 등 모든 영역이 융합된 총체적인 분야입니다. 그래서 지금 이 시대에 가장 흥미롭고, 가장 주목받는 도전의 장이 되고 있습니다.

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

보너스: 참고자료

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.