• Turing Post Korea
  • Posts
  • 추론 칩 전쟁: MatX, Taalas, 그리고 GPU 독주 시대의 균열

추론 칩 전쟁: MatX, Taalas, 그리고 GPU 독주 시대의 균열

NVIDIA의 베라 루빈에서 Model-as-Hardware까지 — 추론 칩, 이제는 한 종류로 묶을 수가 없다

In partnership with

1,000+ Proven ChatGPT Prompts That Help You Work 10X Faster

ChatGPT is insanely powerful.

But most people waste 90% of its potential by using it like Google.

These 1,000+ proven ChatGPT prompts fix that and help you work 10X faster.

Sign up for Superhuman AI and get:

  • 1,000+ ready-to-use prompts to solve problems in minutes instead of hours—tested & used by 1M+ professionals

  • Superhuman AI newsletter (3 min daily) so you keep learning new AI tools & tutorials to stay ahead in your career—the prompts are just the beginning

추론 칩 전쟁: 지금 AI 하드웨어 판에서 무슨 일이 벌어지고 있나

TL;DR

‘추론 칩 전쟁’이란, AI 인프라 영역에서의 논의가 GPU 중심에서 벗어나서 토큰당 비용, 지연 시간, 전력 효율, 컨텍스트 처리 능력 등을 놓고 경쟁하는, 다양한 ‘추론 전용 하드웨어들’이 등장하는 흐름을 말합니다.

NVIDIA의 베라 루빈(Vera Rubin)은 랙 단위 플랫폼으로 GPU의 베이스라인을 높이고 있고, MatX는 프로그래머블 LLM 전용 가속기에 베팅하고 있죠. Taalas는 특정한 모델을 아예 실리콘에 구워버리는 '모델-애즈-하드웨어(Model-as-Hardware)' 개념으로 승부합니다. 어떤 선택이 맞는지는 결국 워크로드에 달려 있을 겁니다. 모델이 자주 바뀌는 멀티모델 환경이라면 GPU가 유리하고, 안정적인 대규모 추론 환경이라면 전용 칩이 유리할 수 있을 겁니다.

지금 대부분의 AI는 범용의 하드웨어, 더 간단하게 말하자면 ‘GPU’ 위에서 돌아갑니다. 꽤 오랜 기간, NVIDIA가 열심히 구축해 온 생태계를 깨는 것, 거의 불가능해 보이기는 일이기도 했습니다.

그런데, 흥미로운 일이 최근 생겼습니다 - 꽤 속도감 있게요.

올해 초부터 하드웨어 분야에서 아주 흥미로운 소식들이 쏟아지고 있는데, 그 중심에는 '추론(Inference)'이 있습니다.

지난 1월 CES에서 NVIDIA는 차세대 플랫폼 베라 루빈을 공개했습니다. 6개의 칩으로 구성된 랙 규모의 AI 슈퍼컴퓨터로, 추론 집약적이고 통신 집약적인 워크로드에 최적화돼 있죠. 2월 중순에는 Taalas가 1억 6,900만 달러를 조달하면서, 시장에서 가장 극단적이라고도 할 만한 ‘추론에의 베팅’을 하는 모습을 보여줬어요 - 모델을 하드웨어 위에서 실행하는 개념 자체를 버리고, 특정한 모델 자체를 하드웨어로 만들어버리는 모델-애즈-하드웨어(Model-as-Hardware) 개념을 채택한 겁니다. 그리고 바로 2월 24일, MatX가 시리즈 B로 5억 달러를 조달했다고 밝혔습니다. LLM 전용 가속기 MatX One을 내세운 야심찬 도전인데, 아직 출시되기 전이라 다크호스이긴 합니다(하지만 뒤에는 거물들이 버티고 있습니다).

이 모든 흐름이 보여주는 건 하나의 이야기입니다: 이제 AI 경쟁은 추론의 실제 운영 조건, 즉 지연 시간, 토큰당 비용, 전력, 그리고 파라미터와 KV 캐시를 얼마나 효율적으로 움직이느냐에서 하는 영역에서 벌어진다는 겁니다. 물론, GPU가 여전히 베이스라인입니다만, 그 단 하나의 베이스라인만으로 모든 추론 환경을 영원히 커버할 수 있다는 가정 자체에는, 거대한 균열이 시작되고 있습니다.

오늘 에피소드에서는 아래와 같은 세 가지 내용을 다루려고 합니다:

  1. GPU의 현재: 블랙웰(Blackwell)이 이전 세대의 기준이었다면, 베라 루빈은 새로운 기준이죠. 이건 단순한 칩을 넘어선 플랫폼의 스토리입니다.

  2. 왜 추론이 도전자들의 공략 지점이 됐는가: 학습(Training)은 여전히 GPU의 영역이지만, 추론(Inference)은 다릅니다.

  3. Taalas와 MatX: 서로 정반대의 베팅을 하는 두 기업을 살펴보고, 더 넓은 ‘추론 전용 하드웨어’의 지형 속에서 이 회사들을 이해해 봅니다.

미리 간단히 말씀드리자면: MatX는 긴 호흡으로 바라봐야 할 과감한 도전자입니다. GPU처럼 여러 모델을 자유롭게 돌릴 수 있으면서도, LLM만큼은 GPU보다 더 잘한다는 게 이들의 주장이예요. 반면, Taalas는 시장에서 가장 색다른 아이디어를 들고 나온, 진지하게 들여다볼 가치가 있는 회사입니다. 왜냐하면 “모델이 얼마나 안정적이어야 실리콘에 새겨 넣는 게 의미 있을까?”하는 질문을 던지게 만들거든요.

‘추론’ 영역이 전쟁터가 되어 버린 이유

‘학습(Training)’. AI의 라이프사이클에서 정말, 가장 화려한 부분이라고 해도 과언이 아니죠. 그리고 아주 고전적인 고성능 컴퓨팅의 이미지를 가지고 있는 영역이기도 해요 - 거대한 행렬 연산, 엄청난 규모의 클러스터, 대규모 처리량으로 측정되는 성능 같은 것들이요.

반면에, ‘추론(Inference)’은, 쉽게 말하자면, 내가 돈 쓴 ‘청구서’가 날아오는 영역이라고나 할까요? 모델이 배포되고 나면, 벤치마크로는 도저히 재현이 안 되는 지저분하면서도 다양한 실제 사용 환경에서 수백만 번씩 모델이 돌아가죠. 입력받는 프롬프트는 예상을 벗어나고, 컨텍스트 윈도우는 점점 커지고, 시스템 스택에는 검색, 툴 호출, 멀티에이전트 오케스트레이션 같은 레이어들이 계속해서 쌓여갑니다. 이런 하나하나들이 지연 시간, 비용, 그리고 새로운 Failure Point (실패 포인트)를 만들어 냅니다. ‘단 하나의 응답’조차 여러 번의 생성 단계와 중간 추론 과정으로 이어질 수가 있고, 이런 과정에서 결국 우리가 뭐에다가 돈을 내고 있는지가 바뀌게 됩니다.

이런 변화가 중요한 건, 이 과정에서 병목(Bottleneck)이 역시 함께 이동하기 때문이죠.

‘토큰 생성’이라는 작업은, 사용자 입장에서는 ‘순차적’인 작업입니다. 많은 요소들이 병렬화될 수 있지만, 결국 토큰은 하나씩 만들어집니다. 모델의 '지식'은 가중치(Weights)에 담겨 있고, ‘추론’은 끊임없이 가중치를 불러오고 KV 캐시를 읽고 씁니다. 워크로드가 데이터 이동 문제로 제한이 될 때, 데이터 이동을 줄일 수 있게 해 주는 설계를 한다면 더 많은 연산을 할 수 있는 설계보다 더 빠를 수 있습니다 - 설령 그 연산이 더 유연하더라도요.

NVIDIA 스스로도 베라 루빈 발표에서 이 점을 명확히 했습니다. 추론은 이제 통신 집약적이고 시스템에 종속적이기 때문에, 플랫폼의 핵심은 랙 규모의 인터커넥트, 예측 가능한 지연 시간, 높은 활용률, 그리고 컨텍스트와 데이터 이동을 위한 인프라라는 겁니다.

GPU의 현재: 새로운 베이스라인, 베라 루빈(Vera Rubin)

GPU의 기본 개념 자체는 여전히 단순합니다. 대규모의 병렬 연산 코어들이 고대역폭 메모리(HBM)를 활용해서 소프트웨어로 컴파일된 프로그램을 실행하는 것이죠.

최신 데이터센터 GPU 안을 들여다보면, 수십억 개의 트랜지스터가 실리콘 다이 위에 새겨져 있습니다. 이 트랜지스터들이 모여서 수천 개의 경량 처리 코어를 이루는데, 각 코어가 실제 연산을 담당하는 작은 일꾼 역할을 합니다. 이 코어들 옆에는 레지스터, 공유 메모리, 대형 L2 캐시로 이뤄진 온칩 SRAM 계층이 있어서, 외부 메모리에 접근하기 전에 최대한 데이터를 재사용할 수 있는, 고속으로 작동하는 준비 공간 역할을 합니다.

코어들은 적층형 HBM과 함께 같은 패키지에 탑재됩니다. HBM은 수직으로 쌓인 DRAM 레이어들이 실리콘 인터포저로 연결돼 있어서, 저장된 데이터를 연산 코어에 훨씬 빠르게 전달할 수 있습니다.

GPU 위에서 언어 모델을 실행할 때, 모델의 가중치는 HBM이라는 창고에 보관돼 있습니다. GPU가 토큰을 하나씩 만들어낼 때마다, 연산 코어는 창고에서 필요한 가중치를 꺼내오고, 계산 중간에 생긴 결과물은 SRAM과 HBM 사이를 계속 오가게 되고, 어텐션 연산은 KV 캐시를 읽고 쓰는 작업을 반복합니다. 강력하고 유연한 구조이지만, 바로 이 끊임없는 '짐 나르기'가 문제입니다. 실제 계산보다 데이터를 이리저리 옮기는 데 더 많은 시간과 비용이 들 수 있거든요. 추론 비용이 생각보다 비싼 이유가 여기에 있습니다.

GPU가 계속해서 승자의 위치를 점유하는 이유

첫째, 딥러닝의 수학적 구조에 딱 맞습니다. AI 학습의 핵심은 행렬 곱셈 같은 연산을 엄청난 규모로 반복하는 건데, GPU는 원래 게임 그래픽을 위해 수천 개의 작은 계산을 동시에 처리하도록 설계됐고, 이 구조가 딥러닝 연산과 엄청나게 잘 맞아떨어졌습니다.

둘째, 유연합니다. GPU 위에서 모델은 그냥 소프트웨어입니다. GPT를 돌리다가 Llama로 바꾸고, 오늘 나온 새 모델을 내일 바로 올릴 수 있습니다. AI 모델이 몇 달마다 세대교체되는 지금 같은 환경에서, 하드웨어를 바꾸지 않고도 최신 모델을 즉시 쓸 수 있다는 건 엄청난 장점이겠죠.

셋째, 생태계가 있습니다. NVIDIA의 CUDA는 10년 넘게 쌓아온 개발자 생태계를 가지고 있습니다. 전 세계 AI 연구자와 엔지니어들이 CUDA 위에서 코드를 짜고, 라이브러리를 만들고, 문제를 해결해 왔습니다. 경쟁사 칩이 아무리 성능이 좋아도, 이 생태계를 처음부터 다시 쌓아야 한다는 건 너무나도 높은 장벽이죠. 기술 스펙이 아니라 사람과 코드의 문제니까요.

베라 루빈이 바꾼 것: '랙'을 새로운 단위로 생각하다

베라 루빈은, NVIDIA가 ‘랙’을 성능과 효율의 단위로 삼겠다는 새로운 선언입니다. NVIDIA는 베라 루빈 플랫폼을 '6개의 신규 칩'으로 구성된 AI 슈퍼컴퓨터로 소개하면서, 플래그십 모델 베라 루빈 NVL72(Vera Rubin NVL72) 랙을 대형 AI 팩토리 안의 ‘랙 규모 가속기’라는 명칭으로 포지셔닝합니다. 양산은 2026년 하반기에 시작되구요. 이미 '블랙웰 대 도전자들'이라는 구도는 지난 시즌 이야기가 돼버린 거죠.

추론 중심의 관점에서 베라 루빈의 핵심 사양을 정리해 보면:

  • 루빈 GPU: 추론 성능 50 PFLOPS, 패키지당 HBM4 288GB, 저정밀도 추론 포맷 최적화

  • 루빈 NVL72: 72개 루빈 GPU와 36개 베라 CPU(Vera CPU), 커넥트X-9 슈퍼닉(ConnectX-9 SuperNIC), 블루필드-4 DPU(BlueField-4 DPU), NVLink 6 스위칭을 하나로 통합한 랙 규모 시스템

  • NVLink 6: GPU당 3.6 TB/s, 랙당 최대 260 TB/s NVLink 대역폭

  • 토큰당 비용: NVIDIA는 블랙웰 대비 추론 토큰당 비용을 최대 10배 절감할 수 있다고 주장

  • 컨텍스트 인프라: 블루필드-4 기반 추론 컨텍스트 메모리 스토리지 플랫폼을 포함해서, 멀티턴 및 에이전틱 워크로드의 컨텍스트를 저장·관리

블랙웰이 '나쁜' 게 아닙니다. 베라 루빈은 그냥 NVIDIA가 다음 싸움터를 어디로 보는지를 더 선명하게 보여주는 것뿐이에요. 그 싸움터란, 칩 하나의 성능이 아니라 랙 전체가 얼마나 효율적으로 돌아가느냐, 데이터가 칩들 사이를 얼마나 빠르게 오가느냐, 그리고 전력 1메가와트를 쓸 때 실제로 얼마나 많은 토큰을 뽑아낼 수 있느냐라는 거구요.

도전자들 입장에서도 이건 오히려 희소식일 수 있습니다. 베라 루빈 전체를 정면으로 이길 필요가 없거든요. 특정한 추론 환경, 예를 들어서 '하나의 모델을 초고속으로 대량 처리해야 하는 상황'에서만 압도적이면 됩니다. 그 좁은 영역에서 트레이드오프가 납득할 수 있는 수준이라면, 거기에도 충분히 시장이 생길 수 있습니다.

신흥 도전자들: Taalas와 MatX

Taalas: 칩이 곧 모델이 될 때

Taalas는 보기 드문 하드웨어 기업입니다. 대부분의 칩 회사들이 "어떻게 하면 모델을 더 빠르게 돌릴까"를 고민할 때, Taalas는 한 발 더 나아가서 "배포(Deployment)라는 것 자체를 다시 정의할 수 있지 않을까"라는 질문을 던집니다. 그리고 그 답으로 내놓은 베팅은 단순명쾌합니다. 모델을 하드웨어 위에서 실행하는 게 아니라, ‘모델 자체를 하드웨어로 만들어버리자’는 것인데요, 말로 하면 쉽지만, 실제로 해내는 건 전혀 다른 이야기잖아요?

Image Credit: Taalas HC1 hard-wired with Llama 3.1 8B model, “The path to ubiquitous AI” Taalas 블로그 포스트

Taalas가 제안하는 건 ‘발상의 전환’입니다. 기존의 방식은 하드웨어를 먼저 만들고, 그 위에서 모델을 실행합니다. Taalas는 반대로 접근합니다. 모델을 하드웨어 안에 직접 새겨버리는 것입니다. 이걸 그들은 하드코어 모델(Hardcore Models, HC)이라 부릅니다. 저희는 '모델-애즈-하드웨어(Model-as-Hardware)', '모델이 곧 하드웨어'라는 표현이 가장 정확하다고 생각합니다.

여기서 중요한 건, Taalas가 단순히 전용 칩인 ASIC을 쓴다는 게 아닙니다. 요즘 많은 AI 칩 회사들이 ASIC을 씁니다. Taalas가 다른 이유는, 그 ASIC을 "AI 연산 전반"이 아니라 "특정 모델 하나"에 맞춰서 설계한다는 점이예요. GPT-4를 위한 칩, Llama를 위한 칩, 이런 식으로요. 범용이 아니라 특정 모델에 완전히 최적화된 하드웨어인 거죠.

제조의 비결: 마지막 두 레이어만 바꾼다

반도체 칩을 처음부터 새로 만들려면 보통 1~2년이 걸리는데, Taalas는 이 문제를 영리하게 우회합니다. 약 100개의 레이어로 구성된 칩을 거의 완성된 상태로 미리 만들어 두고, 마지막 두 개의 금속 레이어에서만 특정 모델에 맞게끔 회로를 새겨넣는 방식입니다. TSMC에서 이 마무리 작업을 완료하는 데 걸리는 시간은 약 두 달. 반도체 업계 기준으로는 엄청나게 빠른 속도죠.

이 속도가 왜 중요할까요? '모델을 칩에 굽는다'는 개념이 그냥 멋진 아이디어가 아니라 실제로 굴러가는 사업 모델로 바뀌기 때문이예요. 모델이 바뀔 때마다 두 달 안에 새 칩을 만들 수 있다면, 이건 마치 소프트웨어 배포하듯이 하드웨어를 찍어내는 것에 가까워집니다.

그리고 여기서 자연스럽게 핵심 질문이 따라옵니다. 모델이 얼마나 오래 안정적으로 쓰여야 이 방식이 경제적으로 말이 될까요? 두 달을 투자해서 칩을 만들었는데 석 달 만에 모델이 바뀐다면, 이 베팅은 성립하지 않을 테니까요.

HC1: Llama 3.1 8B를 칩에 구워버린 시스템

Taalas의 첫 번째 제품 HC1은 Meta의 Llama 3.1 8B 모델 전용으로 만들어진 칩입니다. 8B짜리 모델 전체가 손바닥만 한 단일한 칩 위에 통째로 올라가 있고, 모델의 가중치는 칩 안에 물리적으로 새겨져 있습니다. 소프트웨어가 아니라 회로 그 자체로요. 파인튜닝처럼 일부 업데이트가 필요한 부분만 따로 SRAM 공간을 써서 유연성을 확보했구요.

성능은 사용자당 초당 16,000~17,000 토큰인데, chatjimmy.ai에서 직접 써보시면 이 숫자가 체감됩니다. 간단한 게임 하나를 0.06초 만에 뚝딱 만들어냅니다. 눈 깜짝할 사이도 아니고, 생각하는 사이도 아닙니다. 그냥 즉각 나오는 수준인 거예요.

비교 대상을 하나 드려보자면, OpenAI의 최신 코덱스-스파크(Codex-Spark)가 초당 1,200 토큰입니다. HC1은 그보다 약 13배 빠른 겁니다.

Image Credit: “The path to ubiquitous AI” Taalas 블로그 포스트

Taalas가 내세우는 장점은 ‘더 빠르고, 전력은 덜 쓰고, 파인튜닝도 된다’는 세 가지인데, 어떻게 이게 가능한 걸까요?

왜 빠를 수 있는가: 데이터를 옮기는 일 자체를 없애버렸다

Taalas의 이야기는 결국 메모리 이야기입니다.

일반적인 GPU에서 AI 추론이 어떻게 돌아가는지 먼저 생각해보죠. 모델의 가중치는 HBM이라는 창고에 있고, 연산이 필요할 때마다 창고에서 꺼내와 계산하고, 결과를 다시 넣고, 또 꺼내고를 반복합니다. 이 과정에서 데이터는 커널, 스케줄러, 메모리 계층 같은 소프트웨어 레이어들을 거쳐 이동합니다. 유연하고 강력하지만, 이 '짐 나르기' 자체가 속도와 비용을 갉아먹습니다.

Taalas는 이 구조를 근본부터 바꿨습니다. 가중치가 창고에 있는 게 아니라 칩 회로 자체에 새겨져 있으니, 꺼내올 것도 없고, 옮길 것도 없고, 스케줄링할 것도 없습니다. 모델이 바뀌지 않는다면 그 모든 반복 작업이 애초에 필요 없으니까요.

핵심을 한 문장으로 정리하면: 칩이 모델을 실행하는 게 아니라, 칩 자체가 모델이라는 겁니다.

Image Credit: This chip runs a “baked” Llama so fast it looks like a glitch (Taalas HC1), Turing Post Youtube video

반도체 역사에서 비슷한 방식이 없었던 건 아닙니다. 하지만 이걸 AI 모델에 적용한 건 Taalas가 처음입니다. AI 추론의 가장 큰 병목이 '계산'이 아니라 '데이터 이동'에 있다면, 데이터 이동 자체를 없애버리겠다는 이 접근법은, 이론적으로는 엄청나게 이례적인 결과를 낼 수 있습니다. 그리고 실제로 냈고요.

트레이드오프, '단점'이 아니라 이 베팅의 본질

Taalas의 접근법에는 분명한 한계가 있습니다. 그리고 이건 나중에 해결하면 될 엔지니어링 문제가 아니라, 이 모델 자체가 안고 가야 할 근본적인 조건입니다.

  • 첫째, 유연성을 포기해야 합니다. GPU는 다용도 공장입니다. 오늘은 Llama를 돌리고, 내일은 GPT 계열 모델을 올리고, 모델이 업데이트되면 소프트웨어만 바꾸면 됩니다. 반면 HC1은 가전제품에 가깝습니다. 세탁기를 갑자기 식기세척기로 바꿀 수 없듯이, 다른 모델을 쓰고 싶으면 새 칩을 만들어야 합니다. 두 달이라는 제작 기간이 GPU보다 훨씬 빠르다 해도, 결국 하드웨어를 새로 찍어야 한다는 이야기입니다.

  • 둘째, 모델이 자주 바뀌면 곤란합니다. 실제 서비스 환경에서 AI 모델은 생각보다 훨씬 자주 바뀝니다. 안전 문제가 생기면 패치를 해야 하고, 데이터가 쌓이면 재학습을 하고, 경쟁사가 더 좋은 모델을 내놓으면 갈아타야 합니다. 모델 교체 주기가 한 달이라면, 두 달짜리 칩 제작 사이클은 항상 한 발 늦는 셈입니다. 반대로 1년 이상 같은 모델을 안정적으로 운영할 수 있는 환경이라면, 이야기가 달라집니다.

  • 셋째, 큰 모델로 갈수록 복잡해집니다. 8B짜리 모델을 칩에 굽는 것과, DeepSeek R1 같은 대형 추론 모델을 굽는 건 차원이 다른 이야기입니다. EE Times에 따르면 그 규모로 가면 수십 번의 테이프아웃이 필요할 수 있습니다. 한 번에 두 레이어만 바꾸면 된다 해도, 그걸 수십 번 반복해야 한다면 '빠르고 저렴하다'는 장점이 상당 부분 희석됩니다.

"30번의 점진적 테이프아웃이 필요한데, 마스크가 두 개뿐이라 비교적 저렴합니다. 이 아이디어의 핵심 전제는 고객이 이 [칩/모델]을 1년간 유지할 의향이 있다는 가정입니다. 그게 싫은 사람들도 분명 많겠지만, 싫지 않은 사람들도 있을 겁니다."

Taalas CEO 겸 CTO 류비사 바직(Ljubisa Bajic), EE Times 인터뷰

  • 넷째, 빠른 대신 답변 품질을 일부 포기합니다. 속도를 극한까지 끌어올리려면 타협이 필요합니다. HC1은 가중치를 저장할 때 일반적인 방식보다 훨씬 적은 비트수로 압축하는 양자화(Quantization) 방식을 씁니다. 쉽게 말하면, 원본 데이터를 손실 압축하는 것과 비슷합니다. 덕분에 칩을 더 작게 만들고, 전력도 덜 쓰고, 더 빠르게 돌릴 수 있지만, 압축 과정에서 정보가 일부 손실되니까, GPU에서 돌리는 것보다 답변 품질이 떨어질 수 있습니다. 2세대 HC2는 이 압축 방식을 개선해 품질 격차를 좁히고 있다고 합니다.

  • 다섯째, '초당 토큰 수'라는 숫자를 액면 그대로 믿으면 안 됩니다. 16,000토큰이라는 숫자는 아주 인상적이지만 이 숫자는 조건에 따라 크게 달라집니다. 질문이 짧은지 긴지, 동시에 몇 명이 쓰는지, 어떤 방식으로 측정했는지에 따라 전혀 다른 숫자가 나올 수 있습니다. 즉 이 숫자는 "이런 아키텍처가 이 정도까지 가능하다"는 가능성의 증거로만 이해해야 합니다. 내가 쓰는 환경에서도 똑같이 나온다는 보장은 아닙니다.

그렇다면, Taalas는 어떤 경우에 맞나

Taalas가 진짜 빛을 발하는 상황은 꽤 구체적입니다. 아래 조건들이 모두 해당된다면, Taalas는 GPU보다 훨씬 나은 선택이 될 수 있습니다.

  • 트래픽의 대부분을 하나의 모델이 처리하고, 그 모델을 최소 1년 이상 안정적으로 유지할 수 있다

  • 응답 속도가 서비스의 핵심 경쟁력이다 (예: 실시간 음성, 게임, 자율주행)

  • 토큰 하나를 생성하는 데 드는 비용과 전력이 사업의 수익성을 직접 좌우한다

  • 모델 업데이트를 즉흥적으로 하는 게 아니라, 미리 계획된 일정에 따라 진행할 수 있다

반대로 모델을 자주 바꿔야 하고, 여러 모델을 동시에 돌려야 하는 환경이라면 GPU가 여전히 더 단순하고 현실적인 답입니다.

이게 바로 이 이야기의 핵심입니다. Taalas가 GPU를 완전히 대체하는 게 아닙니다. 추론 하드웨어 시장이 쓰임새에 따라 여러 갈래로 나뉘고 있다는 것, 그리고 어떤 칩 하나가 모든 상황에서 최선일 수는 없다는 것, 그 ‘분화’가 지금 막 시작된 겁니다.

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

MatX: GPU를 정면으로 이기겠다는 도전자, 그러나 아직은 다크호스

Taalas가 '특정한 모델 하나에 모든 것을 건 극단적 특화'라면, MatX는 반대 방향에서 접근합니다. 모델을 칩에 가둬버리는 대신, GPU처럼 다양한 모델을 자유롭게 돌릴 수 있으면서도 LLM만큼은 GPU보다 확실히 잘하는 칩을 만들겠다는 것입니다. 어떻게 보면 이게 현재 모두가 원하는 꿈의 칩일 지도 모르죠.

MatX는 최근 시리즈 B로 5억 달러를 조달했는데, 목표는 명확합니다. NVIDIA GPU보다 LLM 학습과 추론에서 10배 뛰어난 칩, MatX One입니다.

MatX One이 GPU의 어떤 한계를 공략하는지 보면:

  • 실제 추론 환경에 맞는 설계: GPU는 데이터를 엄청나게 쌓아놓고 한꺼번에 처리할 때 가장 효율적입니다. 하지만 실제 추론은 그렇지 않습니다. 사용자 한 명이 질문 하나를 던지는 상황이 대부분이죠. MatX One은 이런 '얇고 가느다란' 연산에서도 칩 전체가 효율적으로 돌아가도록 설계됐습니다.

  • 빠른 응답과 긴 컨텍스트를 동시에: 즉각적인 응답을 위한 온칩 SRAM과, 긴 대화나 문서 처리를 위한 HBM을 함께 써서 두 마리 토끼를 잡으려고 합니다.

  • 새로운 수치 포맷: 구체적인 내용은 공개되지 않았지만, 보통 이 부분에 가장 핵심적인 설계 결정이 숨어있습니다.

그런데 왜 '다크호스'냐고요? 지금 실제로 존재하는 건 약속, Jane Street와 안드레이 카르파시(Andrej Karpathy) 같은 거물들의 투자, 그리고 설계 의도 뿐입니다. 실제 제품은 아직 없고, 출시는 2027년 쯤으로 예상됩니다. '칩 설계를 마친다'는 것과 '실제 고객이 24시간 믿고 돌릴 수 있는 시스템을 만든다'는 건 완전히 다른 이야기잖아요? 컴파일러도 짜야 하고, 커널도 최적화해야 하고, 안정성도 검증해야 합니다.

그럼에도 불구하고 MatX가 중요한 이유는, 이 회사가 하나의 카테고리를 대표하기 때문입니다. GPU를 완전히 대체하겠다는 게 아니라, LLM에 한해서만큼은 GPU보다 명확히 낫다는 걸 증명하겠다는 방향. 약속 자체는 매력적입니다. 문제는 반도체는 만들기 어렵고, 생태계는 그보다 더 어렵다는 겁니다.

추론 칩 시장의 나머지 플레이어들

Taalas와 MatX는 양 극단을 대표하는 사례들이고, 당연하게도 시장에는 이 둘만 있는 게 아닙니다. 각 회사가 무엇을 최우선으로 최적화하는지를 기준으로 묶어보면 전체 그림이 훨씬 선명해집니다.

직접 만들어 직접 쓴다: Google TPU 아이언우드(Ironwood)

Google의 접근법은 단순합니다: 직접 칩을 설계하고, 자사의 데이터센터에 대규모로 깔고, 클라우드 서비스로 제공하는 것. 외부 칩 회사에 의존하지 않고 처음부터 끝까지 수직으로 통합하는 방식입니다.

아이언우드는 Google의 7세대 TPU로, 처음으로 추론만을 위해서 설계된 TPU입니다. 최대 9,216개의 칩을 하나의 클러스터로 묶어 운영할 수 있고, 복잡한 추론과 '생각하는' AI 모델에 초점을 맞췄습니다.

Image Credit: “In-Datacenter Performance Analysis of a Tensor Processing Unit” 논문

이 칩이 중요한 이유는 성능 스펙 때문만이 아닙니다. 세상에서 AI를 가장 많이 돌리는 회사 중 하나인 Google이 추론 전용 칩을 따로 만들었다는 사실 자체가 시장에 신호를 보내는 거죠, 바로 ‘추론이 이제 범용 하드웨어로 때우는 영역이 아니’라는 신호 말이죠.

그 신호를 가장 극적으로 보여준 사건이 2025년 10월 있었습니다. Anthropic이 Google TPU 최대 100만 개를 쓰는 계약을 체결한 겁니다. 전력으로 환산하면 1기가와트가 넘는 규모로, AI 인프라 역사상 가장 큰 단일 계약 중 하나입니다.

AWS 인퍼런시아2: 클라우드 안에서 조용히 GPU를 밀어내다

Google이 자체 칩을 만들어서 자사 인프라에 깔아버리는 방식이라면, AWS는 조금 다른 전략을 씁니다. GPU를 완전히 없애겠다는 게 아니라, '굳이 GPU를 안 써도 되는 워크로드'를 하나씩 가져오겠다는 것입니다. 그 도구가 바로 인퍼런시아2(Inferentia2)입니다.

같은 가격대의 일반 서버 대비 처리 속도 최대 4배, 응답 지연 최대 10배 감소, 전력 효율 최대 50% 개선, 이런 수치만 보면 꽤 인상적인데요. AWS가 세계 클라우드 시장의 기본 인프라라는 점을 생각하면, 인퍼런시아가 그 시장의 일부만 가져가도 업계 전체의 '적정 추론 비용' 기준이 바뀔 수 있을 겁니다.

Groq: 그리고 NVIDIA가 경쟁사 기술을 사들인 이유

Groq은 ‘무조건 빠르게, 그리고 예측 가능하게’라는 키워드에 집중했습니다. Groq의 LPU(Language Processing Unit)는 LLM 추론만을 위해서 설계된 칩으로, 응답 시간이 들쭉날쭉하지 않고 항상 일정하게 빠른 게 특징입니다.

Image Credit: What is a Language Processing Unit? (Groq Whitepaper). GPU is on the left, LPU is on the right

그런데 최근에 흥미로운 일이 있었습니다. NVIDIA가 Groq의 추론 기술을 라이선스하고, Groq 창업자와 사장을 영입했습니다. 세계 최강의 GPU 회사가 추론 전문 스타트업의 기술을 사들인 겁니다. 이 한 가지 사실만으로도 많은 걸 생각하게 합니다. 추론 특화 기술은 더 이상 GPU의 아류가 아니라는 것, NVIDIA 스스로가 그걸 인정한 셈이라고 하겠습니다.

d-Matrix 코세어: 창고를 없애고 일꾼 옆에 재료를 두다

앞서 계속 나온 이야기지만, AI 추론의 가장 큰 병목은 계산 자체가 아니라 데이터를 이리저리 옮기는 과정입니다. d-Matrix의 코세어(Corsair)는 이 문제를 가장 직접적인 방식으로 공략합니다. 데이터를 멀리 있는 창고(외부 메모리)에서 꺼내오는 대신, 연산이 일어나는 곳 바로 옆에 붙여놓자는 겁니다.

Image Credit: “Matrix Corsair Redefines Performance
and Efficiency for AI Inference at Scale” 백서

기술적으로 설명하면, 코세어는 연산 칩과 고속 메모리를 하나의 PCIe 카드에 함께 탑재한 제품입니다. 3,200mm²의 실리콘 위에 초당 150TB의 대역폭을 제공하는 2GB 온칩 고속 메모리와 최대 256GB의 오프칩 대용량 메모리를 함께 탑재하고 있고, MXINT 포맷 기준의 고밀도 연산 성능을 갖추고 있습니다.

수치는 마케팅일 뿐이니까 그대로 믿을 필요는 없지만, 방향성은 분명합니다. 데이터가 칩 밖으로 나갔다 들어오는 횟수를 줄이면 그만큼 빠르고 저렴해진다는 거예요. HBM이 비싸고, 전력을 많이 먹고, 수급도 불안정한 현실에서 이 방향은 점점 더 설득력을 얻고 있습니다.

Cerebras WSE-3: 칩을 웨이퍼 크기로 만들어버리면 어떨까

Cerebras는 아예 다른 질문을 던졌습니다. 칩 여러 개를 연결하는 게 복잡하고 느리다면, 그냥 칩 하나를 웨이퍼 전체 크기로 만들면 어떨까 하는 거였죠.

WSE-3(Wafer Scale Engine 3)은 그 질문에 대한 Cerebras의 답입니다. 일반 GPU 수십 개를 합친 크기의 단일 칩에 4조 개의 트랜지스터, 90만 개의 AI 코어, 44GB의 온칩 SRAM이 들어갑니다. 칩들 사이를 데이터가 오가는 과정 자체가 없으니까, 조율하기 위해 필요한 오버헤드도 없고 메모리 병목도 구조적으로 줄어듭니다.

Image Credit: Cerebras Wafer-Scale Engine (WSE) 데이터

주로 학습용으로 알려져 있지만, 같은 이유로 추론에도 유효합니다. 극단적인 발상이지만, 그 극단이 실제로 작동한다는 게 Cerebras의 존재 이유라고 해야 할지 모르겠네요.

'GPU 시대의 균열'이 실제로 의미하는 것

GPU의 독점적 구도가 올해 안에 끝난다는 극적인 이야기를 쓰고 싶은 마음이 들 수도 있습니다만, 현실은 그보다 훨씬 복잡하고, 그래서 더 흥미롭습니다. GPU가 한순간에 무너지는 게 아니라, 쓰임새에 따라 시장이 조금씩 갈라지고 있는 거라고 봐야 할 것 같습니다. 그리고 그 분열이 가장 먼저, 가장 뚜렷하게 나타나는 곳이 바로 ‘추론’ 영역입니다.

세 플레이어의 답을 나란히 놓으면 그림이 좀 더 선명해지죠.

NVIDIA 베라 루빈은 추론을 칩 하나의 문제가 아니라 시스템 전체의 문제로 다룹니다. 랙 전체를 하나의 가속기로 보고, 칩들 사이의 데이터 이동과 컨텍스트 관리까지 설계 안에 집어넣었습니다.

MatX는 GPU와 같은 링 위에서 싸웁니다. 다양한 모델을 자유롭게 돌릴 수 있는 유연함은 유지하되, LLM에 한해서만큼은 GPU보다 확실히 낫다는 걸 증명하겠다는 겁니다.

Taalas는 가장 다른 방향을 봅니다. 모델이 충분히 안정적이라면, 굳이 범용 하드웨어를 쓸 이유가 없습니다. 모델을 칩에 구워버리고 그 모든 오버헤드를 없애버리겠다는 겁니다 - 단, 유연성을 포기하는 대가를 치러야 할 겁니다.

이 세 가지 베팅은 서로를 무너뜨리는 관계가 아닙니다. 각자 다른 환경, 다른 조건, 다른 우선순위에 최적화된 답을 내놓고 있을 뿐입니다. 그리고 그 세 가지가 동시에 시장에서 살아남을 수 있다는 것, 그게 지금 AI 하드웨어 시장이 진짜로 흥미로워지고 있는 이유가 아닐까 싶네요.

맺으며: 이제 경쟁의 기준은 '실제로 얼마나 싸게 토큰을 뽑아내느냐'

GPU 시대, 물론 아직 끝나지 않았습니다. 하지만 GPU 하나가 모든 걸 지배하던 시대는 서서히 저물고 있습니다.

NVIDIA는 칩 단위에서 랙 단위로, 그리고 이제 시스템 전체로 경쟁의 무게중심을 옮기고 있습니다. Google, AWS 같은 하이퍼스케일러들도 자체 칩을 만들며 같은 방향으로 가고 있습니다. 스타트업들은 그 틈새를 파고들고 있고요. LLM이라면 GPU보다 낫겠다는 MatX, 모델을 아예 칩으로 만들어버리겠다는 Taalas까지 말이죠.

앞으로 이 시장을 지켜보실 때, 한 가지만 기억하세요. 최대 연산 성능(FLOPS)이라는 숫자 하나에 현혹되지 마세요. 그 숫자는 점점 의미를 잃고 있습니다.

대신 이걸 보세요. 토큰 하나를 만드는 데 실제로 얼마가 드는지, 긴 대화나 복잡한 요청을 처리할 때 응답이 얼마나 빠른지, 그리고 실제 서비스 환경에서 이 칩들이 어떻게 쌓이고 조합되는지를요.

다음 세대 추론 하드웨어의 승자는 바로 거기서 가려질 겁니다. 화려한 발표 자리가 아니라, 매달 쌓이는 인프라 청구서를 바라보는 눈길에서요.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

  • 주간 AI 뉴스레터

  • AI 유니콘 기업들에 대한 심층 분석 기사

  • AI 기술, 산업, 정책 전문가 인터뷰

  • AI 기술 및 산업에 대한 심층 분석 시리즈

  • 분석 기사 요청 및 튜링 포스트 코리아 기고 기회 제공

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.