• Turing Post Korea
  • Posts
  • 생성형 AI 확산의 진짜 걸림돌: PMF, 자칫하면 파산의 시작점이 될 수도.

생성형 AI 확산의 진짜 걸림돌: PMF, 자칫하면 파산의 시작점이 될 수도.

Fireworks AI의 린 차오(Lin Qian)와 한, 흥미로운 인터뷰

오늘은 Fireworks AI의 공동창업자이나 CEO, 린 차오와의 인터뷰입니다.

Fireworks AI. 2022년에 메타에서 PyTorch와 AI 인프라를 이끌었던 핵심 멤버들이 모여서 설립한 스타트업입니다. Fireworks가 집중하는 영역은 모델의 훈련(Training)이 아니라 추론(Inference)인데요, 추론이야말로 전세계의 사용자와 개발자가 동시에 쓰는 기능이라서 훨씬 더 복잡하고 비용 부담도 크기 때문이라고 합니다. Fireworks는 추론(Inference)의 품질·속도·비용을 동시에 최적화하는 ‘3D 옵티마이저’를 개발해서 기업들이 효율적으로 생성형 AI 애플리케이션을 운영할 수 있도록 돕고 있습니다. 특히 오픈 모델 생태계와 기업별 데이터 Alignment를 통해서 ‘누구나 쉽게 AI를 활용해서 새로운 가치를 만들 수 있는 세상’을 만들겠다는 것이 Fireworks의 비전이라고 합니다.

오늘 나누는 이야기들은 아래와 같습니다:

  • 생성형 AI(GenAI)에서는 왜 PMF(Product-Market Fit)가 곧 파산의 시작점이 될 수 있는가

  • 수면 아래 숨겨져 있는 빙산, GPU 비용

  • 추론(Inference)은 연구자가 아니라 사용자 수에 비례해 확장된다

  • 2025년은 AI 에이전트의 해: 코딩, 채용, SRE, 고객 서비스, 의료, 마케팅 분야의 에이전트들

  • 오픈 모델 vs. 폐쇄형 모델 – 중국의 연구소들이 새로운 벤치마크를 리드하고 있는 이유

  • 곧 다가올, 100배 더 효율적인 AI 인프라의 시대

이 인터뷰를 통해서 추론, 데이터 Alignment, 그리고 AI 인프라의 미래에 대한 비전, 더불어 Lin이 스스로의 두려움을 극복한 개인적인 여정도 들어보실 수 있습니다.

자, 그럼 인터뷰 시작합니다!

Q. 안녕하세요, Lin. 오늘 시간 내 주셔서 감사합니다. 이전에 앤드류 응 교수님이 ‘AI는 전기다’라는 이야기를 하신 적이 있는데요. 오늘의 맥락으로 이야기를 하자면, ‘추론(Inference)이 전기가 되었다’라고 해도 될 것 같습니다. 그런데 진짜 언제쯤 추론(Inference)이 마치 오늘 우리가 전기를 사용하듯이 - 믿을 수 있고, 저렴하고, 우리 눈에 막 띄지 않는 서비스로 - ‘해결된 문제’가 될까요? 지금 있는 장벽은 어떤 건가요?

불러주셔서 고맙습니다. 재미있는 질문이예요. 추론의 최적화와 관련된 작업은, 이제 막 시작 단계에 있다고 생각합니다. 여러 가지의 차원을 동시에 살펴봐야 하는데, 저는 우리 Fireworks AI에서 가장 중요하게 여기는 ‘실제 오퍼레이터’의 관점에서 말씀드리고 싶어요.

생성형 AI(GenAI)가 혁신적인 기술이라는 건 분명합니다. 사람의 수준과 비슷하거나 또는 그보다 나은 상호작용 경험을 만들어내기까지도 하죠 - 엄청난 가치라고 생각합니다. 앞으로 이 기술을 기반으로 완전히 새로운 사용자 경험을 정의하는 새로운 세대의 기업들이 탄생할 것이고, 산업을 뒤흔들고, 우리가 소프트웨어와 상호작용하는 방식을 바꿀 것이라고 예상하고 있어요.

하지만 흥미로운 현상이 있어요. 전통적인 스타트업에서는 PMF(제품-시장 적합성; Product-Market Fit)를 달성하면 대체로 바로 스케일업을 하면서 비즈니스가 성장합니다. 그런데 생성형 AI 애플리케이션에서는 PMF라는 것과 ‘실질적으로 지속 가능한 비즈니스’를 만드는 일은 전혀 다른 문제라는 거예요.

새로운 사용자 경험을 만들어내더라도, 곧장 비즈니스로 스케일업하기는 어려운 경우가 많습니다. 바로, GPU 관련 인프라와 운영 비용이 전통적인 CPU 기반 앱보다 수십 배 더 비싸기 때문이죠.

많은 기업들이 “제품에 대한 확신도 있고, 시장에서의 시그널도 좋고, 대기자 명단이 수백만 명이나 된다. 하지만 문을 열 수가 없다. 열면 곧 파산한다”라고 말해요. 즉, 생성형 AI에서는 PMF 달성이 오히려 진짜 파산의 시작이 될 수도 있는 겁니다.

Q. 정말 새로운 상황이네요.

맞아요. 아주 근본적인 차이라고 할 수 있어요. 이걸 빙산(Iceberg)에 비유하곤 하는데요. 지금 생성형 AI 애플리케이션이라는 거대한 빙산이 만들어지고 있지만, 대부분은 아직 수면 아래에 잠겨 있습니다. 바로, 인프라 비용이 너무 높기 때문이죠.

만약 그 비용이 10배 줄어든다면, 수면 위로 드러나게 될 애플리케이션의 수가 폭발적으로 늘어날 것이고, 바로 그게 우리가 향해야 할, 향하고 있는 미래겠죠.

그 비용을 줄이는 방법에는 여러 가지가 있는데, 저희 Fireworks AI에서 선도적인 애플리케이션 기업들과 협력하면서 발견한 점을 공유드릴까 합니다.

Q. 좋아요. Fireworks에서는 어떻게 이 수면 아래에 있는 빙산의 얼음을 줄여 나가고 있나요?

핵심은 두 가지 데이터 집합 간의 근본적인 불일치(Misalignment)라고 봐요.

하나는, 연구소에서 파운데이션 모델(Foundation Model)을 학습시키는 데 쓰이는 데이터구요. 연구자들이 목표를 설정하고 문제를 정의하고, 데이터셋을 큐레이션해서 원하는 결과를 만들어 내죠.

다른 하나는 애플리케이션 개발자들이 수집하는 데이터입니다. 이 사람들의 목표는 사용자 참여(Engagement)를 극대화할 수 있는 제품을 설계하는 것이고, 이걸 위해서 여러 가지 기능을 실험하고 사용자 데이터를 모으죠. 이 두 가지 데이터셋이 보여주는 ‘데이터 분포(Distrbution)’는 전혀 다른 목적을 가지고 만들어진, 서로 다른 뭔가예요.

그래서 결국 개발자들이 파운데이션 모델을 가져다 제품에 적용할 때, 이 불일치(Misalignment)를 고스란히 떠안게 되고, 여기에 정확도, 지연 시간(Latency), 효율성에서의 격차가 발생하는 근본 원인이 있어요.

새롭게 등장하는 아주 젋은 기업들 중에 일부는 이 격차를 해소하는 방법을 나름대로 고민하고 터득하고 있어요 - 예를 들어, 제품 데이터를 모델에 Align 시켜가면서 더 빠르고, 저렴하게 정확한 시스템을 구축하는 거죠. 그 덕분에 PMF를 넘어서 실질적인, 영속적인 비즈니스로 확장할 수 있다고 봅니다. 그렇지만, 여전히 대다수의 기업은 모델을 단순한 ‘유틸리티’로 취급하고 API 요청만 보내고 있는 게 현실이예요.

저희 Fireworks는, 바로 이 정렬의 격차(Alignment Gap)를 메워주는 데 집중하고 있습니다.

Q. 그렇군요. Fireworks AI에 대해서 좀 이야기를 해 볼까요? 설립이 2022년 10월, ChatGPT 릴리즈가 되기 직전이라고 할 수 있는데요. 왜 그 시점이었나요? 그리고 생성형 AI 붐 이후에, 회사의 비전이라든가 접근법에 변화가 혹시 있었나요?

저희 회사의 경우에 창업팀의 규모가 꽤 크고, 다들 메타에서 7~10년 동안 근무하면서 AI 인프라를 바닥에서부터 구축해 본 경험이 있는 팀이예요. Fireworks를 2022년 9월에 시작할 때, 훈련(Training) 쪽에 집중할 건지, 추론(Inference) 쪽에 집중할 건지 중에 하나를 선택하겠다는 고민이 있었구요.

당시에 많은 경우에 모델의 훈련, 훈련 인프라 같은 쪽에 집중하는 것이 현실이었지만, 저희는 전략적으로 추론에 올인했습니다. 이유는 간단해요 - ’훈련은 연구자들이라는 소수 집단을 대상으로 스케일링하는 거지만, 추론은 전 세계 인구 전체가 그 상한선이 되는 스케일링이기 때문이예요. 즉, 프로덕션 요구사항도 훨씬 높고 복잡성도 크죠. 저희는 바로 이런 문제를 풀고 싶었습니다.

돌이켜 보면, 이 때의 선택 덕분에 저희 회사는 추론 스택에서 가장 정교한 툴 체인을 쌓아 올릴 수 있었고, 지금은 감히 최고의 추론 (Inference) 서비스 제공자가 될 수 있었다고 하고 싶네요.

저희의 접근 방식은, 앞서서 언급한 Alignment 문제와도 연결이 됩니다. “One size fits all”이 아니라 “One size fits one.”이라는 생각이죠. 각 애플리케이션마다 워크로드의 패턴과 특성이 다 다르고, 따라서 저희는 각각 필요한 경우에 맞춰 최적화를 합니다.

데이터베이스를 떠올리면 쉽습니다. 데이터베이스도 모든 쿼리를 똑같이 처리하지 않고, 쿼리 옵티마이저(Query Optimizer)를 통해서 최적의 실행 계획을 찾잖아요? 저희도 똑같이 하지만, 물론 훨씬 더 복잡한 과정을 거치구요.

저희가 만든 것이 바로 3D 옵티마이저(3D Optimizer)입니다. 품질, 속도, 비용 ― 이 세 차원을 동시에 최적화합니다. 선택지와 조합이 수십만 가지에 달하는데, 그 중에 단 하나의 바늘을 찾아내는 작업이죠. 다행히 저희 팀은 이런 종류의 문제 해결을 잘 하는 팀이예요. 오늘날 거의 모든 Fireworks 고객이 저희 3D 옵티마이저를 사용하고 있습니다.

3D Optimizer의 철학: 품질, 속도, 비용의 밸런스를 맞춘다. Image Credit: Fireworks AI

Q. 기업 고객들에게 이렇게 복잡한 기술을 설명하는 게 쉽지만은 않을 것 같은데요.

그런 복잡한 기술적인 설명은 저희가 고민해야 하는 영역일 뿐이구요. 기업 고객과 이야기를 나눌 때는, 궁극적으로는 비즈니스 가치와 사례로 연결해서 설명하죠.

예를 들어볼께요. 지금 현재 가장 큰 화두는 에이전트(Agent)잖아요. 스타트업이든 대기업이든 모두 에이전트를 만들고 있어요. 예를 들어서, 코딩 에이전트는 개발자의 생산성을 획기적으로 높여 주고요. 채용 에이전트는 채용 공고를 만들고, 후보자를 찾고, 면접을 진행하고, 성과를 평가해요. SRE 에이전트(Site Reliability Engineering Agent)는 서비스 장애가 발생했을 때 디버깅을 하고 문제를 분류합니다. 고객 서비스 에이전트도 엄청난 관심을 받고 있는데, 어떤 기업은 2만 명 이상의 상담원을 두고 있습니다. 그런 회사 상담원들의 생산성이 향상되면 엄청난 비용 절감 효과로 이어지죠. 또 마케팅 에이전트는 특정 고객층을 겨냥한 아웃바운드 캠페인을 자동으로 설계합니다. 이렇게 에이전트를 도입하는 건 의료, 소매, 교육, 금융 등 다양한 산업으로 확산되고 있어요.

그래서 저희가 주로 기업 고객과 이야기할 때, 저희 3D 옵티마이저의 효과를 이런 에이전트를 개발하고 운용할 때의 사례를 통해서 보여줍니다. 당연하게도, 단순히 기술적인 설명만 하는 것보다 훨씬 효과적이구요.

Q. 모델 이야기도 궁금합니다. 범용의 거대 모델과 소규모 특화 모델 중에 어느 쪽을 선호하시나요?

우선, 저희는 개방형(Open) 모델을 중심으로 개발을 진행한다는 확고한 입장을 가지고 있습니다. 개방형 모델은 기업에 투명성과 통제권을 제공하고, 그 점이 기업들에게 아주 중요합니다.

그렇다고 해서 사용자의 목표가 ‘오픈 모델을 성공시키는 것’은 아니겠죠. 비즈니스 문제를 해결하고, 임팩트를 내는 것이 중요한 것이니까요. 그래서 기업 고객이 어떤 모델을 원하든, 저희는 AI 게이트웨이라는 개념을 제안합니다. 원하는 모델 프로바이더와 연결할 수 있는 일종의 조리법(Cookbook) 같은 것이고, Fireworks는 그 중에 하나일 뿐이예요.

저희 회사는 ‘스택을 표준화’하는 걸 도와드린다고 할 수 있고, 또 기업 고객에게 비공개의 평가 벤치마크를 제공해서, 서로 다른 모델을 공정하게 비교할 수 있도록 해 드립니다. 어떤 경우에는 폐쇄형 모델이 더 나을 수도 있구요. 그런 경우에는 보고서를 그대로 보여주고 고객이 선택하도록 합니다. 반대로 오픈 모델을 튜닝해서 최고의 품질을 내고 싶다면, 저희가 필요한 도구를 제공해 드립니다.

원칙은 단순합니다. 고객을 고객이 서 있는 자리에서 만나고, 특정 벤더의 프레임에 억지로 끌어들이지 않는다는 겁니다.

Q. 설명 고맙습니다. 최근에 중국 연구소들의 성과가 눈에 띄는데요. DeepSeek R1, Kimi K2, Zhipu의 GLM 등은 모두 모델에 대한 접근법, 그리고 성능 관점에서 새로운 기준을 세웠다고 볼 수 있을 것 같습니다. 이런 성공의 배경이 뭐라고 보시나요?

아주 흥미로운 현상이죠. 왜냐면, 중국 연구소들은 더 적은 GPU 자원으로도 이런 성과를 내고 있으니까요. 저는 이걸 일종의 수렴(Convergence)의 신호라고 봅니다. 바로, 폐쇄형과 개방형 모델이 품질 면에서 점점 비슷해지고 있다는 거예요.

결국 중요한 것은 두 가지입니다: 훈련 기법(Training Technique)데이터(Data)요.

훈련 기법 측면에서는 이제 인재가 전 세계적으로 많아요. 사람들이 이직하기도 하고, 연구 결과도 많이 공유되고, 예전처럼 ‘비밀 소스’는 거의 사라졌습니다.

데이터 측면에서는 모델 품질을 결정하는 데이터 분포도 점점 수렴하게 돼요. 모두 비슷한 공개 데이터셋에서 데이터를 가져오고, 비슷한 레이블링 회사들과 협력하게 되구요. 결국 경쟁의 본질은 더 많은, 더 나은 데이터를 어떻게 만들어내느냐가 됩니다.

큰 모델이 작은 모델을 훈련시키기 위해서 합성 데이터(Synthetic Data)를 생성하는데, 비용이 많이 들긴 하지만 합성 데이터의 품질은 점점 좋아지고 있습니다. 모두가 실험 중이예요.

또 다른 프론티어는 추론을 염두에 둔 훈련(Training with Inference in Mind)이예요. 단순히 훈련할 때의 품질만 높이는 게 아니라, 실제 추론 시점에 더 빠르고 저렴하게 동작하게끔 아키텍처를 조정하는 겁니다. 최근 공개된 모델들에서 이런 창의적인 시도가 많이 보이고 있습니다.

그래서 앞으로는 거대한 도약보다는 작지만 중요한 아키텍처 개선이 계속될 것 같습니다.

전체적으로 보면, 텍스트 기반의 파운데이션 모델은 점점 수렴할 겁니다. 하지만 멀티모달(음성, 비전, 비디오) 영역에서는 폐쇄형 모델이 아직 앞서 있습니다. 그쪽에 막대한 투자가 이루어졌으니까요. 오픈 모델은 지금 주로 추론, 코딩, 툴 활용에 집중하고 있고요. 그래서, 멀티모달에 시간이 걸리기는 하겠지만, 역시 결국 오픈형 모델도 폐쇄형 모델의 성능을 따라잡게 될 거라고는 봅니다.

Q. 맞습니다. 멀티모달 모델에 드는 비용이 훨씬 더 크니까요. 그런데 중국 기업들은 오픈 소스를 AGI(범용 인공지능)의 비전과 결합시키는 반면, 미국은 상황이 좀 다른 것 같아요. 메타의 마크 저커버그는 앞으로는 공개의 범위가 줄어들 수도 있다고 했구요. 이런 차이는 왜 난다고 보시나요?

일단은, 메타에서 그런 방향으로 최종적인 결정을 내린 것은 아니라고 봅니다. 내부에서도 여전히 치열하게 논의가 이루어지고 있습니다. 제품에 집중해서 매출을 일으킬 것인가, 아니면 생태계를 키워서 LLaMA 중심으로 통합할 것인가 하는 전략적 논쟁이요.

동시에 미국에서도 구글 같은 기업들이 오픈 모델 전략을 계속 밀어붙이고 있습니다. 사실, 오픈 커뮤니티에 기여한다는 것은 결코 쉬운 일이 아니예요. 새로운 모델을 공개할 때마다 최신 오픈/클로즈드 모델과의 강력한 벤치마크 비교를 제시해야 하죠. 물론 그런 경쟁이 결국 모두의 품질을 끌어올립니다.

그래서 저는 오픈 생태계가 더 강해질 것이라고 생각합니다. 누구도 품질의 기준을 낮출 수 없으니까요. 새로운 모델을 공개한다는 건 곧 연구의 깊이, 인재의 밀도, 그리고 해당 회사의 기술적 산출물을 보여주는 데모같은 겁니다. 회사의 명성과 커뮤니티 전체에 다 좋은 일이죠.

Q. 슈퍼인텔리전스나 AGI에 대해서는 어떻게 생각하시나요? ‘지능에 대한 궁극적인 질문을 해결한다’는 관점일까요, 아니면 ‘더 나은 도구를 만든다’는 관점일까요?

저희 Fireworks는 입장이 분명합니다. 저희는 애플리케이션 개발자를 빛나게 만드는 데 가치를 둡니다. 개발자들이 자사 제품에서 데이터 플라이휠을 쉽게 구축할 수 있도록 하는 최고의 도구와 인프라를 제공하는 게 목표예요.

비즈니스에서 사용되는 데이터가 제품의 모델과 더 잘 Align되고, 결국 모델이 애플리케이션에 더 잘 맞춤화되는 겁니다. 더 나은 모델은 더 나은 사용자 경험을 만들고, 이는 더 많은 데이터로 이어지죠. 데이터가 다시 모델을 향상시키는 선순환(Virtous Cycle)이 만들어집니다.

저희의 역할은 도구와 인프라 제공자예요. 개발자들이 사회적 가치를 창출하고, 사람들이 일상에서 “이거 정말 멋지다”라고 말할 수 있는 애플리케이션을 만들도록 돕는 겁니다. 저는 제 어머니께 “저 앱은 Fireworks 위에서 돌아가요”라고 말할 수 있기를 바래요. 그것이 저희가 지향하는 임팩트입니다.

Q. AI 인프라가 훨씬 더 가볍고, 어디서나 쓸 수 있게 되는 시점은 언제일까요?

저희는 이미 그 가능성을 보여드렸다고 생각합니다. 3D 옵티마이저로 추론 속도를 가속화하고 비용을 4~10배 절감했구요, 많은 경우 품질까지 개선되는 모습을 보기도 합니다. 앞으로도 계속 이 영역을 밀어붙일 겁니다.

큰 그림에서 보자면, 저는 100배 더 효율적인 인프라라는 게 가능하다고 믿어요. CPU를 보세요. 싱글코어에서 듀얼코어, 멀티코어로 진화하면서 성능은 좋아지고 가격 대비 효율도 향상되고, 제조 비용도 줄었습니다. GPU, ASIC, 가속기도 똑같이 발전할 겁니다. 하드웨어와 인프라 모두 훨씬 더 효율적으로 바뀔 겁니다.

Q. 이렇게 새로운 AI 세상을 만들어가는 과정에서, 가장 기대되는 점, 그리고 가장 우려되는 점은 무엇인가요?

저를 가장 흥분시키는 건 속도입니다. 이번 변화는 클라우드 퍼스트(Cloud-First)나 모바일 퍼스트보다도 큰 세대적인 기술의 전환이예요. 매일 아침 눈을 뜨고 나서 밤에 잠들기 전까지, 이 새로운 패러다임에서 어떻게 문제를 풀지 고민합니다. 팀 전체가 그렇고, 커뮤니티 전체가 그렇습니다. 지적 호기심과 창의성이 계속 불타오르죠.

다만 걱정되는 건 균형입니다. 저희의 원칙은 “고객 우선”과 “빠른 혁신”입니다. 하지만 빠르게 움직인다는 건 동시에 인프라가 안정적이고 신뢰할 수 있어야 한다는 의미이기도 합니다. 혁신 속도와 안정성 간의 균형을 잡는 것이 가장 큰 도전 과제입니다.

Q. 벌써 마지막 질문이네요. 제 최애 질문이기도 해요 ^.^ 리더십과 미래에 대한 사고방식에 영향을 준 책이나 아이디어가 있나요?

저를 만든 건, 특정한 책이 아니라 삶의 경험과 함께 일했던 사람들입니다. 17년 전의 저는 지금과 완전히 다른 사람이었습니다. 열정은 있었지만, 마음속에 늘 “이건 다른 사람들이 더 잘하지, 나는 아니야”라는 목소리가 있었습니다. 그 목소리를 잠재우는 데 오랜 시간이 걸렸습니다.

거기서부터의 변화는, 사람들이 저를 밀어붙이고, 도전하게 만들고, 새로운 가능성을 상상하게 해 주면서 찾아왔습니다. 그 과정이 저를 깊이 바꿨습니다.

그래서 저는 다른 이들에게도 이렇게 말합니다. 진짜 한계는 외부 세계가 아니라, 당신 안의 내적 목소리일 때가 많다. 불편하게 만드는 도전이야말로 축복입니다. 고통스럽더라도, 실패를 겪더라도, 그것을 마주하면 결국 다른 사람이 되어 새로 태어날 수 있습니다.

Q. 그렇다면 당신의 책은 당신의 곁에 있는 사람들이네요.

맞습니다. 나를 불편하게 만들고, 도전하게 하고, 결국 성장의 터널을 통과하게 만드는 사람들이 곧 내가 어떤 사람이 되는지를 결정한다고 믿어요.

Q. 아주 영감을 주는 이야기네요. 오늘 인터뷰 정말 감사합니다.

저도 감사합니다. 정말 즐거운 시간이었습니다.

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.