튜링 포스트의 Ksenia가 흥미로운 AI 학계 연구자들 또는 업계의 사업가들을 만나 나눈 이야기들을 유튜브 영상과 함께 튜링 포스트 코리아의 ‘Interviews with Innovators’ 시리즈를 통해서 소개해 드립니다.
여러분, 혹시 Predibase라는 회사를 아시나요? 이 회사의 주요 제품은, 오픈소스 거대 언어모델(LLM)과 기계학습 모델을 쉽고 빠르게 파인튜닝하고 배포할 수 있는 AI 플랫폼입니다. 이 플랫폼은 사용자가 복잡한 코딩을 하지 않아도 다양한 오픈소스 LLM (예: Llama, Mistral, Zephyr 등)을 선택해서 자신의 데이터에 맞게 학습을 시키고, 서버리스 인프라에서 빠르게 서비스할 수 있도록 지원합니다.
특히, LoRAX나 Turbo LoRA 같은 최신 기술을 활용해서 여러 개의 맞춤형 모델을 한 번에 효율적으로 운영할 수도 있고, 강화학습 기반의 파인튜닝 (Reward Function Tuning) 기능도 제공해서 최소한의 데이터로도 높은 성능을 내게끔 할 수 있습니다. Predibase는 정보 추출, 고객 서비스 자동화, 추천 시스템, 감정 분석 등 다양한 AI 활용 분야에 적용할 수 있습니다.
이번 인터뷰는 Predibase의 공동 창업자이자 CEO인 Devvret Rishi와 함께 하게 되었는데요.
‘정적인 모델’에서 ‘지속적인 학습 루프 (Continuous Learning Loop)’로의 전환, 강화학습 기반 파인튜닝 (RFT: Reinforcement Fine-Tuning)의 부상, 그리고 엔터프라이즈 AI의 미래가 다기능 챗봇이 아니라 ‘일을 해내는’ 전문 에이전트에 있다고 보는 이유에 대해서 이야기를 나눕니다.
이번 에피소드에서는 아래와 같은 내용을 다룹니다:
‘한 번 훈련하고, 평생 학습한다’는 말의 진짜 의미
RFT는 어떻게 작동하고, 왜 기존의 파인튜닝을 대체할 수 있는가
실제 운영 환경에서 추론(Inference)이 어려운 이유, 그리고 '지능형 추론'의 가능성
오픈소스 AI 스택의 결정적인 공백들
기업들은 LLM을 실제로 어떻게 평가하고 있는가
Devvret이 말하는 에이전틱 워크플로우, AGI, 그리고 AI의 미래
그럼 같이 이야기를 나눠 볼까요?
Q. Devvret, 오늘 함께해 주셔서 감사합니다. 큰 그림 이야기부터 해 보죠. 우리가 언제쯤 ‘AI 모델이 훈련은 한 번으로 끝내고 영원히 알아서 계속해서 학습하는’ 시대에 도달하게 될까요?
좋은 질문이에요. 사실 그런 세계가 이미 오늘날 존재한다고 볼 수도 있어요. 대부분 저희 고객들이 실제로 모델을 사용하는 방식은, 누군가가 99%의 작업을 끝낸 모델을 가져와서 마지막 1% 정도만 커스터마이징하는 거죠. ‘한 번 훈련하고, 영원히 학습한다’는 흐름은, 누군가가 만든 고정된 모델을 그대로 쓰는 대신, 실시간으로 운영하는 중에도 지속적으로 모델을 개선할 수 있는 파이프라인을 갖추는 쪽으로 이동하는 걸 뜻한다고 보면, 저희 초기 고객사들 중 일부는 이미 이런 유형의 파이프라인을 사용 중이에요. 이런 방향으로의 발전과 확대가 가장 기대되는 부분이기도 합니다.
Q. Predibase에서는 RFT라는 포스트 트레이닝 기법을 소개했는데요. 이게 정말 획기적인 건가요, 아니면 또 하나의 튜닝 기술에 불과하다고 보는게 맞는 건가요?
질문 감사합니다. 저희가 몇 달 전에 아마 처음으로 Reinforcement Fine Tuning(RFT)을 엔드-투-엔드로 제공한 플랫폼일 거예요.
RFT는 AI 모델을 커스터마이징하는 새로운 접근 방식이에요. 기본적인 아이디어는, 기존의 지도학습 기반 튜닝이 대량의 레이블링된 데이터가 필요했다면, RFT는 훨씬 적은 양의 데이터 — 예를 들어서, 열두 개 정도의 예시 데이터만으로도 튜닝이 가능하다는 점이에요. 그리고 레이블 대신 ‘보상 함수(Reward Function)’를 사용합니다. 이 보상 함수는 각각의 고객이 직접 작성할 수 있는 일종의 평가 기준이에요. 모델의 출력을 평가하는 기준을 제공해주는 거죠.
예를 들어서, 모델에게 코드를 작성하게 할 때, ‘형식을 맞추면 +5점, 컴파일이 되면 +10점, 단위 테스트를 통과하면 +20점’ 같은 식의 보상 기준을 줄 수 있어요. 이렇게 하면 모델은 자신이 어떤 출력을 내야 보상을 받는지 학습하게 되는 거죠. RFT의 핵심은 이거예요: 측정할 수 있다면, 개선할 수 있다는 것이요.
지금은 다양한 튜닝 기법 중의 하나로 RFT를 사용하는 수준이지만, 미래에는 RFT가 모델을 커스터마이징하는 방식을 근본적으로 바꿀 수 있다고 봐요. 지금은 RFT도 일회성 학습 과정이지만, 앞으로는 지속적인 피드백 루프 속에서 모델이 점점 개선되는 구조로 발전할 거라고 봅니다. 저는 그게 패러다임의 전환이라고 생각해요.
Q. 기업들이 실제로 이런 피드백 루프를 도입하고 있나요?
지금으로선 가장 앞선, 선도적인 기업들만 그런 단계에 있다고 하는게 맞을 거예요. 제가 함께 일하고 있는 몇몇 헬스케어 회사들은 환자용 AI 코파일럿이나 어시스턴트를 만들고 있어요. 이런 회사들은 환자와의 상호작용 데이터를 많이 보유하고 있고, 지금은 거대 언어모델(LLM)을 ‘심판’처럼 사용해서 대화의 질을 평가하거나, 임상의들이 대화를 레이블링해서 그걸 피드백으로 다시 RFT에 활용하고 있어요. 이렇게 하면 몇 개월 동안 레이블링을 기다리지 않고, 단 몇 개의 대화만으로도 피드백을 시작할 수 있게 되죠. 아직은 아주 초기 단계고 극소수 기업만 시도하고 있지만, 앞으로는 더 많은 기업들이 이런 지속적 개선형 파이프라인을 도입할 거라고 봐요.
Q. 기업들이 이런 파이프라인을 시작하려면 뭐가 필요한가요?
두 가지가 있다고 생각해요. 하나는 Predibase가 최근 출시한 기능인데, 운영 중인 서비스에서 사용된 프롬프트와 응답을 자동으로 수집할 수 있게 해줍니다. 튜닝이나 훈련에서 항상 핵심은 데이터거든요. 그래서 이 기능은 실시간 데이터를 이용해서 쉽게 학습용 데이터를 구축할 수 있게 도와줘요.
두 번째는 피드백을 기반으로 학습하는 것 자체를 쉽게 만들어주는 겁니다. 대량의 레이블링된 데이터를 쓰지 않고도, 소량의 피드백만으로 모델을 미세하게 조정할 수 있게 해주는 거죠. 여기에는 DPO(Direct Preference Optimization) 같은 기법이 있고, 저희는 또다른 연구를 기반으로 한 기술도 개발 중이에요. 사용자 피드백 데이터를 RFT에 잘 통합하는 방법을요.
Q. 말씀하신 것들 중에 곧 출시되는 것들이 있나요?
앞으로 몇 달 안에 저희가 이 부분에 대해 좀 더 많은 내용을 발표할 예정입니다. 실제 에이전트 기반 애플리케이션에서 겪은 경험들, 그리고 사용자들이 어떤 식의 피드백을 주고 싶어하는지를 중심으로 이야기하게 될 거예요. 그 피드백을 어떻게 시스템화해서 연속적인 흐름으로 만들 수 있을까 — 이게 핵심이죠. 그래서 처음으로 공개할 것은 아주 적은 양의 피드백만으로도 성능이 개선될 수 있다는 것을 보여주는 사례가 될 겁니다. 이후에는 더 많은 피드백이 쌓일수록 성능 향상이 어떻게 확대되는지도 보여줄 거예요.
Q. 그렇군요, 흥미롭네요. 에이전트 기반의 워크플로우나 에이전트 전반적으로는 어떻게 생각하세요?
개인적인 생각이지만, 에이전틱 워크플로우는 아직 아주 초기 단계라고 봐요. 지금 많은 사람들이 만들고 있는 것들, 에이전트라고 부르는 것들은 아직은 좀 불안정한 면이 있어요. 저는 에이전틱 워크플로우를 정의할 때 두 가지 핵심 요소가 있다고 봐요.
첫째는 ‘여러 번의 LLM 호출이 연쇄적으로 이어지는 구조’입니다. 예를 들어서, ‘문서 분류 작업’ 같은 것은 단일 호출(One-shot)이기 때문에 에이전틱 워크플로우라고 보지 않아요. 반면에, 예를 들어서 어떤 챗봇이 의료 진단 결과을 이해하고 후속 진료 일정을 잡아주는 대화를 한다면, 이것은 여러 번의 호출과 대화가 오가는 구조죠.
두 번째 요소는 ‘툴 호출 기능’입니다. 다시 말해서, 사용자의 요청을 처리하기 위해서 외부 함수나 API를 실제로 호출해서 작업을 수행하는 능력이 있어야 해요.
지금은 대부분 이런 에이전트를 구축할 때 ‘골든 패스(정해진 이상적인 흐름) 안에서는 잘 작동’하지만, 그 흐름을 벗어나면 오류가 발생하기 쉬운 구조입니다. 예를 들어서, LLM이 한 번 호출될 때 90%의 정확도를 가진다고 하면, 호출이 5번 이어질 경우 전체 정확도는 50% 이하로 떨어져요. 따라서 마지막 품질의 완성도는 아주 중요해요.
제가 예전에 구글 어시스턴트에서 제품 매니저로 일한 적이 있는데요. 그때도 지금처럼 생성형 AI는 아니고 전통적인 NLP 방식을 사용했지만, 이와 비슷한 문제를 겪었어요. 지금 우리가 해야 할 일은 이런 에이전틱 워크플로우를 훨씬 더 견고하게 만드는 일입니다.
Q. 제품 중심의 창업자이면서도 연구 중심의 영역에서 일하고 계시잖아요. 어떻게 따라가고 계시고, 요즘 어떤 연구 영역을 주의 깊게 보고 계세요?
사실 저는 두 가지를 모두 다 즐기는 편이예요. 제 백그라운드는 컴퓨터과학 학부와 석사 과정을 거치면서 초기 연구도 조금 했었고요. 그러다 제품 매니저가 되었죠. 저는 제품의 매력은 다양한 기능 간의 연결점에서 가장 큰 임팩트를 낼 수 있다는 데 있다고 생각해요. 연구는 특정 주제를 아주 깊게 파고들지만, 제품은 연구와 엔지니어링, 디자인의 결합을 실현하는 자리거든요.
구글에 있을 때도 연구팀과 함께 일하는 일이 많았어요. 그래서 저는 이렇게 변화가 빠른 환경에 익숙한 편이에요. 지금 이 섹터는 다른 어떤 산업보다도 빠르게 움직이고 있어요. 클라우드나 모바일로의 전환보다 훨씬 빠릅니다. 지금은 매주 한 번씩 새로운 돌파구가 나오는 느낌이에요.
예를 들어서 저희가 RFT를 런칭할 때 가장 스트레스받았던 건, 그 주에 오픈AI나 앤쓰로픽, Mistral, DeepSeek, 구글, 아마존, 메타 등에서 대규모 발표가 나오는 건 아닐까 걱정했던 거예요. 그만큼 이 분야는 숨 가쁘게 돌아갑니다. 그런데도 제 초기 연구 경험이 이런 기술들을 이해하는 데 큰 도움이 되고 있어요.
Q. 저는 챗GPT가 등장하기 전에 몇 곳의 머신러닝 기업들과 일을 한 적이 있었는데, 그 이후에 많은 기업들이 방향을 전환해야 했던 기억이 나요. 챗GPT 이후에 Predibase는 어떤 변화를 겪었나요?
그 시기는 저희에게도 굉장히 흥미로운 시점이었어요. 저희가 회사를 시작할 때의 미션은 딥러닝을 민주화하는 것이었죠. 그래서 사람들이 자신만의 딥러닝 모델을 쉽게 훈련시킬 수 있도록 인터페이스와 제품, 인프라를 구축했어요.
그런데 2022년 말쯤 오픈AI가 우리를 포함해서 모든 회사들이 한 것보다 더 큰 규모로 딥러닝을 민주화해버렸어요. 대규모의 사전학습 딥러닝 모델을 통해서, 단 한 번의 프롬프트로 대화를 할 수 있게 만든 거죠. 저희 입장에서 흥미로웠던 건, 딥러닝 중심 회사로서 그런 흐름을 이미 플랫폼 내에서 소규모로는 감지하고 있었다는 거예요.
예를 들어서 2022년 초에 저희 플랫폼에서 가장 인기 있었던 기능은, BERT 같은 사전학습 딥러닝 모델을 골라서 자신의 데이터에 맞게 파인튜닝하는 기능이었어요. 사용자는 이미 사전학습된 트랜스포머 모델을 자신의 데이터에 적응시키고 싶어했던 거죠.
하지만 그때와 지금을 비교하면, 사용자 여정과 유저 페르소나가 완전히 바뀌었어요. 2021년엔 대부분이 NLP 엔지니어였어요. BERT나 T5, 또는 컴퓨터 비전 쪽의 ViT 같은 모델을 이해할 수 있는 사람들이었죠. 하지만 지금은 지난 12년 사이에 처음 AI에 입문한 사람들이 가장 활발한 AI 엔지니어가 되기도 해요.
그래서 저희는 완전히 피벗했다고 볼 수도 있고, 아니면 아주 집중적으로 방향을 재정비했다고도 볼 수 있어요. 2023년 초에, 저희는 ‘LLM이라는 기술 하나에 올인하자’는 결정을 내렸습니다. 그리고 그 모델들이 프로덕션 환경에서 쓰이려면, 반드시 특화되고 커스터마이즈되어야 한다는 데에 베팅했죠. 그래서 튜닝과 포스트 트레이닝 스택을 구축하는 데 집중했습니다.
그리고 곧 알게 된 것은 추론(Inference)이 이 게임의 핵심이라는 점이었어요. 그래서 후반부에는 추론(Inference) 쪽에 아주 큰 투자를 하게 되었습니다.
Q. 좀 더 좁은 범위의 AI와 관련해서 묻고 싶어요. 앞으로 기업들이 특정한 목적의 작은 모델들을 더 많이 쓰게 될까요?
저는 일단 AI가 쓰일 수 있는 전체적인 사용 사례 자체가 점점 늘어날 거라고 봐요. 오늘보다 2027년이 되면 모든 유형의 AI 사용 사례가 더 많아질 겁니다. 다른 점은 사용 사례의 유형이 달라질 거라는 거예요.
제가 제일 좋아하는 고객의 말 중 하나가 있어요. "범용 지능(Generalized Intelligence)은 멋지지만, 우리 포스(Point-of-Sale) 시스템이 프랑스 시를 읊을 필요는 없어요."라고 한 고객이 있었거든요. 대부분의 기업 고객들은 실제로는 한정된 문제에 대해서 아주 높은 품질의 결과를 요구해요.
예를 들어서 저희 고객 중 ‘체커(Checker)’라는 회사는 직원의 백그라운드 체크를 자동화하는데, 이때 필요한 건 범죄 기록, 과거 경력 등 특정한 정보를 정교하게 추출하는 모델이에요. 이 모델이 프랑스 시를 짓거나 파이썬 코드를 작성할 필요는 없죠.
그래서 기업 영역에서는 고도화된 좁은 영역의 AI, 즉 특화된 에이전트가 훨씬 더 중요한 역할을 할 겁니다. 물론 회사 내의 모든 질문을 처리할 수 있는 범용 에이전트도 훌륭한 데모로 존재하겠지만, 진짜로 높은 가치를 만들어내는 사례는 아주 잘 정의된 작업을 정밀하게 수행할 수 있는 AI일 겁니다.
소비자 영역은 조금 더 복잡해요. 범용성이 더 유용한 경우가 많거든요. 하지만 확실히 드러난 건, 이제 하나의 모델이 모든 것을 지배하는 시대는 오지 않을 거라는 점이에요.
앞으로는 오픈소스 모델, 폐쇄형 상업용 모델, 다양한 파라미터 크기의 모델들이 공존하게 될 거고, 마치 소프트웨어 도구를 선택하듯이, 각각의 과제에 맞는 최적의 모델을 선택하게 될 겁니다. 그리고 저희가 보는 핵심 트렌드는, 좁은 AI가 쓰이는 과제가 훨씬 빠른 속도로 증가하고 있다는 것입니다.
Q. 이 치열한 경쟁 환경 속에서, 전략을 얼마나 멀리까지 보고 계세요? 2026년? 2027년? 어떤 계획을 갖고 계신가요?
마이크 타이슨이 한 유명한 말이 있죠. “누구나 계획은 있다, 한 대 맞기 전까지는.” AI 분야도 마찬가지예요. 저희도 올해 말과 2025년까지를 내다본 계획은 확실히 가지고 있어요. 하지만 현실은, AI는 매주 판도가 바뀌는 세상이기 때문에 빠르게 결정을 내릴 수 있는 의사결정 프레임웍이 훨씬 더 중요하죠.
저희가 변하지 않는다고 생각하는 건 '고객이 특화된 AI를 만들 수 있도록 돕는다'는 북극성(North Star) 비전이에요. 고객이 모델을 튜닝하고, 그걸 운영 환경에서 배포하고 서비스할 수 있도록 돕는 것이죠.
좀 더 유동적인 부분은 '어떻게 모델을 튜닝할 것인가'에 대한 방식이에요. 저희는 어떤 특정 기법 — 예를 들어 지도학습 방식의 파인튜닝 — 에 집착하지 않아요. 현재로선 성능을 최대화하려면 지도 학습 기반 튜닝이 가장 효과적이지만, 1년 후에는 완전히 새로운 방식이 등장할 수 있다고 봅니다. 실제로 2024년의 가장 큰 변화는 강화 학습 기반 튜닝(RFT)이었고, 저희는 그걸 올해 초 선도적으로 도입했죠.
그래서 저희의 장기 전략은, 특화된 AI를 만들 수 있도록 고객을 돕는 두 축 — 튜닝과 운영 — 을 중심으로 계속해서 인프라를 만들고, 훈련과 추론, 서비스 전반을 아우르는 거예요. 그리고 앞으로는 다음 같은 것들이 나올 것으로 예상하고 있어요:
모델을 더 정교하게 특화시키는 고급 튜닝 기술
추론 효율을 더 끌어올리는 기술
모달리티 확장 (비전, 음성 등)
이 전체 프레임웍 안에서, 앞으로 어떤 연구 성과들이 나올지 지켜보고 저희 플랫폼에 빠르게 반영하는 방식으로 대응할 계획입니다.
Q. 추론(Inference) 이야기로 넘어가 볼게요. 기업의 입장에서, 추론이 왜 그렇게 어렵고, 어떻게 하면 더 쉬워질 수 있을까요?
추론, 처음에는 간단해 보여요. 하지만 그 안을 들여다보면 생각보다 훨씬 복잡합니다. 기업이 어떤 단계에 있는가에 따라서 어려움의 양상도 달라지죠.
예를 들어서 ‘성장(Grow)’ 단계에 있는 조직이라면, 추론 단계까 어려워지는 이유는, 복잡한 소프트웨어 엔지니어링 때문이 아니라, GPU 확보 자체가 어렵기 때문이에요. 대형 모델 하나를 띄우는 데만도 H100 8개, 많게는 16개가 필요할 수 있거든요. 그러면 이걸 확보해서, 오토스케일이 가능하도록 설정하고, 추론 서버를 구성해야 하죠.
물론, 저희를 포함한 여러 회사들이 이걸 쉽게 만들기 위해 노력해왔어요. 예를 들어서 저희는 자체 추론 프레임웍인 Lorax를 오픈소스로 공개했어요. 누구나 직접 서버를 띄워볼 수 있도록 한 거죠.
그런데 여기서 중요한 건, 똑똑한 엔지니어라면 추론 서버를 구축하는 건 할 수 있다는 거예요. 문제는 ‘프로덕션 환경의 추론’을 유지·관리하는 것입니다.
프로덕션 환경의 추론은 단순히 ‘모델이 95% 이상 켜져 있다’는 수준이 아니에요. SLA(서비스 수준 계약) 기준으로 99.9%, 심지어 99.9999%의 가용성이 요구됩니다. 그러려면 다음과 같은 것들이 필요하죠:
장애 허용(Fault Tolerance)을 고려한 설계
블루-그린 배포 방식 같은 무중단 업데이트
다중 지역 복제(Multi-Region Replication)
GPU 비용 최적화 (총 소유 비용 TCO 관점에서)
그래서 모델을 작게 하거나, 저희 플랫폼의 Turbolora처럼 소프트웨어 기반으로 추론 처리량을 2배 높이는 기법 등이 필요해요.
결국 ‘초기 프로토타입을 만들고 추론까지 해본다’는 단계에서 ‘비즈니스 핵심 애플리케이션을 프로덕션에서 안정적으로 운영한다’는 단계로 가는 것이 진짜 도전 과제인 셈이죠.
추론과 관련해서 마지막으로 말하고 싶은 건, 많은 사람들이 추론이 점점 ‘Commodity화’된다고 말해요. 특히 사전학습 모델의 기본 추론은 그렇다고 봐요. 예를 들어 DeepSeek 엔드포인트를 어디에서 실행하든 큰 차이가 없다면, 그것만으로 차별화는 어려운 거죠.
하지만 저희가 내부적으로 ‘지능형 추론(Intelligent Inference)’이라고 부르는 흐름이 더 흥미로워요. 이건 아까 말한 것처럼, 추론 파이프라인이 포스트 트레이닝 스택과 연결되어 있어, 모델이 지속적으로 개선될 수 있는 구조예요. 이것이 저희가 보는 추론의 미래입니다.
Q. 당신은 오픈소스 AI 모델의 강력한 지지자이신데요, 오픈소스 AI 스택에서 아직 부족한 점은 무엇이라고 생각하세요? 그리고 Model Zoo와 실제 프로덕션 사이의 간극은 뭘까요?
저는 오픈소스 모델 스택이 핵심 인프라 측면에서는 꽤 괜찮아졌다고 생각해요. 예를 들어서, 저희가 만든 오픈소스 파인튜닝 프레임웍인 Ludwig 같은 경우, 실험을 시작하기에는 꽤 괜찮은 도구죠. 또, Lorax 같은 오픈소스 추론 프레임웍도 마찬가지예요. 사람들이 자체적으로 서빙을 시작할 수 있도록 도와주니까요.
그리고 나서 매니지드 플랫폼으로 전환하고 싶을 때는 Predibase 같은 곳으로 자연스럽게 넘어올 수 있는 온램프가 준비되어 있죠 — GPU, 인프라 모두 포함된 ‘배터리 포함형(Batteries Included)’ 솔루션이죠.
하지만 여전히 부족한 부분이 하나 있는데, 바로 평가(Evaluation)예요. LLM 업계에서 이 문제는 이미 여러 차례 지적되어 왔고, 실제로 어렵습니다. 왜냐하면 LLM의 출력 결과는 어떤 때는 객관적이지만, 어떤 때는 매우 주관적이거든요.
예를 들어서, 문서 분류 같은 전통적인 머신러닝 문제에서는 정확도를 계산하면 되죠. 그런데 LLM의 요약 결과가 ‘좋은 요약인지’ 판단하는 건 훨씬 애매합니다.
이 문제를 해결하기 위해서 프레임웍을 만들거나 회사를 창업한 분들도 몇 분 알고 있어요. 하지만 여전히 이건 미해결 과제라고 생각해요.
Q. 많은 기업들이 자체적으로 평가 시스템을 구축하잖아요. ’Leaderboard Illusion’ 논문은 크라우드소싱 평가가 아직 제대로 작동하지 않는다는 걸 보여주기도 했고요.
맞아요. 저는 사람들이 평가를 세 가지 방식으로 시도하는 걸 봤어요.
첫 번째는 기존 데이터와 프록시 지표에 의존하는 방식이에요. 예를 들어 문서 분류를 한다면, 기존의 홀드아웃 데이터를 사용해서 “이 모델이 과거에 어떻게 작동했는가”를 보는 거죠. 가장 간단하고 깔끔한 방식이지만, 이런 방식은 과거 데이터가 충분히 있는 경우에만 가능하죠.
두 번째는 생성형 AI 자체를 평가에 활용하는 방식이에요. LLM을 ‘판단자(Judge)’로 쓰는 거죠. 예를 들어, “이 응답은 고객의 질문에 잘 대답했는가?” 또는 “이건 우리가 원했던 요약인가?” 같은 식으로 큰 모델을 사용해서 평가합니다.
세 번째는... 조금 ‘바이브(Vibes)’ 같다고 표현할 수 있는데요. 그냥 제품을 먼저 출시하고, 사용자 피드백을 모아서, 모델이 우리가 의도했던 방향으로 작동하고 있는지를 감지하는 방식이에요.
그러니까 지금의 현실은, 평가 시스템은 대부분 인하우스에서 이루어지고 있고, 상당 부분은 여전히 '감'에 의존하고 있다고 볼 수 있어요. 하지만 지속적인 개선 루프를 만들기 위해선 좋은 평가 체계가 반드시 필요합니다.
Q. 정말 공감해요. 특히 폐쇄형 모델들은 더 어려운 것 같아요. 새로운 모델이 나오면 아예 다른 페르소나를 갖고 있어서, 그 모델을 이해하기 위해 새로운 ‘감’을 또 만들어야 하니까요. 정말 까다롭죠.
맞아요. 오픈소스 진영에서 이 문제 해결에 많은 도움을 주고 있어요. 특히 오픈소스의 추론 중심(Reasoning-focused) 모델들이 그런 역할을 하고 있어요.
예를 들어서, DeepSeek R1 같은 모델을 사용하면, 모델 출력 뿐 아니라, 모델이 그 결과에 도달하기까지 거친 추론 토큰(Reasoning Tokens) 자체도 확인할 수 있어요. 반면에, 예전의 폐쇄형 모델들에서는 그런 내부 과정을 볼 수 없었죠.
2023년에는 이런 점들이 명확하지 않았지만, 2024년이 되면서 대부분의 기업들이 ‘오픈소스는 계속 간다, 그리고 여기 남을 것이다’라는 걸 사실로 받아들이고 있어요.
2023년에 우리가 오픈소스의 미래를 이야기할 때, 그때 최고였던 모델은 GPT-J였어요. 그 당시 GPT-3.5와 비교하면 격차가 컸죠. 그런데 지금은 DeepSeek R1, V3, Qwen 3, LLaMA 4 같은 모델들이 상용 모델과 동급 수준일 뿐 아니라, 많은 벤치마크에서 오히려 상용 모델을 앞서는 성과를 내고 있어요.
저는 사실 이게 6개월 앞당겨진 결과라고 봐요. 원래는 2024년 말쯤 돼야 오픈소스가 상용 모델을 따라잡을 거라고 생각했거든요. 그런데 지금은 이미 따라잡았고, 어떤 경우는 이미 추월했어요. 오픈소스의 혁신 속도는 정말 놀라워요.
Q. AGI(범용 인공지능)에 대해 자주 언급하시지는 않는데요. AGI에 대해 어떻게 생각하시나요?
솔직히 말씀드리면, AGI는 제가 실제로 보는 세계에서는 좀 멀리 있는 이야기라고 생각해요. 제가 실제로 관찰하는 세상은 ‘범용 인공지능’이라기보다는 ‘실용적인 특화 지능(Practical Specialized Intelligence)’이 중심이에요.
AGI에 대해 생각하는 건 연구실에서 개념을 정의하고 있는 분들의 몫이라고 봐요. 만약 우리가 AGI를 ‘튜링 테스트를 통과한 모델’이라고 정의한다면, 저는 우리가 그 근처에 와 있다고 생각해요. 하지만 그게 실질적으로 어떤 의미를 가지는지는 다른 문제죠.
저는 터미네이터 스타일의 시나리오에 대해 시간을 많이 쓰지는 않아요. 대신, 제 시간의 대부분은 이런 식으로 생각합니다: 예를 들어 포춘 200대 기업인 Marsh McLennan 같은 조직이나, 앞에서 언급한 Checker 같은 회사처럼, 지난 수십 년간 비즈니스 프로세스를 통해 생산성을 구축해온 기업들이 이 기술을 통해 생산성을 비약적으로 향상시킬 수 있다면, 그것이 어떤 의미를 가질까?
그게 바로 제가 가장 흥미롭게 보는 분야입니다.
물론 철학적으로는 앞으로 5년, 10년, 20년 동안 어떤 일이 벌어질지에 대해 논의할 수 있겠지만, 솔직히 말하면 우리는 18개월 후에 어떤 일이 벌어질지도 예측하기 어려운 시대를 살고 있어요. 그래서 저는 현재 시점에서 실용적인 관점에 집중하려고 합니다 — 기업과 소비자 모두에게 적용 가능한 관점으로요.
Q. 정말 공감되는 좋은 관점이네요. 그렇다면 Predibase와 함께 만드는 미래에 대해서, 가장 걱정되는 점과 가장 기대되는 점은 무엇인가요?
가장 걱정되는 부분은, 사실 처음으로 돌아가서 ‘평가(Evaluation)’의 문제로 다시 연결돼요.
사람들이 생성형 AI에서 엄청난 가치를 보고 있다는 건 분명해요. 때때로 분석 리포트 같은 데서 “생성형 AI는 거품인가요? 실제로 ROI가 있나요?” 이런 질문을 보긴 해요. 하지만 실제로 생성형 애플리케이션을 개발하는 포춘 200대 기업의 CIO들로부터는 그런 질문을 받아본 적이 없어요.
현장에서는 이 모델들이 할 수 있는 일들을 직접 보게 되거든요. “이게 수백만 토큰을 처리하는 데 50센트나 1달러가 들더라도 ROI가 나올까?” — 이건 대부분의 경우에 아예 질문거리도 안 돼요.
문제는 뭐냐면, 너무 앞서간, 허황된 사용 사례에 사람들이 흥분했다가, 나중에 실망감에 빠질 수 있다는 점이에요. 예를 들어 멋진 데모에서 AI가 프랑스 시를 짓고, 멀티 에이전트 시스템처럼 움직이는 걸 보면 사람들은 와 하고 열광하죠. 그런데 그런 사용 사례가 실제로 높은 비즈니스 가치를 만들어내는 건 아니에요.
그래서 저의 가장 큰 우려는 사람들이 현재 LLM이 할 수 있는 높은 가치의 사용 사례를 잘 못 보고, 너무 앞서 나가 버려서 실망의 골짜기(Disillusionment)에 빠지는 일이 생길까 하는 겁니다.
하지만 제가 5~10년 전보다 덜 걱정하는 이유는, 지금은 훨씬 더 빠르게 반복하고 실험할 수 있는 시대이기 때문이에요. 저는 10년 넘게 AI 분야에서 일해왔는데, 2012년부터 2022년까지는, 사실상 상위 1%의 기업을 제외하고는 AI가 약속한 바를 제대로 실현하지 못했다고 봐요.
예전에 “유튜브가 추천 시스템으로 하는 걸, 당신 회사에도 도입해보세요”라는 말이 있었지만, 중소기업에선 절대 그런 일이 일어나지 않았어요. 하지만 지금의 AI는 그때와는 다르다고 생각해요. 그래서 제가 걱정하는 건, 혹시라도 그런 낡은 패러다임이 다시 고개를 들까 하는 것이죠.
Q. 그렇다면, 가장 기대되는 점은 무엇인가요?
예전에는 소프트웨어를 개발할 때 완성도를 높이고, 충분히 테스트하고, 내부에서 검증한 다음 출시하는 방식이었어요. 하지만 저는 스타트업 창업자이기 때문에, 시장으로부터 빠르게 피드백을 받는 게 가장 중요하다고 생각해요.
예전에 제 멘토 한 분이 이런 말을 했어요: “출시할 때 조금 부끄럽지 않다면, 당신은 너무 늦게 출시한 거야.”
지금 AI 분야에서 제가 가장 기대하는 트렌드는 바로 그겁니다. 완벽하지 않은 60%짜리 솔루션이라도 빠르게 출시하고, 시장 반응을 보면서 학습하는 방식.
이유는 두 가지예요:
먼저, 시장에서 제품-시장 적합성(Product-Market Fit)이 있는지 확인할 수 있고,
동시에 사용자 데이터를 수집해서 모델을 개선할 수 있어요.
이런 ‘스타트업 방식’의 사고방식이 지금은 20명, 50명짜리 스타트업뿐 아니라, 대기업들에도 전파되고 있는 걸 보면 정말 기대가 큽니다.
Q. 너무 좋은 말씀이네요. 이제 마지막 질문이에요. 완전히 다른 주제인데요. 당신의 사고방식에 영향을 준 책이나 아이디어가 있다면 소개해 주세요. 머신러닝 관련이 아니어도 괜찮습니다.
머신러닝과는 전혀 관련 없는 책이긴 한데, 저는 Shawn Achor의 『행복의 특권(The Happiness Advantage)』이라는 책을 좋아해요. 하버드의 심리학자였던 저자가 조직의 맥락에서 행동 심리학을 연구했는데요, 핵심 메시지는 이거예요:
"성공이 행복을 가져오는 게 아니라, 행복이 성공을 가져온다."
이 책이 다룬 두 가지 주요 내용은 다음과 같아요:
긍정적이고 행복한 사고방식을 가진 사람들이 업무나 개인적인 영역에서 더 뛰어난 성과를 낸다는 점,
행복을 ‘해킹한다’는 표현이 약간 실리콘밸리 바이오해킹 같긴 하지만, 외부 조건에 의존하지 않고 스스로 행복한 상태를 만들 수 있는 방법들을 소개해요.
그래서 저는 이 책을 굉장히 즐겁게 읽었고, 개인적인 삶에도, 업무에도 모두 도움이 되는 아이디어가 많았어요.
Q. 그럼 Predibase는 행복한 조직이라고 생각하시나요?
그러길 바라죠. 솔직히 말씀드리면, 지금 생성형 AI 분야에서 일하는 건 정말 복잡하고, 빠르고, 경쟁이 치열한 환경이에요. 저희도 그렇고, 경쟁사들도 충분한 자금을 갖고 있기 때문에 승부수가 계속 쏟아져 나옵니다.
하지만 그런 상황일수록, 저는 미래에 대한 기대감 속에서 일할 때 가장 좋은 결과가 나온다고 믿어요. 걱정과 불안에서 출발하는 것이 아니라, 흥미롭고 의미 있는 미래를 향해 나아간다는 마음이 필요해요.
읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.



