올리브 송(Olive Song), 대중에게는 생소한 이름이지만 AI 업계에서는 오픈 모델의 성능을 극한으로 끌어올리는 ‘지능의 조련사’로 통합니다. 현재 중국의 AI 유니콘 MiniMax에서 강화학습과 모델 평가 시스템을 총괄하면서, M2.1과 M2.2 같은 고성능 모델이 인간의 의도를 정교하게 이해하고 행동하도록 만드는 전략과 기술 개발을 이끌고 있습니다.
올리브는 단순히 이론을 연구하는 데 머물지 않고, ‘지능’이 실제 대규모 인프라 위에서 구현되는 과정을 직접 설계해온 ‘실전형 연구자’입니다. 딥러닝의 성지인 캐나다의 Element AI에서 이론적 토대를 닦고, 오픈 소스 생태계의 중심인 Hugging Face에서 기술 민주화의 현장을 경험한 뒤 MiniMax에 합류했습니다. 지금은 ‘지능은 발명되는 것이 아니라 데이터 속에서 발견되는 것’이라는 철학 아래, 모델이 복잡한 과제를 스스로 완수하는 ‘에이전틱 AI(Agentic AI)’ 시대를 여는 핵심 인물 중 한 명으로 주목받고 있습니다.
AI가 단순히 질문에 답하는 단계를 넘어, 우리의 일상 업무를 대신 수행하는 ‘에이전트’의 세상이 오고 있죠? 이런 변화의 과정에서 가장 중요한 요소가 뭘까요? 각자 다른 생각을 하겠지만, 결국 ‘지능’이 실제 결과로 이어지게 만드는 ‘실행의 완결성’, 그리고 어떤 복잡한 지시도 끝까지 수행해내는 ‘일관성’이 공통적으로 떠오르지 않을까 싶습니다. 이 ‘완결성’과 ‘일관성’을 담보하는 데 필수불가결한 요소가 바로 ‘강화학습’과 ‘정밀한 평가 시스템’입니다.
오늘의 인터뷰는, 최근 고성능 오픈 모델 M2.1과 M2.2를 연달아 내놓으면서 글로벌 AI 생태계를 뒤흔들고 있는 MiniMax의 시니어 리서처, 올리브 송(Olive Song)과의 대담입니다. 올리브는 딥러닝의 성지인 캐나다 몬트리올의 Element AI - 편집자도 여기서 올리브 송과 함께 근무한 인연이 있습니다 ^.^ - 와 오픈 소스의 중심이라고 할 수 있는 Hugging Face를 거쳐서, 현재 MiniMax에서 지능을 길들이고 다듬는 강화학습 및 평가 부문을 총괄하고 있습니다.
올리브는 이번 인터뷰를 통해서 ‘ICU(중환자실)와 KTV(노래방)’를 오가는 치열한 리서치 현장의 뒷이야기부터, 소수점 아래 4번째 자리의 정밀도(FP32)가 어떻게 모델의 지능을 결정짓는지에 대한 엔지니어링의 정수를 가감 없이 들려줍니다. 더불어, MiniMax가 왜 상업적인 비밀이라고 할 수 있는 모델 가중치를 과감하게 공개하는지, 그리고 차세대 에이전트 모델인 M2.5가 ‘Long Horizon Task’를 통해서 어떻게 세상을 바꾸게 될지에 대해 깊이 있는 대화를 나눕니다.
이 인터뷰는, 편집자의 관점에서는 소위 말하는 '중국 AI'에 대한 편견을 완전히 부수는 계기가 되었습니다. 중국 AI의 성공은 단순히 막대한 자원과 집중적인 지원 때문만이 아니라, 소수점 아래 0.0001의 오차를 의심하고 연구자가 직접 손을 더럽혀 가면서 인프라의 심장부까지 더듬어 가면서 작업을 해 낸, '지능의 발견'에 집요하게 매달린 정통 엔지니어링 정신의 승리였다는 생각을 하게 되었습니다.
오늘 인터뷰에서 다루는 토픽들은 다음과 같습니다:
MiniMax의 큰 그림 – "Intelligence with Everyone" 슬로건과 오픈 웨이트 전략의 진의
ICU와 KTV – 리서치 현장의 고통과 환희, 그리고 '발명'이 아닌 '발견'으로서의 AI 철학
0.0001 정밀도의 승부수 – 화려한 알고리즘보다 FP32 데이터 타입이 지능의 임계점을 돌파하는데 중요한 이유
MoE와 인프라 통합 리서치 – 연구자가 하드웨어까지 건드리면서 병목을 해결해야 하는 이유
데이터 오염을 극복하는 평가 – 리더보드 점수 너머의 ‘자기 수정(Self-Correction)’과 ‘지시 이행(IF)’ 시스템
에이전틱 AI의 정점: Long Horizon – M2.5의 로드맵, 그리고 수십 단계의 복잡한 과제를 완수하는 ‘실행하는 지능’
손끝으로 배우는 리서치 – 논문을 넘어선 코드 중심의 학습법과 내부 AI 에이전트가 만드는 생산성
전체 대화 내용을 확인하고 싶으시면 아래 유튜브 영상을 참고하시고, 그럼 시작합니다!
I. 커리어의 여정, 그리고 연구자로서의 정체성
Q. 안녕하세요 올리브, 오늘 인터뷰 시간 내 주셔서 감사합니다. 경력을 보면, 캐나다의 Element AI와 Hugging Face라는 상징적인 조직을 거쳐서 MiniMax에 합류하셨어요. 연구자로서 이런 커리어 전환을 하게 되었던 결정적 계기는 무엇이었나요?
불러주셔서 감사합니다.
저의 커리어는 항상 '지능의 본질'을 탐구하는 방향으로 흘러왔습니다. 캐나다 몬트리올의 Element AI에서는 요슈아 벤지오 교수님과 같은 거장들 곁에서 딥러닝의 이론적 토대를 닦았고, Hugging Face에서는 오픈소스 생태계가 어떻게 기술을 민주화하는지 목격했죠. 하지만 어느 순간, 논문 속의 정제된 수식이 아니라, 실제 수만 개의 GPU 클러스터라는 거대한 기계 장치 위에서 날뛰는 '야생의 지능'을 직접 목격하고 통제하고 싶다는 갈증이 생겼습니다.
MiniMax는 단순히 모델을 연구하는 곳이 아니라, 지능을 ‘대량 생산’하기 위한 최전선의 거대한 실험실이자 공장이라고 느껴졌어요. 이론적으로 완벽한 수식이 실제 대규모 인프라와 만났을 때 발생하는 그 '지저분하고도 치열한 현상'을 직접 조율하는 역할을 하고 싶어서, 이 거친 전쟁터로 뛰어들었습니다. 무엇보다 MiniMax가 보여준 놀라운 실행 속도와 기술에 대한 타협없는 진정성이 제 연구 본능을 자극했다고 해야 할 것 같네요.
Q. 직접 겪어보신 산업계 현장의 리서치는 학계의 리서치와 구체적으로 어떻게 다르던가요?
학계의 리서치가 깨끗한 실험실에서 이루어지는 화학 실험이라면, 이곳의 리서치는 거대한 댐을 건설하는 토목 공사에 가깝습니다. 학교에서는 변수를 통제한 상태에서 알고리즘의 우위성을 수학적으로 증명하면 되지만, 산업계에서는 하드웨어의 무작위적인 오류, 데이터 파이프라인의 미세한 오염, 그리고 네트워크 지연 시간 1ms가 모델 전체의 성능을 송두리째 흔들어 놓습니다.
연구자는 이제 수식만 만지는 사람이 아니라, 리눅스 터미널을 열고 분산 시스템 로그를 뒤지면서 '왜 이 데이터 패킷이 특정 노드로 흐르지 않는가'를 물리적으로 고민해야 합니다. '증명'이 아니라 '작동'이 지상 과제가 되는 세계인 것이고, 이론과 실제의 간극을 엔지니어링으로 메우는 과정이 리서치의 80%를 차지합니다. 거대 모델의 시대에는 연구자가 곧 엔지니어여야 하고, 시스템 아키텍처를 이해하지 못하는 리서치는 공상에 그칠 뿐이라는 것을 뼈저리게 느끼고 있습니다.
Q. MiniMax의 팀 분위기를 상징하는 'ICU(중환자실)와 KTV(노래방)'라는 표현이 화제인데요. 강화학습 연구자로서 이 극한적으로 왔다갔다하는 감정의 사이클을 어떻게 관리하시나요?
강화학습은 딥러닝의 다른 분야보다 훨씬 변동성이 크고 예민한 분야라고 생각해요. 모델이 보상을 최적화하는 과정이 마치 야생마를 길들이는 것과 같아서, 아주 미세한 하이퍼파라미터 설정 오류만으로도 성능 곡선이 순식간에 붕괴될 수 있습니다.
실험 결과가 처참하게 무너진 아침에는, 사무실은 그야말로 중환자실처럼 무거운 침묵과 비장함이 감돕니다. 모두가 모니터 앞에서 숨을 죽인 채 에러 로그를 분석하면서 뭐가 어디서부터 잘못되었는지 추적하죠. 반대로 모델이 우리가 의도한 보상을 완벽히 이해해서 인간의 지능을 넘어서는 것 같은 기발한 답을 내놓기 시작하면, 그날 밤은 축제 현장인 노래방처럼 달아올라요.
이런 감정의 롤러코스터는 연구자를 고통스럽게 하지만, 동시에 우리가 미지의 지능 영역을 정복해가고 있다는 가장 확실하고도 짜릿한 증거이기도 하죠.
II. 기업 비전과 전략: "Intelligence with Everyone"
Q. MiniMax의 슬로건 "Intelligence with Everyone"은 올리브 당신 개인에게는 어떤 철학적인 의미가 있을까요?
그건 AI가 특정한 기술 엘리트들만을 위한 마법 지팡이가 아니라, 전 지구상의 누구나 자신의 상상력을 현실로 바꿀 수 있는 '보편적 지능 도구'가 되어야 한다는 선언입니다. 저 개인에게는 '지적 생산성의 평등한 해방'을 의미하기도 하구요.
예를 들어,서 예전에는 전문가의 도움이 없이는 며칠이 걸렸을 복잡한 알고리즘 구현이나 데이터 시각화 문제를 우리 모델에게 툭 던져놓고 몇 분 만에 해결하는 경험을 할 때마다 지능의 문턱이 낮아지는 것을 체감하거든요. 전에는 코딩을 전혀 모르던 사람도 AI의 도움으로 자신의 아이디어를 소프트웨어로 구현할 수 있게 됐잖아요?
전 세계 모든 사람이 각자의 주머니 속에 '나를 가장 잘 이해하는 천재 조수'를 한 명씩 품을 수 있게 만드는 것, 그게 바로 우리가 매일 밤샘을 하면서 기술적 한계에 도전하는 궁극적인 이유이자 보람이라고 말씀드릴 수 있을 것 같네요.
Q. MiniMax가 기업의 입장에서 상업적 API 모델과 충돌할 수 있는 '오픈 웨이트(Open Weights)' 전략을 고집하는 이유는 뭘까요?
우리는 단기적인 기술 독점보다 '글로벌 생태계의 표준'이 되는 것이 훨씬 더 거대한 가치를 지닌다고 확신합니다.
모델 가중치를 공개하면 전 세계의 천재적인 개발자들이 우리 모델을 기반으로 양자화, 특정 언어를 기반으로 한 파인튜닝, 로컬 온디바이스 최적화 등 수많은 작업들을 자발적으로 수행합니다. 우리가 내부 인력만으로는 할 수 없는 방대한 규모의 R&D 활동이 전 세계 곳곳에서 동시다발적으로 일어나는 효과를 가져오는 거예요. 우리는 코드를 공유하는 대가로, 모델이 세상의 모든 복잡한 환경에서 어떻게 반응하고 진화하는지에 대한 방대한 실전 데이터를 얻는 셈이고, 이게 곧 MiniMax 모델이 글로벌 표준이 되는 지름길입니다.
우리가 공개한 가중치 그 자체가 전 세계 개발자들과 맺는 일종의 '신뢰의 계약'이라고 생각하고, 이런 계약을 통해서 우리 모두가 훨씬 더 빠른 속도로 지능을 고도화할 수 있다고 생각합니다.
Q. 커뮤니티의 피드백이 실제로 MiniMax의 차세대 모델 개선에 어떤 경로나 방법으로 기여하고 있나요?
오픈 소스 생태계의 힘은 정말 환상적이예요. 외부 개발자들이 우리 모델을 극한의 환경, 예를 들어 아주 낮은 사양의 기기나 우리가 학습시키지 않은 특수한 전문적 도메인에 적용하면서 겪는 시행착오들이 허깅페이스나 깃허브 이슈로 실시간 공유됩니다.
그럼 MiniMax에서는 이런 정보들을 통해서 우리 모델의 추론 엔진이 어떤 특정 데이터 분포에서 취약한지, 또는 특정한 언어의 뉘앙스에서 왜 논리적 비약이 발생하는지를 명확히 파악합니다. 즉, 오픈 웨이트 공개는 전 지구적 규모의 '실시간 품질 테스트'이면서, 가장 빠르고 강력한 성능 개선 피드백 루프를 구축하는 고도의 전략적 선택입니다.
커뮤니티가 찾아낸 버그 하나가 다음 모델의 핵심 업데이트가 되기도 해요. 이런 건 기업 내부의 폐쇄적인 테스트로는 도저히 흉내 낼 수 없는 속도이고 범위죠. 결국 사용자와 함께 모델을 만드는 과정 자체가 우리의 경쟁력입니다.
III. M1의 기술적 엔지니어링: "0.0001과의 사투"
Q. M1 모델을 개발할 당시에, 연산 효율이 좋은 BF16 대신 굳이 무겁고 느린 FP32 정밀도를 선택했던 기술적 배경이 뭔가요?
많은 팀이 학습 속도와 메모리 효율 때문에 16비트(BF16) 연산을 표준으로 사용하죠. 하지만 거대 모델의 강화학습 정책 업데이트 과정은 지극히 민감한 수치적 안정성을 요구하는 과정이라는 점을 잊지 말ㄹ아야 해요.
BF16은 표현할 수 있는 숫자의 범위는 넓지만 정밀도가 낮아서, 수천억 번의 연산 과정에서 발생하는 미세한 반올림 오차가 누적되면 그래디언트의 방향이 본래의 의도와 완전히 다르게 틀어지는 문제를 일으킵니다. 특히 강화학습에서는 보상 신호가 아주 미세하게 변할 때가 많은데, 낮은 정밀도는 이 신호를 노이즈로 처리해버려요.
그래서, 학습 속도라는 효율성을 과감히 희생하더라도, 모델이 지능의 임계점을 돌파하기 위해서 반드시 필요한 '수치적 무결성'을 확보하기 위해서 FP32라는 정공법을 택했습니다. 이 '사소한' 차이가 결국 모델의 수렴 여부를 결정짓는 핵심이 되었구요.
Q. 그 과정에서 '로그 확률(Log-probs)' 분석이 결정적이었다고 하셨는데, 구체적으로 어떤 데이터를 확인하신 건가요?
M1 학습 초기에, 보상 점수가 특정 지점에서 더 이상 개선되지 않고 진동하는 병목 현상을 마주했습니다. 그 때, 우리는 단순히 하이퍼파라미터를 조정하는 대신에, 모든 레이어의 로그 확률값의 분포를 로그 스케일로 전수 시각화를 해 봤어요. 분석해 본 결과, 정밀도 손실 때문에 로그값이 비정상적으로 소실되거나 특정한 방향으로 튀어버리는 특정 연산 구간을 찾아냈습니다. 이건 모델이 자신이 내뱉은 단어의 확률을 정확히 계산하지 못하고 있다는 뜻이었죠. 바로 그 부분의 계산 파이프라인을 FP32로 강제 고정하자마자 성능 곡선이 거짓말처럼 다시 치솟기 시작했습니다.
바로, 시각화된 데이터 로그를 통해서 문제의 근원을 찾아내고 데이터 타입 하나를 바꾼 결정이 모델의 생존을 결정지은 순간이었던 걸로 여전히 생생하게 기억합니다.
Q. 결국 기술적 우위는 알고리즘 자체가 아니라 '제1원리(First Principle)' 엔지니어링에서 온다는 말씀으로 들리네요.
네, 맞아요. 현재 대부분의 AI 알고리즘은 논문을 통해서 공개되어 있습니다. 진정한 차별화는 그 알고리즘을 거대 인프라 위에서 어떻게 '구현'하느냐에 달려 있어요.
우리는 남들이 당연하게 여기는 라이브러리나 설정을 그대로 믿지 않습니다. "왜 이 레이어에서 정밀도가 깨지지?", "데이터가 메모리 사이를 흐를 때 물리적으로 어떤 일이 벌어지는 거지?" 같은 가장 근본적인 질문을 던지고 이를 해결하는 과정이 곧 우리의 기술적 장벽이자 해자가 됩니다.
화려한 수식 이면에서 벌어지는, 하드웨어와 소프트웨어의 상호작용을 집요하게 파고드는 '엔지니어링의 정직함'이야말로 MiniMax가 고성능 모델을 지속적으로 내놓을 수 있는 진짜 비결입니다. 알고리즘은 공유될 수 있지만, 수개월간의 시행착오로 다져진 엔지니어링 노하우는 쉽게 복제할 수 없거든요.
IV. MoE 구조와 인프라: "연구자가 코드를 짜야 하는 이유"
Q. MoE(Mixture of Experts) 아키텍처를 운용하면서 마주하는 가장 거대한 인프라 관점의 병목은 무엇인가요?
MoE는 수천 개의 전문가 파라미터를 수만 개의 GPU 노드에 어떻게 효율적으로 분산 배치(Expert Parallelism)하고 관리하느냐가 생존과 직결될 만큼 중요한 문제예요. 데이터 토큰이 적절한 전문가를 찾아가는 라우팅 과정에서 네트워크 지연 시간이 발생하거나 데이터가 특정한 노드에 몰리는 불균형이 발생하면 전체 학습 속도가 곤두박질칩니다.
전문가 모델이 많아질수록 통신 오버헤드는 기하급수적으로 늘어나죠. 연구자는 단순히 모델 구조를 설계하는 설계자를 넘어서, 하드웨어의 메모리 대역폭과 네트워크 토폴로지를 고려한 '최적의 연산 배치도'를 그릴 수 있어야 합니다. 인프라의 물리적 한계가 곧 지능의 한계가 되기 때문이죠. 우리는 이 병목을 해결하기 위해 커스텀 커널을 개발하고 데이터 흐름을 하드웨어 수준에서 최적화하는 데 엄청난 시간을 쏟습니다.
Q. 강화학습의 과정에서 발생하는 '보상 해킹'과 '라우팅 최적화' 문제는 구체적으로 어떻게 통제하고 계신가요?
강화학습을 돌리면 모델은 보상을 극대화하기 위해서 가장 연산이 단순하거나 보상을 받기 쉬운 특정 전문가 레이어에게만 모든 업무를 몰아주는 '편향성'을 보이게 돼요. 이걸 방지하기 위해서 우리는 전문가 간의 부하 균형(Load Balancing)을 강제하는 정교한 패널티 손실 함수를 설계했어요.
또, 라우팅 로직 자체가 보상 신호에 의해서 쉽게 붕괴되지 않게끔 인프라 단에서 '전문가 다양성'을 보장하는 물리적 장치를 마련해서, 지능의 모든 영역이 골고루 발달하도록 유도하고 있습니다. 특정한 전문가만 과로하고 나머지는 노는 현상을 막아야만 진정한 지능의 깊이가 형성됩니다. 이런 것은, 단순한 알고리즘이 아니라 인프라 제어의 영역입니다.
Q. 연구자가 인프라 코드를 직접 건드려야 한다고 강력하게 주장하시는 이유는 뭔가요?
저는, 거대 모델 시대에 리서치와 인프라는 더 이상 분리된 영역이 아니라고 생각합니다. 내가 짠 강화학습 알고리즘이 왜 특정 GPU 노드에서 메모리 부족 문제를 일으키는지, 또는 왜 분산 학습을 할 때 그래디언트 동기화가 지연되는지를 모르는 연구자가 과연 근본적인 문제를 해결할 수 있을까요? 수식만으로는 설명할 수 없는 하드웨어의 물리적 한계가 존재하기 때문입니다. 직접 시스템 코드를 열고 통신 라이브러리의 설정을 조정하면서 하드웨어의 극한까지 자원을 끌어다 쓸 줄 알아야 합니다.
연구자의 손 끝에서 인프라가 움직일 때, 비로소 이론적 수치가 실제 모델의 성능으로 치환됩니다. "내 코드가 어느 GPU에서 어떻게 도는지 모른다면, 당신은 지능을 통제할 수 없다"는 게 저희 팀의 엄격한 가르침입니다.
V. 평가 시스템의 재정립: "리더보드는 지능의 단면일 뿐이다"
Q. 기존의 공개 벤치마크나 리더보드 점수에 대해 매우 회의적인 입장을 견지하고 계신데요, 그 이유를 설명해 주신다면요?
이미 세상에는 리더보드 점수를 올리기 위해서 최적화된 '시험 족보용 데이터'가 넘쳐납니다. 모델이 데이터를 학습하는 과정에서 평가 지표를 미리 학습해버리는 데이터 오염 문제는 이제 무시할 수 없는 수준입니다.
단순히 점수가 높다고 해서 그 모델이 실제로 똑똑한 것은 아닙니다. 암기력이 좋은 것과 사고력이 좋은 것은 전혀 다른 문제니까요. 우리는 겉으로 드러난 숫자보다는 모델이 한 번도 보지 못한 낯선 논리적 함정이나 복잡한 상황에서 어떻게 반응하고 추론하는지를 추적하는 자체 평가 시스템에 모든 에너지를 쏟습니다.
리더보드는 참고용일 뿐, 실제 사용자가 느끼는 '체감 인텔리전스'가 우리의 유일한 지표인 겁니다.
Q. MiniMax가 자체적으로 가장 중시하는 'Instruction Following(지시 이행)' 평가의 정밀도는 어느 정도인가요?
우리는 단순히 질문에 대한 정답률을 넘어서, 사용자가 제시한 복잡한 다중 제약 조건을 얼마나 정교하게 수행하느냐를 봅니다.
예를 들어서 "특정한 단어를 사용하지 말고, 250자 내외로 요약하되, 마지막 문장은 반드시 인용구로 끝내라"라는 지시를 내린다고 해 보죠. 이건 모델이 가진 지식의 양을 묻는 게 아니라, 모델이 인간의 언어적 의도를 얼마나 세밀하게 통제하고 논리적 일관성을 유지할 수 있는지를 묻는 척도입니다. 이 '통제 가능성'이야말로 실전에서 사용자가 느끼는 지능의 질을 결정하는 것이고, 에이전트가 복잡한 업무를 수행하기 위해 반드시 갖춰야 할 기본기입니다.
우리는 이 평가를 위해 매일 수만 개의 시나리오를 생성하고 테스트합니다.
Q. '자기 수정(Self-Correction)' 능력이 챗봇에서 독립적인 에이전트로 넘어가는 결정적 관문이라고 말씀하신 적이 있는데요, 왜 그런 거죠?
세상에 완벽한 모델은 존재하지 않습니다. 하지만 진정한 지능은 자신의 오류를 스스로 인지하고 고칠 수가 있어요.
사용자가 지적하기 전에 모델 스스로 "방금 내 답변에 논리적 모순이 있었다"라고 깨닫거나, 힌트만으로도 자신의 추론 과정을 되짚어서 에러를 수정하는 능력이, 바로 자율적인 에이전트가 되기 위한 ‘핵심적 자아’라고 생각해요.
우리는 강화학습을 통해서 모델이 자신의 답변을 스스로 비판적으로 검토하는 '내적 사고 루프'를 형성하도록 훈련시킵니다. 자신의 실수를 스스로 고칠 줄 아는 에이전트만이 인간의 개입 없이도 복잡한 업무를 끝까지 완수할 수 있을 거라는 신뢰를 얻을 수 있으니까요.
Q. 인간의 평가를 대체하는 '판사 모델(Judge LLM)' 시스템의 공정성은 어떻게 확보할 수 있나요?
수만 개의 답변을 사람이 일일이 채점하는 건 물리적으로 불가능할 뿐 아니라, 그 역시 주관적 편향이 개입되죠. 평가의 일관성이 무너지는 거예요.
우리는 가장 강력한 최상위 모델에게 엄격한 채점 가이드라인과 논리적 근거를 요구하는 '판사' 역할을 부여합니다. 판사는 단순히 점수만 매기는 게 아니라, 왜 이 답변이 감점 요인인지 논리적으로 설명해야 합니다. 때로는 여러 대의 판사 모델을 운용해서 의견이 갈릴 경우에는 합의를 도출하는 앙상블 시스템을 사용하기도 하죠.
이 판사 모델들이 내리는 객관적이고 빠른 채점 데이터는 다시 우리 모델의 강화학습 보상 신호로 피드백되면서 지능의 고도화를 무한히 가속화하는 엔진이 됩니다. AI를 더 나은 AI로 가르치는 자동화된 교육 시스템인 셈이예요.
VI. 모델의 로드맵과 미래: "챗봇을 넘어 실행자로"
Q. 최근에 출시된 M2.1과 M2.2의 기술적 차이점, 그리고 사용자가 실제 업무에서 체감할 수 있는 개선점은 뭘까요?
M2.1이 방대한 지식을 뽐내는 '박학다식한 학생'이었다면, M2.2는 논리 전개의 빈틈이 없는 '냉철한 전문가'라고 설명하고 싶어요.
M2.2에서는, 특히 코딩이나 수학처럼 아주 작은 논리적 비약도 허용되지 않는 영역에서 모델이 중간에 맥락을 놓치거나 엉뚱한 결론으로 튀는 현상을 비약적으로 해결했습니다. 우리는 강화학습 과정에서 '추론의 안정성'과 '일관성'에 가장 큰 공을 들였고, 모델이 자신의 추론 과정을 스스로 검증하는 단계를 강화했습니다. 그 결과로, 더 길고 복잡한 연쇄 추론 작업을 수행할 때도 사용자가 모델을 믿고 큰 작업을 맡길 수 있게 되었습니다.
2.1이 대화의 즐거움을 줬다면, 2.2는 결과의 신뢰를 주는 모델입니다.
Q. 올리브 당신이 꿈꾸는 '에이전틱 AI(Agentic AI)'의 진정한 완성은 어떤 모습인가요?
화면 속에서 텍스트만 뱉어내는 AI는 진정한 에이전트가 아닙니다. 그건 단지 '읽기 전용 지능'일 뿐이죠.
진정한 에이전트는 사용자의 목적을 위해서 현실 세계의 도구를 직접 집어 들고 실행하는 존재입니다. "여행 계획을 짜줘"라고 했을 때, 텍스트로 일정표를 보여주는 것이 아니라 실제로 항공권을 예약하고 캘린더에 일정을 등록하고 호텔 예약 확인 메일까지 보내는 실행력, 그게 바로 우리가 지향하는 지능의 종착지입니다.
지능이 물리적, 디지털 현실과 직접 상호작용하면서 가치를 창출하는 시대, 즉 '지능이 곧 행동'이 되는 시대를 우리는 준비하고 있습니다.
Q. M2.5의 핵심 목표인 'Long Horizon Task' 해결이 왜 그렇게 중요한가요?
현재 AI의 가장 큰 약점은, 긴 호흡의 작업을 할 때 뒤로 갈수록 처음의 목적을 잊어버린다는 점입니다.
수십 단계의 복잡한 추론과 실행이 필요한 과제를 처음부터 끝까지 일관성 있게 완수하는 능력이 바로 'Long Horizon'의 핵심입니다. 한 번의 명령으로 일주일치 프로젝트를 스스로 기획하고 수행하는 수준이죠. 이걸 해 내려면 모델의 '장기 기억력'과 '동적 계획 수립 능력'이 필수적입니다.
M2.5는 모델의 사고 호흡을 비약적으로 늘려서, 사용자가 단순한 질문자가 아니라 '디렉터'로서 복잡한 프로젝트 전체를 AI 에이전트에게 맡길 수 있는 수준의 인텔리전스를 제공할 겁니다.
VII. 학습과 영감: "발명보다는 발견의 과정"
Q. 매일 쏟아지는 수백 편의 논문과 새로운 기술들을 어떻게 효율적으로 소화하고 계신가요?
저희 팀은 기술을 활용해서 기술을 공부합니다.
매일 전 세계에서 올라오는 논문과 깃허브의 동향을 실시간으로 수집하고 요약해 주는 '내부 전용 AI 에이전트'를 적극적으로 활용하죠. 에이전트가 정보를 1차로 필터링해 주면, 연구자들은 그 중에 핵심적인 코드 저장소나 데이터셋을 직접 테스트해 보면서 가장 효율적으로 최신 트렌드를 파악합니다. 남이 요약해준 글을 읽는 것보다, 에이전트가 추려준 핵심 코드를 직접 실행해보는 게 훨씬 깊이 있는 이해를 할 수 있게 해 주는 것 같아요.
AI 연구자가 AI의 도움 없이 리서치를 한다는 것은 이제 불가능에 가깝습니다.
Q. 연구자를 꿈꾸는 사람들에게 '핸즈온 러닝(Hands-on Learning)'을 아주 강하게 강조하시는 특별한 이유가 있나요?
논문을 읽는 건 남이 만든 요리의 레시피를 구경하는 것이고, 코드를 돌려보는 건 직접 칼을 들고 식재료를 손질하는 것과 같습니다.
논문에는 저자가 성공한 결과만 나오지만, 코드에는 그 성공을 위해서 거쳐온 수많은 실패의 흔적과 엔지니어링적 고민이 고스란히 담겨 있습니다. 실제 코드를 실행하고 예상치 못한 에러 메시지를 마주하면서 디버깅을 하는 과정에서만 배울 수 있는 '엔지니어링적 직관'이 있습니다. "이 파라미터를 살짝 건드렸을 뿐인데 왜 모델이 무너지는가?"라는 고통스러운 질문과 씨름해 본 경험이 있어야만, 진짜 현실 세계의 복잡한 AI 문제를 해결할 수 있는 힘이 생깁니다.
영감은 눈이 아니라 터미널 창 위의 손 끝에서 옵니다.
Q. 개인적으로 가장 큰 영감을 준 책으로 『The Art of Creative Thinking』을 꼽으셨는데, 이 책이 연구자로서의 태도에 어떤 영향을 주었나요?
로드 저드킨스의 이 책은 저에게 '문제 해결의 유연함'을 가르쳐주었습니다.
리서치는 단순히 정해진 수식을 푸는 기계적인 과정이 아니라, 보이지 않는 데이터 간의 연결을 찾아내는 예술적인 탐험입니다. 실험이 막혔을 때 억지로 밀어붙이기보다, 관점을 완전히 바꿔가면서 문제가 스스로 정답을 드러내게 만드는 지혜를 얻었죠.
연구자에게 기술적 역량만큼 중요한 게 바로 이 '창의적 사고의 회로'라고 믿습니다. 실패를 대하는 태도조차 창의적이어야 해요 - 남들이 보지 못하는 데이터의 이면을 보는 눈이 창의성에서 나오기 때문입니다.
이 책은 제가 ICU 같은 침울한 아침을 견디고 다시 일어서게 하는 힘이 되었어요.
Q. 마지막으로, 올리브 당신에게 '창의성'이란 본질적으로 무엇인가요?
저에게 창의성은 우리가 무에서 유로 발명해내는 거창한 '인공물'이 아닙니다.
지능은 이미 우주의 물리 법칙이나 거대한 데이터의 흐름 속에 하나의 질서로 존재하고 있습니다. 우리는 단지 집요한 엔지니어링과 정밀한 강화학습라는 도구를 사용해서, 그 거대한 데이터의 숲 속에 숨겨진 정교한 지능의 문양을 '발견'해 나가는 탐험가들일 뿐입니다.
지능은 만들어지는 것이 아니라, 발견되는 것입니다. 그리고 그 발견의 도구는 오직 끝까지 포기하지 않는 엔지니어링의 정밀함과 데이터에 대한 겸손함 뿐입니다.
우리가 발견한 지능이 모든 사람의 삶을 더 창의적으로 만들 수 있다면 그것이 저의 가장 큰 창의적 성취가 될 것입니다.
Q. 오늘 인터뷰, 너무 흥미롭고 의미있는 말씀 많이 해 주셔서 감사합니다.
감사합니다.
오늘 에피소드가 재미있으셨다면, 커피 한 잔으로 후원해 주세요. ☕ 여러분의 피드백, 후원은 큰 힘이 됩니다!
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!


