튜링 포스트의 Ksenia가 흥미로운 AI 학계 연구자들 또는 업계의 사업가들을 만나 나눈 이야기들을 유튜브 영상과 함께 튜링 포스트 코리아의 ‘Interviews with Innovators’ 시리즈를 통해서 소개해 드립니다.
오늘은 ‘생성형 AI 플랫폼’을 제공하는 Vectara의 공동창업자이자 CEO, Amr Awadallah 박사와의 인터뷰입니다.
Vectara는 2022년에 미국 팔로알토에서 설립된 회사로, 기업에서 쉽게 검색 서비스, 질의응답 엔진, 챗봇 등을 구축할 수 있게 해 주는 ‘Retrieval-Augmented Generation-as-a-Service(RAGaaS)’를 제공합니다. 이 플랫폼은 다국어 하이브리드 검색, 사실적 근거의 제시, 보안성과 접근 제어 기능을 갖추고 있고, 개발자들이 간단하게 API를 호출해서 신뢰할 수 있는 AI 서비스를 빠르게 배포할 수 있게 도와 줍니다.
Vectara의 CEO이자 공동창업자인 Amr Awadallah 박사는 이집트 출신의 연쇄 창업가로, 스탠퍼드대에서 전기공학 박사 학위를 취득했고, 구글 클라우드와 클라우데라 등에서 일했습니다. 현재는 Vectara에서 ‘신뢰할 수 있는 생성형 A구현’이라는 사명에 주력하고 있는데, 데이터와 AI 분야에서 20년 이상 기술 혁신을 이끌어 온, 실리콘밸리에서도 저명한 리더들 중의 한 명입니다.
수없이 많은 차원에서 AI의 발전이 점점 빨라지고만 있는 것 같은 2025년 지금, Retrieval-Augmented Generation(RAG) 영역에서는 어떤 일이 벌어지고 있는 걸까요?
이번 인터뷰 에피소드에서는 Vectara의 공동 창립자이자 CEO인 Amr Awadallah와 함께 RAG와 관련된 모든 것을 파헤쳐 봅니다. 전 구글 클라우드의 임원이기도 한 Amr는 클라우데라를 공동 창업하기도 했고, 야후의 데이터 플랫폼의 원조 설계자이기도 합니다.
Amr와의 이야기를 통해서, 저희는 여전히 RAG가 왜 아주 중요한지, 왜 컨텍스트 윈도우가 엄청나게 커져도, 때로는 도움이 되기보다는 사람들을 오도하는 답변을 낳게 되는지, RAG와 파인튜닝의 차이를 어떤 관점으로 바라볼 것인지, 그리고 추론(Reasoning)과 기억(Memory)을 잘 분리하기 위해서 어떻게 해야 할지 등을 깊이있게 논의해 봅니다.
Amr는 액세스 제어를 적용한 검색(Retrieval)의 필요성, 환각(Hallucination)을 탐지해 내는 모델의 부상(浮上), 그리고 커스텀으로 직접 구축한 RAG 기술 스택이 실제 프로덕션 환경에서는 맥없이 무너지게 되는 경우가 왜 생기는지 설명해 주고요.
더불어, RAG의 근원과 뿌리, AGI(범용 인공지능)에 대한 Amr의 생각과 예상 시점 등에 대해서도 이야기합니다.
이번 인터뷰 역시 한 번 깊이 생각해 볼 만한 인사이트와 통찰로 가득 차 있습니다 - 여러분이 AI의 ‘진실성’에 관심이 있으시다면, 혹은 LLM을 기반으로 시스템을 구축하고 있다면, 이 대화를 보시고 ‘신뢰할 수 있는 시스템’이란 뭘까에 대해서 한 번 다시 생각해 볼 기회가 되시기 바랍니다.
전체 영상은 아래에서 보실 수 있고, 자 그럼 지금부터 인터뷰로 함께 들어가 볼까요?
Q. Amr, 만나게 되어서 정말 반갑습니다. 야후에서는 대규모의 데이터 시스템을 직접 구축하셨고, 클라우데라에서는 데이터 플랫폼의 시대를 직접 두 손으로 여셨구요. 구글 클라우드에서는 개발자 전략을 리드하셨는데요. 이제 Vectara에서는 좀 더 깊은 영역이라고 할 수 있는 ‘신뢰의 계층’을 다루고 계신데요. 대단합니다. 우선, 요즘은 더 큰 컨텍스트 윈도우를 갖춘 모델들이 등장하면서, ‘RAG는 죽었다’고 말하는 사람들도 있거든요. 정말 그렇게 봐야 하나요? 사람들이 RAG에 대해서 오해하는 점은 뭐라고 생각하세요?
안녕하세요, 저도 만나게 되어 반갑습니다.
우선 RAG에 대해서는, 현재 구글, 아마존, 마이크로소프트 같은 수많은 빅테크 기업들이 여전히 RAG를 사용하고 있고 앞으로도 그런 현실은 변치 않을 거예요. 아무리 컨텍스트 윈도우가 커진다고 해도, 여전히 LLM에 어떤 정보를 넣을지는 선택을 해 줘야 합니다.
그 윈도우에 그냥 무턱대고 정보를 가득 채워 넣으면 – 그리고 혹시 그 중에 쓸모 없는 정보나 노이즈가 포함되면 – 모델이 오히려 더 혼란을 겪습니다. 환각(Hallucination)이 더 많아질 수도 있어요. 필요한 사실을 그 안에서 제대로 찾지 못할 수 있죠.
이 모델들은요, ‘짚더미에서 바늘 하나를 찾아야 한다’면 꽤 잘 하는 편이예요. 수많은 데이터 속에서 유용한 정보 한두 개는 잘 찾아요. 하지만 여러 가지의 관련 정보를 한꺼번에 찾는 데는 그리 능하지가 않아요. 그리고 해당하는 윈도우 안에서도 앞쪽이나 뒤쪽의 정보에 더 주의를 기울이고, 가운데 있는 내용은 무시하는 경향도 있습니다.
RAG는 이런 문제를 해결해 줍니다. 왜냐하면, RAG는 근본적으로 ‘메모리와 추론을 분리하는 방식’이거든요. 메모리는 지식이고, 추론은 지능이에요. 사람도 그렇게 작동한다고 생각해요. 예를 들어서 고등학교 시험을 본다고 해봐요. 책을 펼쳐놓고, 조수가 ‘딱 이 문장을 봐’라고 알려준다면 성적이 훨씬 좋겠죠. LLM도 마찬가지예요. 가장 관련 있는 정보를 ‘스마트하게’ 뽑아서 넣어주면, 훨씬 더 추론을 잘 할 수 있습니다.
그리고 RAG이 가져다주는 또 하나의 큰 이점은 ‘보안’이에요.
모든 걸 그냥 컨텍스트 윈도우에 다 던져 넣으면, 사용자가 어떤 식으로든 접근할 수 있게 되죠. 프롬프트 인젝션 공격을 통해서 원래 보여주면 안 되는 정보에 접근할 수도 있어요. 하지만 RAG를 사용하면, 그 앞단에서 필터링이 가능해요. 민감한 정보는 가려버릴 수 있죠. 사용자가 어떤 식으로 프롬프트를 짜든, 보여주지 않아야 할 정보는 노출되지 않게끔 만들 수 있습니다.
Q. 그렇군요. 그렇다면, RAG가 AI를 기반으로 하는 시스템에서 ‘신뢰’를 구축하는 핵심 구성 요소라고 보시나요? 혹은 그 외 다른 것도 있을까요?
맞습니다. 액세스 제어 기능이 있는 RAG는 확실히 ‘신뢰’와 ‘보안’을 위한 핵심 구성 요소 중 하나라고 생각해요. 특히 프롬프트 인젝션 공격으로 인한 정보 유출을 막는 데 가장 효과적인 방식 중 하나죠.
반면에, 파인튜닝을 한다고 생각해 보세요. LLM에 모든 정보를 넣어버리면 – 큰 컨텍스트 윈도우를 사용하는 경우든, 파인튜닝을 하는 경우든 말예요 – 결국 누군가는 교묘한 프롬프트를 써서 그 정보를 빼낼 수 있어요.
하지만 RAG을 사용하는 구조에서는 그런 일이 불가능해요. 정보가 모델에 도달하기 전에, 즉 ‘Retrieval’ 단계에서 이미 필터링되니까요. 그래서 더 안전한 겁니다. 안전은 ‘신뢰’와 직결되구요.
Q. 말씀하신 내용에 완전히 동의할 수 밖에 없네요. 그런데 왜 ‘RAG는 죽었다’고 과감하게 말하는 사람들이 계속 나올까요?
솔직히 말씀드리면, 실전에서 일하는 사람들 중에는 그렇게 말하는 사람은 없어요. 기자나 애널리스트들 중에는 그렇게 말하는 사람이 있을 수도 있지만, 실제로 기업 환경 내에서, 기업의 데이터를 가지고 AI 시스템을 구축하는 사람들은 다 RAG를 기본으로 고려하고 사용합니다.
마이크로소프트, 구글, 아마존, 오픈AI까지 다 그렇게 해요. 예를 들어서, 오픈AI가 얼마 전에 ‘Open Connectors’라는 기능을 출시했는데요. 이건 ChatGPT 세션을 사용자의 데이터에 직접 연결하는 기능인데, 이게 바로 RAG이죠. 사용자의 데이터를 모델에 몽땅 집어넣는 게 아니에요. 필요할 때, 관련 있는 문서 몇 개만 뽑아와서 프롬프트에 넣는 방식이죠.
예를 들어서 사용자가 어떤 질문을 했고, 그 답이 구글 드라이브 안에 있다면, RAG는 관련 문서 3~4개만 찾아서 모델에 제공합니다.
이런 구조는 지금도, 앞으로도 AI 시스템의 기반이 될 거예요. 쉽게 사라질 구조가 아닙니다. 물론 반론이 있는 분이 있다면, 언제든지 논의는 환영입니다. ^.^
그리고 또 하나는 성능 문제예요. 컨텍스트 윈도우에 많은 걸 넣는 방식은 비용이 많이 듭니다. 계산 비용이 기하급수적으로 늘어나요. 단어 수를 2배로 늘리면 비용은 4배가 되는 거죠.
반면에, 스마트한 Retrieval 시스템은 로그 N 수준으로 비용을 통제할 수 있어요. 훨씬 더 효율적이고, 계산 비용도 상대적으로 적고 지연 시간도 짧습니다. 더 빠르고, 저렴하고, 더 정확한 방식이에요. 그래서 실전용 AI 시스템은 다 RAG를 쓸 수 밖에 없습니다.
Q. 네, 잘 이해했습니다. 그런데, 꽤 많은 팀이 ‘RAG 시스템을 구축’하는 걸 단순히 벡터 데이터베이스에 연결하는 것과 비슷한 뭔가라고 생각하는 경우도 있어 보이더라고요. 그런데 제가 들은 바로는, Vectara에서는 그보다 훨씬 더 많은 작업을 하고 있잖아요. 메타데이터, 업데이트, 인용 정보 추적, 스코어링, 모니터링 기능까지 도입하셨다고 들었어요. 과연, DIY 방식이나 사내에서 몇 개의 오픈소스나 외부 도구를 기반으로 RAG 시스템을 구축하는 건 어디서, 어떤 관점에서 한계를 드러낼 수 있다고 보시나요?
좋은 질문이예요. 그런데 이건 사실 두 가지 질문이 섞여 있는 거예요.
첫째는, Retrieval이 벡터 시스템에만 해당하느냐? 아닙니다. 만약 그렇다면 이름이 RAG가 아니라 VAG (Vector-Augmented Generation)이었겠죠. 'R'은 Retrieval을 의미하고, Retrieval은 여러 가지의 방식으로 할 수 있어요.
벡터 DB는 의미론적 데이터(Semantic Data)를 다루는데 있어서는 정말 뛰어나죠. 비정형 문서나 의미 기반 매칭을 한다면, 벡터 DB는 훌륭한 선택이에요. 하지만 지식 그래프나 명령 기반 데이터에는 Neo4j 같은 그래프 DB가 더 적합하고, 반정형 문서를 다룬다면 MongoDB가 더 나을 수도 있어요. 정형 데이터나 수치 데이터의 경우라면, Snowflake나 Oracle이 더 적절하겠죠.
다시 말해서, RAG는 이런 다양한 소스들을 조합해서, 과제(Task)에 따라서 가장 적합한 ‘바늘’을 찾아내는 구조입니다. 벡터 DB는 그중 하나의 요소일 뿐이에요.
이제 두 번째 질문 – 직접 구축하는 것에 대한 이야기로 넘어가죠.
빠르게 데모를 만드는 건 사실 쉬워요. 몇 개의 문서를 벡터 DB에 넣고, 챗봇을 연결하면 돼요. 몇 시간, 길어도 이틀이면 됩니다.
그런데 이걸 실제 기업 환경에서 운영 가능한 수준으로 확장하려면 전혀 다른 차원의 문제가 됩니다.
실제 조직에서는 문서, 숫자들을 포함하는 테이블, 반정형 데이터, 그래프 기반의 지식 등 아주 다양한 데이터 유형을 다뤄야 하잖아요.
모든 데이터 소스에 대해서 적절한 수준의 ‘접근 제어(Access Control)’도 구현해야 하죠. 누가 어떤 정보에 접근할 수 있는지를 철저히 제한해야 하니까요. 그리고 환각을 완화하고, 정확성을 보장하고, 출처를 잘 추적하는 것 등도 필수적인 작업입니다.
게다가, 엄청나게 빠르게 진화하는 모델의 발전 속도를 따라가야 해요. 이번 주엔 PDF에서 표를 잘 뽑는 기능이 개선되고, 다음 주엔 이미지에서 OCR이 더 좋아지고…직접 시스템을 구축하려고 한다면 이 모든 걸 계속 따라잡아야 하는 거죠.
그래서 Vectara가 도움이 되는 영역이 있다고 생각해요. 우리는 고객이 ‘자기만의 비즈니스 로직’과 ‘지능’에 집중할 수 있도록 돕고, 나머지 복잡한 시스템은 우리가 책임지는 방식이죠. 최신 모델을 계속 반영하고, 정확성 문제와 환각을 잡아내고, 데이터 보안도 책임집니다.
Q. 제가 이야기를 나눠 본 머신러닝 스타트업들 중에 2020년이나 2022년에 시작한 회사들이 꽤 있었어요. Vectara도 2022년에 시작하셨죠? 그건 ChatGPT가 나오기 전이고, 생성형 AI 붐도, RAG에 대한 논의도 없던 시절이잖아요. 그렇다면, ChatGPT의 등장이 Vectara에 어떤 변화를 가져왔을까요? 혹시 Vectara의 사업이나 제품을 만들어가는 방향에 변화가 있었나요?
좋은 질문이에요. 사실, 크게 바뀐 건 없었다고 할 수 있는데, 그 이유는, 말씀하신 대로, 제가 예전에 구글에 있었기 때문이죠.
구글에는 MEENA라는 시스템이 있었어요. 이건 이미 ChatGPT 수준에 가까운 성능을 2년 전에 보여줄 정도의 수준이었어요. 대화 흐름도 자연스럽고, 정말 놀라웠죠. 지금처럼 정교한 추론은 아니더라도, 튜링 테스트 비슷한 걸 통과할 만큼 좋았어요. 그래서 ‘생성형’의 능력이 각광받는 시대가 올 거라는 건 이미 알고 있었어요.
Vectara를 처음 시작할 때부터 우리의 초점은 ‘Retrieval’이었어요. 즉, 어떻게 하면 건초더미 속에서 가장 관련성 높은 바늘을 찾을 수 있을까 – 그리고 그걸 각 기업의 로직에 맞게 구현할 수 있을까 하는데 초점을 맞췄다는 거예요
예를 들어서, 어떤 문서가 Sue라는 사람에게서 왔다면 Joe의 문서보다 우선순위를 높게 둬야 할 수도 있죠. 왜냐하면 Joe는 가끔 틀린 말을 하거든요. 또는, 작년에 만들어진 PPT보다 지난달의 보고서가 더 중요할 수도 있죠. 이런 ‘비즈니스 컨텍스트’를 Retrieval 설계에 처음부터 반영했어요.
그 다음 ChatGPT가 나왔고 – 우리는 그냥 LLM의 백엔드에 우리가 만든 Retrieval 엔진을 붙이기만 하면 됐죠. 그런데 그 순간, 환각 문제가 엄청나게 심각하다는 걸 알게 됐어요.
출처를 제공해도 – 즉, “이게 진실이야, 이 안에서만 답해”라고 모델에게 말해도 – 여전히 헛소리를 만들어내는 경우가 있었어요.
다행히 요즘은 많이 개선됐어요. ChatGPT 초창기엔 이렇게 ‘근거가 있는 질문’에 대해서도 환각률이 10~20%였어요. 지금은 고급 모델들의 경우 – 우리 모델도 포함해서 – 1% 수준까지 내려왔습니다. 굉장한 발전이죠.
하지만 여전히 조심해야 하는 영역, 조금의 환각일지라도 위험한 경우가 있어요. 의료 진단, 계약 검토, 공급망 분석, 자금세탁 방지 같은 곳에서 1%는 치명적일 수 있잖아요.
그래서 우리는 그 문제를 해결하겠다고 결정했고, 지금은 세계에서 가장 성공적인 환각 탐지 모델 중 하나인 ‘HHEM (Hughes Hallucination Evaluation Model)’을 만들었습니다. 허깅페이스에 오픈소스로 공개했고, 지금까지 400만 회 이상 다운로드됐어요.
Q. 아, 정말 놀라운 이야기네요. 몇 달 전에, 저는 Sharon Zhou (전 Lamini의 CEO)와도 이야기를 나눴는데, Sharon도 환각 문제에 집중하고 있었던 기억이 나요. Sharon은 모델을 일종의 ‘외과 수술’처럼 수정했다고 하더라고요 – 그러니까 실제로 가중치를 바꾸는 방식이요. 하지만 Vectara의 접근 방식은 다르죠? Vectara의 접근 방식은, 출력 결과를 소스와 대조해서 검증하는 방식 아닌가요?
Yes와 No 둘 다라고 해야겠네요. 지금은 사실 두 가지의 접근 방식을 모두 채택하고 있어요. 저희는 LLM을 처음부터 직접 만드는 회사는 아니에요 – 그 정도로 큰 자금이 들어오지는 않거든요. 아시겠지만, 그런 모델 하나 훈련시키려면 5천만~6천만 달러가 듭니다.
Q. 중국 기업과 협력한다면 혹시 훨씬 저렴한 비용으로 할 수도 있는 건 아닌가요?
네, 그게 지금 저희가 하고 있는 바로 그 방법이예요. LLaMA를 베이스로 시작했구요 – 당시엔 LLaMA 2를 사용했고, 거기에 파인튜닝을 했습니다. 그래서 예, 저희도 모델의 내부 가중치를 일부 수정합니다. 이런 파인튜닝은, 당연히 환각을 줄이는 데 도움이 돼요.
원리는 간단해요. 모델이 정답을 내면 ‘쿠키’를 주고, 틀리면 ‘뺨을 때리는’ 거예요 – 즉, 벌을 주는 거죠. 그러면 모델은 시간이 지날수록 확신이 없을 땐 대답을 하지 않는 방향으로 학습합니다. 이게 환각을 줄이는 방식이에요.
하지만, 변하지 않는 핵심은 이거예요: 그렇게 내부를 다 고치고 나서도, 환각은 여전히 발생할 수 밖에 없다는 거요.
우리의 ‘Hallucination’ 리더보드를 보시면 아시겠지만 – 구글에서 검색해 보세요, 가장 위에 나옵니다 – 오픈AI, 구글 등에서 나온 최고 수준의 모델들도 여전히 1% 정도는 환각 현상을 나타냅니다.
그 말은, 결국 어떤 모델이든 그대로 믿어서는 안 된다, 믿을 수 없다는 거예요. 아무리 잘 훈련을 했다고 해도 완전할 수는 없어요.
그래서 저희는 ‘수호 천사(Guardian Angel)’ – 더 정확히 말하면 ‘수호 에이전트(Guardian Agent)’라고 부르는 걸 만들어서 활용합니다. 이건 모델의 출력을 모니터링해서 환각이 발생했는지를 감지하는 역할을 해요.
이런 방식이 아마도 AI 모델에 대한 신뢰를 가능하게 해 주는 유일한 길이라고 생각해요.
예를 들어서, 고객 지원용 LLM이 있다고 생각해 봅시다. 만약 ‘수호 에이전트’가 ‘환각이 없다’는 판단을 하면, 그 응답은 바로 고객에게 보내도 되는 거죠. 하지만 환각이 있다고 의심이 되면, 그 답변은 다시 한 번 검토할 담당자 - 사람이예요 - 에게 넘어가는 거죠. 이런 구조가 궁극적으로는 생산성을 극적으로 높이면서도 안전성과 신뢰성을 유지하는 방식이라고 저희는 봅니다.
Q. 그렇다면, 사람을 개입시키는 방식 – 즉 HITL(Human-in-the-Loop) 구조를 적용하시는 거라고 보면 맞나요?
네, 맞아요 – 저희는 고객들에게 이렇게 조언합니다: 환각의 위험이 높은 경우에는 반드시 사람을 개입시키라고요.
그런데, 4주 정도 전에 저희가 환각을 ‘수정(Correction)’하는 모델을 공개하기도 했어요. 이건 그 중간 단계를 메꿔주는 역할을 하죠. 즉, 탐지 모델이 문제가 있다고 판단하면, 먼저 이 수정 모델에 답변을 넘기게 되고, 만약 수정 모델이 환각을 잘 고쳐낸다면, 사람의 개입 없이 바로 사용자에게 전달할 수 있습니다. 수정에 실패하면, 그때 사람이 개입하죠.
Q. 말씀을 이미 하셨지만, Vectara의 모델을 오픈소스로 공개했다고 들었어요. 그리고 Amr 님은 오픈소스의 열렬한 지지자로 알고 있는데요. 왜 오픈소스가 그렇게 중요하다고 보시나요? 그리고 그게 실제 수익에는 어떤 도움이 되나요?
먼저 말씀을 드리자면, 오픈소스는 당연히 직접적으로 수익을 만들지는 못하죠. 공짜로 뭔가를 주는 거니까요.
하지만 오픈소스가 주는 진짜 가치는 ‘개발자 생태계에서의 인지도’에 있어요. 클라우데라에 있었을 때, 그걸 직접 경험했어요. 많은 개발자들이 오픈소스가 아니면 아예 써보지도 않아요.
그래서 뭔가를 오픈소스로 공개하면, 우리의 연구나 개발 결과물을 훨씬 더 많은 개발자들의 손에 닿게 만들 수 있어요. 그렇게 개발자 커뮤니티와 관계를 맺어 나가면서, 나중에 그 개발자들이 소속된 조직에서 플랫폼 전체를 활용, 구매할 수 있는 기회로 이어지는 거죠.
물론 그렇다고 해서 모든 걸 다 공개하는 건 아니에요. 클라우데라 시절에는 플랫폼 전체를 오픈소스로 공개했고, 결과적으로 수익화가 굉장히 어려웠죠. 고객들이 이렇게 말하곤 했어요: “굳이 당신들에게 비용을 낼 이유가 있나요? 우리끼리 그냥 쓰면 되잖아요.”
그래서 현재 Vectara에선 조금 더 전략적으로 접근하고 있어요. RAG SaaS 플랫폼 전체는 오픈소스로 내놓지 않습니다 – 그건 계속 독점적으로 유지하고 있어요. 하지만 저희의 환각 탐지 모델 – 그러니까 ‘수호 에이전트’ – 는 오픈소스로 공개했어요. 왜냐하면 이걸 통해 클라우데라의 기술을 시장에 선보이고 우리의 기술에 대한 인지도를 높일 수 있거든요. 우리가 이런 문제를 해결하고 있고, 정확한 답변을 제공하도록 도와주는 선도 기업이라는 걸 보여주는 거죠.
Q. 앞으로 AI 모델의 ‘환각’에 대응하는 것과 관련해서 어떤 계획이 있으신가요?
다음 단계의 큰 과제는 ‘멀티모달 콘텐츠에서의 환각 탐지’예요.
지금은 주로 텍스트에 집중하고 있는데요, 즉 모델이 답변에 사용하는 텍스트 정보가 실제로 존재하는 근거와 일치하는지를 확인하는 거예요.
그런데, 표(Table)에서도 환각이 발생할 수 있잖아요? 표에 또 얼마나 많은 중요한 정보가 있나 생각해 보면, 여기서 발생하는 환각을 잘 처리하는 건 너무나 중요하잖아요. 모델이 표를 기반으로 해서 답을 만들 때, 실제 셀(Cell)에 있는 값과 일치하는지를 반드시 검증해야 돼요.
그리고 다이어그램 같은 것도 있어요 – 이건 단순히 OCR로 텍스트만 추출하는 걸로는 부족하고, 시각적 구조 자체를 이해해야 환각 여부를 알 수 있어요.
결국, 앞으로는 영상, 이미지 등을 포함하는 멀티모달 환경으로 확장해 나가는게 아주 중요한 방향입니다.
Q. 네, 멀티모달 모델은 확실히 다음 번에 다가올 큰 흐름이죠. 제가 LinkedIn에서 Amr 님의 글을 읽었는데, RAG의 기원을 바로잡는 게시물이 특히 인상 깊었어요. 저는 개인적으로 ‘역사’에 관심이 많고, 저희 튜링 포스트에서도 자주 다루는 주제이기도 해요. 우리 독자들을 위해서 말씀을 다시 한 번 해 주신다면, RAG를 처음 만든 건 누구고 역사의 원류는 어떻게 되나요?
좋은 질문 고마워요. 제가 그 게시물을 쓴 이유가 있어요. 요즘 어떤 스타트업, 또는 어떤 개인들이 “RAG는 우리가 발명했어요!”라고 주장하는 경우가 있더라고요. 전 그걸 보면서 “아니, 이 방식은 훨씬 예전부터 있었는데?” 싶었죠.
RAG의 뿌리는 연구 커뮤니티예요. 정보 검색(Information Retrieval)과 자연어 이해(NLU) 분야의 선구자들이 1960년대부터 이런 개념을 다듬어 온 거예요.
가장 초기의 예시 중 하나는 BASEBALL이라는 시스템이에요. 이 시스템은 정확한 답을 원한다면 인간처럼 작동해야 한다는 아이디어를 보여줬는데요: 먼저 관련된 정보를 검색하고, 그 다음 그 정보를 기반으로 추론을 하는 거죠. 이 두 단계를 조합해야 더 정확하고 안전한 시스템이 된다는 거예요.
그래서 저는, 뭔가를 처음 개념화하고 만들어간 공로는 정당하게 인정돼야 한다고 생각하고, 그 공로가 바로 수십 년 동안 이 개념들을 갈고닦아온 IR/NLU 연구자들에게 가야 된다고 이야기한 거예요.
Q. 1960년대라니, 아주 오래 됐군요. 네, 사실 사람들은 역사를 쉽게 잊곤 하죠.
네, 맞아요. 그래서 더욱 저는 계속 상기시키고 싶어요.
그 때와 오늘날의 차이점은, 이제 우리가 정말 뛰어난 생성 능력을 가진 LLM들을 갖고 있다는 거죠. 예전에는 생성 작업 자체가 훨씬 더 상징(Symbolic)적인 작업에 가까웠어요 – 문장을 이어 붙이거나, 템플릿 기반의 결정 지원 방식이었죠. 지금은 완전히 다릅니다. 문맥에 맞게 유창하게 말할 수 있는 생성형 AI 모델들이 너무 많으니까요.
Q. 아까 말씀하신 멀티모달 모델 이야기를 조금 더 해 보고 싶은데요. 멀티모달 때문이기도 하고, 모델 자체가 점점 더 복잡해지고 있는 것도 사실인 것 같은데요, ‘환각’을 완전히 없애는 게 가능하다고 보시나요?
저는, 지금의 트랜스포머 아키텍처로는 불가능하다고 봅니다.
트랜스포머와 심층신경망은 – 제프리 힌튼이 노벨상을 받은 그 연구를 했던 그 구조들이죠 – 본질적으로 확률적이에요. 그리고 확률 기반 시스템에는 항상 오류 가능성이 있어요. False Positive나 False Negative가 언제든 생길 수 있죠. 그게 바로 환각이 생기는 원인이예요.
지난 몇 년 동안 우리는 꽤 많은 발전을 이뤄냈어요 – 아까 이야기한 것처럼, 환각률이 1% 수준까지 내려왔어요. 아마 0.5%까지 낮추는 건 가능할 거라고 보지만, 지금은 어느 정도 ‘정체 상태(Plateau)’에 접어든 게 아닌가 싶어요.
좋은 소식이 있다면, ‘환각 탐지’ 기술이 완벽에 가까워지면, 문제는 충분히 관리 가능한 수준이 된다는 겁니다. 예를 들어서, 시스템이 “이 20페이지짜리 보고서의 이 문장은 뭔가 수상해 – 사람이 한 번 봐줘야겠어”라고 알려줄 수 있다면, 0.5%의 확률로 그런 일이 생기더라도 우리는 충분히 감당할 수 있는 수준이 되는 거예요.
저희가 목표로 하는게 바로 그 지점이예요 – 탐지 기술을 더 발전시켜서 환각이 사실상 '문제가 되지 않는 수준'으로 만드는 거요.
완전히 새로운 아키텍처가 등장하지 않는 한 – 확률적이지 않은 구조로 – 우리는 여전히 이런 문제들과 함께 살아가야 할 겁니다. 그런 구조가 언젠가 나올까요? 잘 모르겠어요. 하지만 확실한 건, 트랜스포머를 쓰는 한, 환각은 사라지지 않는다는 거예요.
Q. 최근에는 새로운 아키텍처들도 많이 등장하고 있잖아요. 혹시 그중에서 특별히 관심을 끄는 게 있나요?
아직까지는 ‘확률적이지 않은’ 모델 구조를 본 적이 없어요. 유일한 대안은 ‘상징적(Symbolic)’인 접근 방식인데 – 이건 정확성 면에서는 뛰어나지만, 확장성이 너무나 떨어진다고 생각해요. 그래서, LLM 수준의 대규모 적용을 하고자 하는 경우에는 적합하지 않아요.
Q. 정말 흥미롭네요. 여전히 연구해야 할 게 정말 많다는 생각이 듭니다. 그럼 Amr 님은 직접 연구도 하시나요?
저는 개인적으로 연구를 하진 않아요 – 하지만 저희 팀은 하고 있죠.
Vectara에는 약 60명의 팀원이 있고, 그 중 5명은 온전히 머신러닝 연구에만 집중하고 있어요. 그리고 25명 정도는 플랫폼 구축 – 보안, 안정성, 모니터링 등 – 에 집중하고 있구요.
우리 ML 연구팀의 초점은 일단은 ‘수호 에이전트(Guardian Agents)’ 문제에 맞춰져 있어요. LLM의 출력을 어떻게 모니터링할 것인가 – 단지 정확성뿐 아니라, 편향성, 유해성, 위험 가능성까지요.
예를 들어서, 모델의 답변이 누군가를 불쾌하게 만들 위험이 있는지 감지할 수 있을까? 혹은 모델이 현실에서 위험한 행동을 하도록 유도될 수 있는지를 막을 수 있을까? 하는 것들이요.
특히 AI 에이전트 환경에서 사용될 경우에, 이런 문제는 훨씬 더 중요해지거든요. 그래서 우리의 핵심 연구 주제는, AI를 더 안전하고, 신뢰할 수 있고, 인간의 가치에 더 잘 부합하도록 만드는 ‘수호 에이전트’를 구축하는 것이 되는 겁니다.
Q. ‘수호 에이전트’라는 비유가 정말 멋지네요. 지금까지 꽤 기술적인 내용에 대해 이야기해왔는데, 이번엔 조금 거시적인 질문을 드릴게요. Amr 님은 지금 AGI를 만들고 있다고 느끼시나요? 그리고 Amr 님이 생각하는 AGI의 정의는 무엇인가요?
와… 이건 정말 어려운 질문이네요. 사실 AGI에 대한 정의는 계속 바뀌고 있어요 – 특히 ChatGPT가 등장한 이후로요.
저한테 AGI란, ‘어떤 분야에서든 인간보다 더 뛰어난 시스템’을 의미한다고 보구요. 그런 의미에서라면, 지금의 모델들은 아직 거기 도달하지 못했어요. 몇몇 분야에선 평균적인 사람보다 낫지만, 최고 전문가보다 낫지는 않아요. 코딩 분야만 해도 – AI가 상위 10% 수준일 수는 있어도, 전 세계 최고 개발자보다는 못하죠. 법률, 의학, 양자물리학, 건축, 예술, 시, 춤... 어느 분야든 마찬가지예요.
AGI라는 건, 그런 모든 분야에서 인간보다 나은 존재를 말해요. 그리고 저는 그 시점이 5년 안에 올 거라고 봅니다.
Q. 고작 5년이요?
네. 그리고 그 이유는 이거예요.
지금 모두가 ‘코딩’에 집중하고 있어요. 만약 AI가 인간 최고의 개발자보다 뛰어나게 된다면, 그 시스템은 스스로를 개선할 수 있게 됩니다.
그 순간부터는, 발전 속도가 매우 빨라질 거예요. 저희는 코딩 모델이 최고 수준에 도달하는 시점을 앞으로 2년 이내로 보고 있어요. 그리고 그 이후 3년간 – 쉬지 않고, 24시간 365일 스스로를 개선하게 되면 – 다른 모든 분야도 빠르게 마스터하게 될 거라는 논리죠.
Q. 감사합니다. 그럼 이제 마지막 질문 드릴게요. 저는 책이 사람의 지식 뿐 아니라 지성을 만드는데 큰 역할을 한다고 생각하거든요. Amr 님에게 반복해서 떠오르는 책이나 아이디어가 있을까요? 진실, 시스템, 지능에 대한 Amr 님의 사고방식을 형성한 책이 있다면요?
두 권 말씀드릴게요 – 하나는 소설이고, 하나는 논픽션이에요.
소설은 아이작 아시모프의 『파운데이션 시리즈(Foundation)』입니다. 어릴 적에 이 책에서 큰 영감을 받았어요. 그리고 솔직히 말해서, 그 책에 나오는 예측 중에 일부는 지금 우리가 살고 있는 현실과 많이 겹쳐요. 저 뿐 아니라 이 업계에서 일하는 많은 사람들에게 영향을 줬을 거라고 생각해요.
논픽션은 유발 하라리의 『사피엔스(Sapiens)』입니다. 그 책에 나오는 가장 강력한 아이디어는 이거예요: 인간이 다른 생명체와 구별되는 건 단지 지능 때문이 아니라, ‘허구와 이야기’를 믿는 능력 때문이라는 거예요.
그 능력 덕분에 우리는 대규모 협업을 할 수 있게 되었고, 문명을 세울 수 있었죠.
실제로 그 책에 이런 문장이 나와요: “원숭이에게 100달러와 바나나를 주면, 언제나 바나나를 선택한다.
하지만 인간은 100달러를 선택한다. 왜냐하면 우리는 그 돈 뒤에 있는 ‘이야기’를 믿기 때문이다.”
Q. 정말 흥미롭네요. 오늘 대화, 그리고 풍부한 통찰력을 공유해 주셔서 정말 감사드려요.
저도 정말 즐거웠어요. 다음에 또 대화 나눌 수 있기를 기대하겠습니다.
읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.



