- Turing Post Korea
- Posts
- AI의 환각, 극복할 수 있다 - Lamini의 Sharon Zhou 인터뷰
AI의 환각, 극복할 수 있다 - Lamini의 Sharon Zhou 인터뷰
앤드류 응의 제자이자 Coursera의 일타 강사, 기업 고객에 생성형 AI의 가치를 전달하며 느낀 점, 앞으로의 Lamini의 비전

최근에 튜링 포스트의 Ksenia가 HumanX 컨퍼런스에 참가했었는데, 거기서 흥미로운 연사들과 연구자들, 사업가들을 만나 많은 이야기를 나누었다고 합니다. 그 내용들을 유튜브 영상과 함께 앞으로 튜링 포스트 코리아의 ‘Interviews with Innovators’ 시리즈를 통해서 소개해 드리고자 합니다.
오늘 인터뷰에서는 Sharon Zhou를 만납니다.
Sharon Zhou는 스탠포드 대학에서 앤드류 응 (Andrew Ng) 교수의 지도를 받으면서 생성형 AI 분야에서 박사 학위를 받았고, 현재 Lamini의 공동 창업자이자 CEO로 일하고 있습니다. (Lamini에는 앤드류 응과 안드레 카파시가 투자하기도 했습니다) MIT 테크놀로지 리뷰의 ‘35세 미만 혁신가’로 선정된 바 있는 Sharon은 생성형 AI 모델의 능력, 한계를 평가하는 새로운 벤치마크를 개발하는데도 노력을 하고 있습니다. 코세라 (Coursera)에서 약 25만명 이상 학생들이 수강한 GAN (Generative Adversarial Networks) 강좌를 만들고 진행했고, 최근에는 확산 모델과 LLM에 대한 강좌도 맡은 바 있습니다. 하버드 대학에서 컴퓨터 과학과 고전학을 함께 전공한 최초의 학생인데, 두 전공 모두에서 최우등으로 졸업했다고 하네요.
📝 인터뷰의 핵심적인 내용을 요약하면:
‘초현실적인 이미지를 다루는 작업’에서 ‘기업용 LLM’까지의 여정
Sharon의 여정은, 초기에 생성형 AI 모델에 대한 연구에서부터 실제 기업이 활용할 수 있는 정확도로 LLM을 개선, 파인튜닝하는 스타트업 Lamini의 창업까지 이어집니다.
LLM의 ‘환각 (Hallucination)’ 현상, 고칠 수 있습니다
Sharon은 LLM의 환각을 줄이기 위해서, 프롬프트를 바꾸는 게 아니라, 마치 외과 의사가 수술하듯이 모델의 가중치를 조정하는 기법에 대해서 이야기합니다. 이 기법으로, 30% 이하의 정확도를 보여줬던 모델이 90% 이상의 정확도를 보여주는 인상적인 개선 수치를 달성합니다.
Benchmarks ≠ Reality
(특히) 기업고객에게는, MMLU든 Spider든 벤치마크에서 좋은 성능을 내는 건 중요한 게 아니죠 - 자기들이 보유하고 있는 복잡한 데이터에서 잘 작동하는 모델이 필요한 겁니다.
Big Idea
Sharon은 더 많은 사람들이, 그리고 연구자나 개발자가 아니라고 하더라도, AI 모델의 행동을 조정하고 튜닝할 수 있어야 한다고 생각하고, 그런 미래를 만들고 싶어합니다.
인터뷰 내용이 조금 길기는 합니다만, 생각해 볼 만한 내용을 많이 담고 있으니 꼭 끝까지 보시기를 권합니다. 아래의 영상을 직접 한 번 보셔도 좋겠습니다 ⬇️
Q. Sharon 안녕하세요? 당신은 생성형 AI라는게 지금 우리가 이야기하는 엄청난, 멋진 것이 되기 훨씬 전부터 그 일을 해 왔고, 엄청나게 유명해진 Coursera 강좌를 만들고 가르치기도 했는데요. 얼마나 많은 사람들이 그 강좌를 들었나요?
네, 반가워요, Ksenia.
지금은 그 Coursera 강좌를 수백만명의 사람들이 듣고 있지만, 처음에는 단 한 명으로 시작했었죠.
Q. 정말 단 한 명에서 시작했군요. 그 이후에 빠르게 수십만, 이제는 수백만명이 넘는 사람들이 들었네요. 처음 시작한 이후에 어떤 과정을 거쳐서 이 기술과 거기 관심을 가지는 사람들이 변해왔다고 생각해요?
제가 생각하는 가장 큰 차이점이라면, ‘오늘날 이 생성형 AI 기술이 상업적인 측면에서 엄청나게 의미가 커졌다는 거’예요. 처음에는 그냥, 저희에게는 ‘마법같은 기술’이었어요. 저와 같은 연구자들은, 이 기술의 잠재성을 봤고, 어떻게 발전할 건지 예상을 해 볼 수는 있었어요. 물론 당시의 출력물은 실제로 사용할 정도의 수준과는 거리가 멀었지만요. 그 때는, 이미지 기반 모델은 마치 ‘악몽에서나 나올 법한 이미지’, ‘공포 영화에 나올 법한 사람들’을 만들어냈어요. 그래도 그 땐 그게 대단하다고 느꼈어요 - 랜덤하게 픽셀을 찍어내는 것과 비교하면 훨씬 의미있는 결과값이었죠.
제가 이 연구를 시작한 게 2016 ~ 2017년쯤이었는데, 이제는 완전히 현실처럼 보이는 영상까지 만들어낼 수 있게 됐죠. 그 때의 기술과 지금의 기술이 같다고 볼 수 없을 정도예요.
2019년 쯤에 생성형 AI 기술에 대해서 생각하면서 이미지, 목소리를 생성하면서 AI로 만든 앵커가 있는 미디어도 가능하겠다는 생각을 했는데, 당시에는 아무도 그게 가능할 거라고 생각하지는 않았던 기억이 나네요.
Q. 일종의 ‘선견지명’이 있었네요 - 오늘날에 AI를 사용하지 않는 미디어는 상상할 수가 없을 정도인데 말이죠.
그런가요? 당시의 생성형 AI 기술이 만들어낸, ‘끔찍하다’고도 할 수 있는 이미지를 보고도 매료가 될 정도였으니까요. 이상하게도 그 기술이 제 ‘모성 본능’을 일깨웠다고 해야 할까요? “이건 내 자식이야”라는 생각이 들었어요 - 모델이 시간이 지나면서 더 나아지는 모습을 볼 수 있었으니까요. 훈련을 하면서 눈이 보이게 되고, 그 다음에는 얼굴 전체가 보여요. 그럼 “와, 내가 이 아이를 이 단계까지 키웠어” 하는 생각을 하게 되죠. 적절하게 하이퍼파라미터를 조정하고, 데이터를 잘 정리해서 넣어서 여기까지 오게 만든 셈이니까요.
그 모델들을 제 ‘아이들’이라고 부르는 걸 당시 지도교수인 앤드류 응 교수님은 “흠 좀 이상하지만 뭐 괜찮아”라고 했어요 ㅎㅎ. 당시에는 정말 이상하게 생긴, 생성된 얼굴들의 스크린샷을 컴퓨터에 보관하기도 했어요.
지금은 어디서나 생성형 AI 기술로 뭔가를 만들고 있는 사람들을 볼 수 있죠. 사람들이 얼마나 창의적인지 보는 것이 또 마법 같고, 정말 행복한 느낌을 줘요 - 저 뿐만 아니라 훨씬 더 많은 사람들이 이 기술의 마법같은 측면을 보고 느낄 수 있게 되었다는 점이요.
Q. 정말 ‘마법같은’ 일이네요. 그런데, 이미지를 주로 다루던 작업에서, 지금 Laminia에서 하고 있는 일은 어떻게 연결이 되게 되었나요?
좋은 질문이네요. 박사 과정을 하기 전에 저는 구글의 Product Manager였는데, 그보다 더 전에는 실제로 라틴어와 고대 그리스 문학 같은 걸 공부했어요. 언어를 정말 좋아했어요. 이 모든 것들이, 제품을 위한 언어, 의사 소통, 스토리 텔링 같은 걸로 결합된 것 같아요. 언어 작업을 시작한 것도 이런 배경에서 비롯된 거 같아요.
커리어의 관점에서는, 2022년부터 약 1년쯤 AI를 연구하는 비영리 단체에서 일했는데 - 오픈AI 말구요 ^.^ - 오픈AI와 비슷하게 언어 모델의 Alignment에 대해 연구하면서 안전하게 LLM을 활용하는 방안을 연구했어요. 이 시기 이후에 언어 모델의 상업적 가치와 활용이 엄청나게 증가하면서 언어 모델 관련된 일을 더 많이 하게 되었죠. 특히 저는, 제품 경험을 직접적으로 한 ‘기업에서의 유즈 케이스’가 큰 가치를 만들 수 있다고 느꼈어요.
Lamini라는 회사를 시작하게 된 계기는 몇 가지가 있어요. 하나는, 파운데이션 모델들의 놀라운 능력을 보면서, 더 많은 사람들이 이 모델을 조정하면서 잘 활용하면 얼마나 더 좋을까 생각을 하게 됐어요. 더 많은 사람들이 스스로의 기준으로 ‘안전하다는게 뭔지’ 정의하고, 이 모델이 더 성장할 수 있도록 도와주고, 어떤 일을 할 수 있는지 정의한다면 어떨까요? 지금은 주로 오픈AI나 앤쓰로픽 같은 회사들만이 그런 일을 하고 있잖아요.
전세계적으로 2천 4백만명의 개발자가 있고, 지금은 생성형 AI 덕분에 그 숫자가 폭발적으로 늘어날 수 있을 텐데, 그 사람들에게 AI 모델을 잘 조정할 수 있는 열쇠를 우리가 줄 수 있다면? 하는 생각을 한 거죠.
그리고 전, 자신의 문제를 가장 잘 이해하는 사람들이야말로 - 올바른 도구가 있다는 전제 하에서 - 그 문제를 해결하는데 필요한 적임자라고 생각해요. 박사 과정 중에 의료 분야에서 몇 개 프로젝트를 한 적이 있는데요. 스탠퍼드 의과대학과 함께 일하면서, 의사들이 머신러닝이 실제로 본인들의 일을 어떻게 도와줄 수 있는지 아주 깊은 통찰력을 갖고 있다는 점에 놀랐어요. 저는 잘 판단하지 못하는 부분들 - 예를 들어, 머신러닝을 활용해서 암을 진단하고 치료하는 과정에 어떻게 도움을 줄까, 어떤 박테리아를 어떻게 확인하고 추적할 수 있나 등 - 을 당연하게도 의사들은 너무 잘 알고 있었죠.
이런 생각이 바로 Lamini를 시작하게 된 계기가 되었죠. 그 다음에는 Lamini는 사람들이 이 모델들을 어떤 버티컬에 해당하는 지능으로 변모시킬지 방향을 설정해야 했고, 그 과정에서 300명 이상의 잠재 고객과 이야기를 했는데요. 결국은 더 광범위한 영역에 영향을 줄 수 있으려면, 수평적인 (Horizontal) 플랫폼으로서 이 모델들을 파인튜닝하고 적절한 방향으로 조정할 수 있어야 한다는 생각을 하게 되었어요.
수평적이 플랫폼을 지향하게 되면, 해야 할 일이 너무 많아지기 마련이죠. 고민을 하다가 결국 깨달았죠 - 모든 이슈를 다룰 수 없고, 정말 뭐 한 가지를 잘 해야 한다. 그 논의의 끝에 다다른 게 ‘환각 (Hallucination)’ 이슈였습니다.
Q. ‘환각’, 정말 기업에서 생성형 AI를 도입해서 사용하려고 할 때 큰 이슈죠. 어떻게 접근하셨나요?
‘환각 (Hallucination)’은 표현은 쉽지만 진짜 그게 의미하는 바가 뭔지는 명확하지 않거나 건별로 다른 경우가 많아요. 그래서 실제로 고객의 데이터를 조사하고, 환각을 없애고 싶다고 했을 때 그 목표가 정확히 뭔지 이해해야만 했어요. 다양한 관점에서 조사를 해 보니, 환각이라는게 말로 하는 철학적 문제가 아니라 ‘기술적인 문제’라는 걸 깨달았어요 - 바로, ‘어떤 특정한 맥락에서 만들어지는 특정한 토큰들이 더 결정적으로 높은 확도를 가지고 만들져야 하고, 절대로 꾸며져서는 안 된다’는 표현으로 정의할 수 있는 기술적인 문제요.
‘환각’의 정의 자체가 여러 가지 있을 수 있지만, 우리가 정의한 환각의 ‘문제’는 그런 것이었고, 어쨌든 정의를 하게 되니 기술적인 해결책을 논의할 수 있었죠.
물론, 결코 쉬운 일은 아니었어요. 모델 자체에 아주 정밀한 외과적인 수술 같은 수정을 할 수 있어야 하는 셈이니까, 모델에 사후 훈련, 파인튜닝을 어떻게 하는지 자체를 재검토해야 했어요. 그래서, 모델들의 LoRA 어댑터 레이어를 바꿔서 MoE 구조로 변경하는 새로운 방식을 고안했는데, 이건 본질적으로 학습된 인덱스에서 검색기를 학습하는 것과 같아요. RAG이 외부 검색기를 위한 인덱스 구조를 활용하는 거라고 하면, 그 개념을 모델의 ‘가중치’에 넣는 셈이죠. 이렇게 해서 사실을 아주 정확하게 검색할 수 있어요, ‘9’의 정확도까지요.
[편집자 주]
Sharon이 여기서 이야기하는, ‘극적으로 Hallucination을 줄여주는 Lamini의 기법’은 ‘Memory Tuning’입니다.
이 Memory Tuning은 수백만개의 MoE 구조로 된 LoRA 어댑터를 파인튜닝해서, 추론 시간 (Inference Time)에 질문에 정확한 팩트로 답변할 수 있는 전문가만을 선택해서 답하게 함으로써 정확도를 극적으로 높이는 파인튜닝 기법입니다.
보통, Hallucination을 없애기 위해서 기업 내에서 사용하는 기법이 ‘프롬프트를 정교하게 다듬는다’거나 ‘RAG (Retrieval-Augmented Generation)’ 구조를 사용한다거나 하는 건데요. 기업에서 필요한 생성형 AI 시스템에서는 이런 기법만으로 충분히 높은 정확도를 달성할 수 없는 경우도 많죠. Instruction Fine-Tuning도 마찬가지 결과를 낼 뿐입니다.
Memory Tuning은 거대한 MoME (Mixture of Memory Experts)라는 컨셉을 가지고 꼭 틀려서는 안 되는 핵심적인 팩트들에 대해서는 ‘사실상 0에 가까운 트레이닝 로스’를 타겟으로 전문가 네트워크를 훈련시켜서, 실제 추론 시간에는 특정한 사실에 대답할 수 있는 전문가 네트웍을 선택해서 답을 하게 됩니다.

정확한 사실에 대한 응답을 하도록 하기 위한 Memory Tuning의 컨셉. 정확한 답을 하도록 수백만 개의 MoE를 특정한 ‘팩트’에 대해서 트레이닝합니다. Image Credit: Lamini
Memory Tuning에 대해 좀 더 자세한 내용은 논문을 참고해 보시면 좋겠습니다.
그 때쯤에 오픈AI에서 ‘환각 (Hallucinatino)이 AI 모델의 설계에 따른 부분적인 결과다’라는 식의 이야기도 나오고 논문도 나왔던 걸로 기억해요. 마치 모델 자체가 환각하도록 설계된 것처럼 이야기가 들렸어요. 그렇지만 꼭 그런 건 아니예요 - 환각은 극복할 수 있습니다.
Q. 아, AI 모델의 환각이라는게 해결 방법이 명확치 않다고 항상 느껴서, 이걸 받아들이고 뭘 해야 하나 생각이 들 정도였는데, ‘기술적인 문제’로 치환하고 해결을 해 볼 수 있는 거군요! 이 결과는 어떻게 측정하나요? 평가 시스템이나 지표가 있나요?
가장 중요한 두 가지의 벤치마크가 있다고 생각해요. 하나는, 위키백과 페이지에서 베이스 모델과 비교해 보는 거죠. 예를 들어, 골든 게이트 브리지에 관한 페이지에서 베이스 모델은 환각을 일으키지만 우리 모델 - Lamini-1 - 은 환각을 일으키지 않는지를 비교해 보는 거예요. 이 경우에, 정확도가 30% 정도에서 90% 정도까지 향상돼요.
물론, 고객들 - 예를 들면 이미 Lamini의 고객사인 콜게이트 같은 - 은, ‘일반적’인 평가엔 관심이 없어요. MMLU든, 수학 벤치마크든, 별로 기업 고객에게는 중요하지 않아요. 심지어 Text-SQL 벤치마크에도 관심없어하는 고객도 많아요. 모델이 그걸 잘 수행한다고 해서, 기업의 복잡한 스키마 환경에서 업무를 잘 수행한다는 의미가 아니니까요. 실제로 그 둘을 비교해 보면, 아주 다른 성격의 작업이예요.
그래서, 실제로 우리는 기업 고객들과 함게 ‘자체적인 내부 평가 방식’을 만들게 될 수 밖에 없어요. 그 작업 자체를 쉽게 할 수 있도록 도와드리는 도구나 절차가 있기는 하죠 - 도입하려고 하는 AI 시스템이 해야 하는 작업을 Easy/Med/Hard로 간단하게 분류하는 방식이 있죠. 콜게이트의 경우는, 이렇게 정의한 평가 체계를 기준으로 오픈AI의 최신 모델이 30% 정도의 정확성을 보여준 경우가 있고, 다른 기업 고객의 경우에는 더 복잡한 업무라서 최신 모델의 정확도가 6%에 불과했던 적도 있어요. 두 가지 경우 모두 Lamini-1을 사용해서 90% 수준까지 정확도가 올라갔죠.
저에게 가장 즐겁기도 하고 마법같은 순간은, 제 고객들이 직접 그 작업을 해서 높은 정확도라는 결과를 달성하는 걸 보는 순간이예요 - 저는 그 과정에서 단 한 줄의 코드도 쓰지 않았지만, 고객사에서 고객사의 개발자가 그 일을 하는 거예요.
Q. 놀라운 이야기네요. 그렇지만 어쨌든, Sharon 당신이 갖고 있는 AI에 대한 지식은 그 깊이나 넓이 측면에서 다른 누구보다 뛰어나다고 해야 할 거예요. 우리같은 대부분의 사람은 그렇게 지식이 많지 않구요. 고객들하고 이야기할 때, 가장 자주 언급되는, 일종의 ‘오해’ 같은게 있나요? 계속 반복해서 설명해야 하는 거라거나?
글쎄요. 최근에 자주 언급되는데 ‘오해’라고까지는 그렇지만 재미있는 건, ‘에이전트’라는 단어예요.
얼마 전에 오픈AI, 앤쓰로픽에 있는 친구들하고 이야기할 기회가 있었는데, 전부 다 “아니 사람들이 이거에 왜 이렇게 큰 관심을 가지는지는 정확히 모르겠지만, 마케팅 때문에라도 이 에이전트 이야기를 계속할 수 밖에 없다”는 말들을 했어요.
AI 연구자로서는 이 에이전트라는 말에 대해서 약간의 거부감도 가지고 있지만, 좀 더 깊이 생각해 보고, AI 연구자가 아닌 다른 사람들과도 많이 이야기를 해 보고 나서 이해가 됐어요: 이건 ‘같은 것에 대한 다른 시각’일 뿐이예요.
다시 말해서, 저같은 사람은 ‘모델 중심적’ 방식으로 생각을 해요. 모델 자체에 아주 익숙하고 지난 10년 동안 그렇게 살아왔어요. 근데 다른 사람들은 그렇게 보지 않을 수 있는 거죠. 그 분들은 “AI가 사람과 어떻게 상호작용을 하나, 아니면 어떻게 사람을 모방하나”라는 관점에서 기술과 혁신을 보는 거예요. ‘에이전트’ 세계관은 AI를 모델로 보는 게 아니라 ‘인간’이나 ‘개인’ 중심으로 보는 것 같아요. 비유를 하자면, 소프트웨어 엔지니어링에서의 유사한 개념으로 OOP (객체 지향 프로그래밍) 같은게 있다고 생각해요 - 이건 함수형 프로그래밍과 대비되는 개념이지만, 그 실체는 크게 다른 게 아니죠.
또 다른 하나는, RAG에 대한 거예요.
수많은 사람들이 RAG에 열광하고 매료된 건 알고 있는데, 사실 이 분야에 꽤 오래 몸담고 있던 사람의 입장에서는 그것도 놀랍고 재미있는 일이예요. 왜냐하면, 궁극적인 ‘검색’은 이미 만들어져 있었고 - 바로 구글이죠! - 그건 엄밀히는 AI가 아니잖아요? 하지만 사람들은 RAG을 AI라고 생각해요. 실제로는 AI보다 훨씬 오랫동안 있어왔던 ‘정보 검색’인데, AI와 연결이 되어서 다시 한 번 부각되는 거죠. 다시 한 번 말하지만, RAG 자체는 AI가 아니예요 - 그 안에 뭔가 역전파 (Backpropagation)되는 훈련도, 지식도 없잖아요. 그냥 효과적으로 프롬프트에 넣는 것 비슷하고, 물론 모델에 영향은 미치겠지만 기술적인 관점에서는 아무 것도 아닌 거죠.
‘에이전트’와 ‘RAG’을 함께 놓고 생각해 보면, 전체적인 그림으로는 일리가 있죠 - 완전한 에이전트가 모든 일을 알아서 처리하게 된다는 거니까요. 그리고 단일한 ‘모델’에 대한 생각보다는 전체 시스템을 하나의 ‘AI’로 보는 관점이 자연스러워질 수 있죠.
Q. ㅎㅎ 지금 현 시점 AI와 관련해서 모든 사람들이 가장 관심있어 하는 두 가지 토픽을 모두 부숴버리셨네요 ^.^
하하 아녜요, 아까 이야기한 것처럼, 같은 걸 이해하는 서로 다른 관점일 뿐이예요. 왜 에이전트나 RAG이 큰 화제가 되었을까요? 아마 많은 사람들에게 많은 걸 설명하고 이해하도록 해 주기 때문일 거예요. 대부분의 사람들에게, 어떤 기술의 코어 그 자체보다는 ‘사용자 경험’이나 ‘인터페이스’가 이해하기 쉬운 방식이고, 그 의미도 있는 거라고 생각해요. 오히려, 저같은 소위 전문가들은 ‘전문가로서의 시각 장애’가 있기 쉽다는 점을 주의해야겠죠. 우리같은 사람들은, 세상을 ‘모델 중심적’으로 바라보는데 너무 익숙해서, 다른 관점으로 보는게 혼란스러울 수가 있어요.
Q. 특히 AI와 관련해서, 많은 사람들이 ‘활용 사례’를 궁금해 하는데요. 언급하신 콜게이트 외에 다른, 이야기해 주실 만한 산업의 활용 사례가 있나요?
네, 제가 정말 큰 기대를 갖고 있는 사례가 하나 있는데, 바로 바이오 산업의 사례예요. 고객사는 글로벌 2000 바이오텍 기업 중 하나인데, 보통 3~5년 걸리는 암 연구의 타임라인을 단 몇 주로 줄이려고 하고 있어요. 산업을 완전히 변화시키는 일이고, 근본적으로 인류의 건강 문제에 변화를 가져올 거예요. 아주 큰 기대를 하게 되는 이유는, 이게 그 회사가 돈을 버는 걸 도와주는 것일 뿐 아니라 세상에 좋은 일을 하게 되는 것이기도 하니까 그래요. 이 시도가 성공한다면, 이 회사는 이런 일을 할 수 없는 다른 회사들을 큰 격차로 뛰어넘게 될 거예요.
조금만 더 구체적으로 이야기하면, 그 회사는 우리 Lamini의 플랫폼을 기업 내에서 사용하면서 공개된 특허 데이터, 그리고 PII 데이터 등과 함께 결합하고 있어요. 높은 정확도와 전문성을 가진 팀과 함께, 이 시스템이 ‘과학자보다 더 높은 성과를 내는 것’을 목표로 합니다.
Q. 기업이 특히 생성형 AI를 잘 도입하고 사용하려면, 아주 잘 구조화된 데이터를 갖고 있는게 중요한가요?
좋은 데이터를 갖고 있다면 좋겠죠. 그런데 실제로는 가장 중요한 건, 기업이 구현해 보고자 하는 유즈케이스가 객관적으로 모두 동의할 수 있는 ‘결과물’ - 달성해야 하는 구체적인 목표와 수치 - 을 정할 수 있느냐 하는 거라고 생각해요. 다시 말해서, AI 시스템이 만들어내는 결과물을 보고 뭐가 더 좋고, 뭐가 최상인지 표현할 수 있고 전문가들이 서로 동의할 수가 있어야 해요.
목표하는 결과물이 주관적일 수록, 어디로 가야 할지 모르게 돼요 - 한 가지 목표의 해석에 최적화할 수 있지만, 그럼 다른 해석 관점에서는 성능이 떨어지게 되죠. 그래서, 저희도 고객들과 초기에 가장 중요하게 논의하는 게 바로 ‘이 유즈케이스가 객관적으로 누구에게나 좋은 결과’를 내는 것이 되도록 범위를 정하는 - Scoping하는 - 거예요.
그런 의미에서 ‘Text-to-SQL’ 같은 과제는 명확한 결과물을 정의할 수 있으니, 저희도 좋아하고 의미가 있는 방향의 과제가 되겠죠.
Q. ‘환각 (Hallucination)’을 해결하는 거에서 다른 영역으로 확장하려는 계획이 있나요? 있다면 어떤 쪽일까요?
정확히 다음에 우리가 뭘 할지는 모르겠어요. 확실한 건, 환각 문제를 해결하는 것만 해도 많은 시간과 자원이 필요할 거라는 거예요.
아마, 우리의 고객들이, 우리가 다음에 뭘 해야 할지 이끌어주지 않을까 생각은 하고 있어요. 그럼에도 불구하고 한 번 아이디어를 내 보자면, 다음의 과제는 ‘창의성’과 관련된 게 아닐까 해요. AI 모델들이 지금보다 더 창의적으로 된다면 어떨까요? 이 방향으로 최적화를 하는게 우리의 다음 방향이 될 수도 있어요.
물론, 이 방향이 얼마나 가치가 있을지는 몰라요. 회사로서, 실제로 수익을 창출하는 비즈니스를 만들려면 아무래도 현재 가치가 있는 곳을 따라가게 될 테니까요. 어쨌든 확실한 건, 현재 우리의 고객들은 ‘환각’ 문제를 해결하는데 엄청나게 큰 가치를 느끼고 있는 거 같습니다.
Q. 저도 뉴스 다이제스트의 내용 때문에 매주 수백 개의 논문을 검토하게 되는데요. 지난 주에 ‘How to Steer LLM Latents for Hallucination Detection?’이라는 논문을 봤는데, Lamini에서 하는 작업과 관련이 있을 것도 같네요. 혹시 들어보셨나요?
아, 어떤 내용이예요?
Q. ‘TSV (Truthfulness Separator Vector)’라는 걸 제안하는데, 추론 시간에 LLM의 잠재 공간 표현을 조정해서, 모델 파라미터는 변경하지 않으면서도 진실한 답변과 환각 간의 구분을 더 명확하게 하는 거라고 기억해요. 어쨌든, 이 분야의 연구도 엄청 많을 텐데, 어떻게 캐치업하시는지, 그리고 팀 내부의 연구가 많은지 아니면 외부의 연구를 구현하는데 더 많은 자원을 쓰는지, 연구 프로세스는 어떻게 되는지 등이 궁금하네요.
아, 정말 좋은 질문이네요.
일단, 연구 자체에 대해서는, 주요 연구에 대해서 내용을 검토해서 일반적인 트렌드를 파악하죠. 그런데, 연구 논문 자체는 모두 흥미롭지만 상업적인 가치나 실제 의미있는 결과로 이어지는 경우는 많지 않아요. 그래서 보통은 정보를 더 수집하고 연구자들이 이야기하는 게 사실인지 확인한 다음에, 우리가 더 구체적인 조사를 해야 하는지 검토하고 가설을 세워서 진행해요.
아까 말씀하신 논문은 흥미로운데, 가중치를 더 높은 Truthfulness 쪽으로 조종할 수 있다는 논지와 비슷한 방향이 아닌가 싶어요. 저는 Hallucination을 제거할 수 있다고 생각해요. 거기에도 여러 가지 방법이 있겠죠. 우리 Lamini에서 했던 방식은, 지도/감독 (Supervision)을 하지 않고 파인튜닝을 한 것이었는데, 이 모델들을 위한 자동화된 데이터 파이프라인을 갖고 있고, 자체적인 훈련 데이터를 편집하는 에이전트가 있었기 때문에 가능했던 거예요. DeepSeek은 또 다른 방식으로 그런 작업을 시도하죠. 보상 모델을 훈련시키는데 ‘Factuality Validator’를 사용해요. 결국, 역전파 메커니즘을 통해서 모델에 ‘Factuality’를 통합할 수 있는 여러가지 방법이 있는 셈이죠.
Q. 연구 내용과 결과를 ‘오픈소스’로 공개하시나요? 오픈소스에 대한 생각은 어떠세요?
일부 오픈소스로 공개하기도 하고 논문도 발표하기는 하지만, 모든 걸 공개하고 있지는 않아요. 특히 우리의 핵심 IP - 모델이 팩트를 잘 유지하면서 답변하도록 하는 사후 훈련 기법 - 는 현재 오픈소스가 아닙니다.
그래도 전 오픈소스의 방향을 아주 좋아하고 지지해요. 우리도 많은 오픈소스를 활용하구요. 보통, 우리 고객사도 Lamini 시스템을 사용해서 오픈소스 모델 중 하나를 사후 훈련하고, 베이스 모델의 결과와 비교해요. 예를 들어, Llama나 DeepSeek을 먼저 사용해 본 다음, Lamini 시스템으로 자기들이 가지고 있는 데이터셋을 훈련해서 환각이 일어나지 않게끔 하는 거죠.
특히 저희는 Meta와 밀접하게 협력을 하고 있고, Mistral하고도 협력하고 있어요. 우리 Lamini는 ‘모델 그 자체’를 개발하고 소유하지는 않아요. 고객이 소유하는 거죠. 결국, 고객이 가지게 되는 모델은 고객 데이터로부터 파생된 정보를 가지고 있게 되는 만큼, 우리는 고객들이 스스로 가지고 있는 데이터 거버넌스를 모델의 가중치라는 결과에 잘 연결하고 사용하게 되기를 바라는 제 3자예요. 우리는 그 데이터를 볼 필요조차 없는, 모델을 수정하는데 도움이 되는 인프라 제공자예요.
Q. 당신의 링크드인 프로필을 보면, ‘수백명의 AI 전문가만이 AI를 가르치고 제어할 수 있는데, 그 사람들만이 지능이 이런 거다라고 정의할 수 있는 미래라면 최악의 미래일 거다’라고 되어 있던데요. 저도, AI가 엄청나게 빨리 발전하는 반면 그에 대한 지식의 확대나 논의는 더딘 게 걱정이 되니다. 이 갭을 극복하기 위해서 뭘 해야 할까요?
좋은 질문이예요.
몇 가지 할 수 있는 일이 있을 겁니다. 하나는 ‘진입 장벽’을 낮추는 거죠. 즉, AI와 관련된 도구들을 훨씬 쉽게 사용하게끔 만드는 거죠. Lamini가 개발한 파인튜닝과 사후 훈련 방법은 이미 오픈AI의 API를 사용하는 것보다 쉽습니다. 콜게이트 같은 회사에서도 이미 성공적으로 활용하고 있어요. 저는, 파인튜닝을 포함한 사후 훈련 기법들이 마치 프롬프트를 쓰는 것처럼 단순해질 수 있다고 믿습니다.
또, 자동화도 더 많이 되어야겠고, 시스템 설계도 더 스마트하게 해야겠죠. 사용자에게 부담을 주지 않으면서 사용자가 원하는 걸 잘 이해하고 수행하는 도구들이 필요하죠 - 대부분의 사람들이 하이퍼파라미터를 볼 필요도, 수학적 배경을 이해할 필요도 없어요. 어차피 대부분 그런 정보는 유즈케이스를 만드는데 중요하지도 않으니까요.
또 하나는, 사람들의 AI에 대한 이해와 수준을 높여야겠죠. 여기서 교육이 중요합니다. 제 학문적 배경도, 물론 박사까지 하긴 했지만, 기본적으로는 고전 문학이예요. 학교에서, 교수님 한 분이 ‘(시스템을 잘못 사용하는 건) 사용자의 잘못이 아니다’라고 하신 것 때문에 컴퓨터 사이언스에 관심을 갖게 되었고, 정말 그 말이 와 닿았어요. 어릴 때 저도 기술과 씨름하던 쪽이었는데, 그 당시 버전의 저를 위해서 시스템을 설계한다면, 모든 사람이 사용할 수 있지 않을까요?
그게 바로 제가 Product Management에 관심을 가지게 된 이유이기도 해요 - 공감, 그리고 연민의 마음으로 최종 사용자에 대해서 깊이 생각하는 거요. 그 이후에 물론 생성형 AI의 마법에 빠지기는 했지만요 ^.^
Lamini라는 회사, 그리고 Coursera의 강좌, 이런 것들에 제가 결합하려는 것이 결국은 전부 ‘더 접근하기 쉽게, 장벽을 낮추고, 사람들의 수준을 높이는’ 겁니다.
실제로 ‘교육용 TikTok’ 같은 걸 해 볼까 한 적도 있어요. 본질적으로는 에듀테인먼트 (교육 + 오락)의 영역이죠. 앞으로의 아이들은, AI 네이티브예요. 그 아이들이, 이 기술이 뭔지, 머신러닝이 뭔지, 프롬프팅이 뭔지 이런 것들을 알아야 한다고 생각해요.
가끔 어려운 순간들도 있겠지만 - 당연히요! -, 이런 걸 배우는 게 흥미롭고 재미있을 거 같지 않아요? 이전에 제가 스탠포드에서 했던 수업에서, 실제로 공부하는 친구들을 도와주려고 100개의 밈 (Meme)을 만든 적도 있어요! 웃으면서 공부하면 더 좋잖아요? 농담을 할 수 있을 정도로 뭔가를 이해한다면, 추가 학점까지 받을 수 있으니, 왜 재미가 없겠어요? ^.^
읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply