• Turing Post Korea
  • Posts
  • 언제쯤 우리는 '언어의 장벽'을 느끼지 않고 대화할 수 있을까? - ElevenLabs 인터뷰

언제쯤 우리는 '언어의 장벽'을 느끼지 않고 대화할 수 있을까? - ElevenLabs 인터뷰

일레븐랩스 공동창업자 Mati Staniszewski와의 대화

튜링 포스트의 Ksenia가 HumanX 컨퍼런스에 참가해서 흥미로운 연사들과 연구자들, 사업가들을 만나 나눈 이야기들을 유튜브 영상과 함께 튜링 포스트 코리아의 ‘Interviews with Innovators’ 시리즈를 통해서 소개해 드립니다.

오늘 인터뷰에서는 일레븐랩스 공동창업자 Mati Staniszewski와 만납니다.

Mati의 모국어는 폴란드어, Ksenia의 모국어는 러시아어입니다. 이 인터뷰에서, 두 사람은 ‘영어로 소통할 수 있으니까’ 영어로 대화를 했습니다. 하지만 이 친구들 외에, 예를 들어 부모님들이 같은 자리에 있다고 한 번 상상해 보세요 - 어떻게 의사소통을 모두가 할 수 있을까요?

과연, 언어 장벽이 없이 모든 대화를 수월하게 알아들으면서 진행할 수 있는 때가 올까요?

Mati는, 생생한 음성 합성, 그리고 다국어 더빙을 전문으로 하는 ‘AI 오디오 회사’ ElevenLabs의 공동 창업자이자 CEO입니다 – 그리고 Mati는, 우리가 ‘언어 장벽없이 모든 대화를 편히 나눌 수 있는’ 그 때에 가까워지고 있다고 생각합니다. 물론 실시간 음성 번역은 이미 고객 지원, 의료 등의 영역에서는 잘 작동하고 있지만, 사실 진짜 어려운 부분은 어조, 감정, 타이밍 등을 잘 맞추고 보존하는 것입니다. 대부분의 시스템이 아직 이 부분에서 실패하고 있죠.

지금까지 이 음성 관련된 기술의 발전 방향은 그리 복잡하지 않습니다 - Speech-Text 변환, LLM의 번역, Text-Speech 변환, 이거죠. 하지만 뉘앙스, 감정, 맥락을 포착하고 연결하는 실시간 대화? 여전히 어려운 일입니다.

뭣 때문에 어려울까요? 바로 ‘미묘한 감정적 신호를 포착’하는 것, 시끄러운 방에서 ‘누가 말하고 있는지 감지’하는 것, 자연스러운 대화를 하기 위해서 ‘지연 시간을 충분히 낮게 유지’하는 것, 이런 것들이 만만치 않은 작업입니다.

ElevenLabs는 Lex Fridman 팟캐스트의 더빙을 거의 완벽하게 해내기도 했지만, 이 작업에 몇 초가 아니라 ‘몇 주’가 걸렸다고 합니다. 그럼, 대체 언제쯤 우리가 서로 다른 언어를 사용하더라도 자유롭고 편하게 대화할 수 있을까요? Mati는 ‘아마 2~3년 후쯤은 가능할 거다’라고 예측합니다.

그 때가 오려면, 정확히 어떤 문제가 해결되어야 하는 걸까요? 그리고 그 문제가 해결된다면, 그 다음은 뭘까요?

오늘 이 이야기를 Mati와 나눠볼까 합니다. 유튜브로 한 번 먼저 이야기를 들어보셔도 좋겠습니다.

Mati가 생각하는, 언어 장벽을 깨게 될 타임라인

Q. Mati, 당신은 폴란드어를 모국어로 사용하고, 저는 러시아어가 모국어죠. 그리고 지금 우리는 영어로 대화하고 있구요. 하지만, 외국어를 잘 모르는 우리 부모님들이 여기 있다면, 아마 대화가 잘 되지 않을 거예요. 서로 다른 언어를 사용하는 두 사람이 언어의 장벽 없이 대화할 수 있는 때는 언제 올까요?

정말 좋은 질문이예요. 아마 저희가 일레븐랩스를 시작한 이유를 들어보셨을 수도 있는데요. 폴란드에서 영화를 볼 때, 더빙의 경우에 모든 등장인물의 목소리 - 그게 남성이든 여성이든, 노인이든 어린아이든 - 는 단 ‘한 사람’이 나레이션을 합니다. 생각해 보세요, 얼마나 영화를 보는 시청 경험이 지루해지겠는지요! 원래 전달되어야 할 감정, 어조, 뉘앙스가 아무래도 많이 손실되겠죠. 이게 우리 일레븐랩스가 정말 바꾸고 싶은 부분이었어요.

기술적인 측면에서는, 이미 원래의 목소리, 심지어는 일부 감정적인 억양까지 보존할 수 있는 상태까지 와 있습니다. 실시간 번역, 통역은 조금 더 어렵구요. 그럼에도 불구하고, 저는 우리 앞에 놀라운 가능성이 놓여 있다고 생각합니다. 다음 단계는, 앞으로 어떻게 이런 남아있는 요소들을 실시간으로 작동 가능하게 해서 실제로 그 컨텐츠를 스트리밍할 수 있느냐겠죠. 저는 이게 올해 안에 가능해질 거라고 생각합니다.

Q. 정말요? 올해 안에요?

그리고 물론, 그 다음이 무엇인지에 대한 더 큰 질문이 있겠죠. 이상적으로 이야기하자면, 어떤 종류의 기기 - 헤드폰이든 그냥 스마트폰이든 - 든지 상관없이 이야기를 하면 실시간으로 다른 사람을 위해서 통번역이 자동적으로 되는 것도 가능할 겁니다. EarPods를 쓴다면 누군가 말하는 걸 동시에 다른 언어로도 들을 수 있기 때문에 실시간 스트리밍이 유의미하게 가능합니다.

물론, 이런 게 널리 보급되려면, 더 작고 더 빠른 모델 - 더 가볍고 더 효율적인 모델 - 이 필요할 거예요. 제 추측으로는, 앞으로 2~3년 안에 이런 제품이 세상에 나오는 걸 볼 수 있을 거예요. 그리고 5년 내에는, 희망사항이긴 하지만, 누구나 어디서든 이런 제품을 사용할 수 있는 날이 올 겁니다.

Q.정말 기대되는데요? 그런 제품이 있다면 정말 좋을 것 같아요. 그런데, 올해 초에 열린 CES에 가서 비슷한 기기 몇 가지를 시험적으로 사용해 봤는데…아직 그렇게 잘 되지는 않았어요. 저희 튜링 포스트 뉴스레터는 머신러닝과 AI에 초점을 맞추고 있어서, 독자층이 꽤 기술적인 내용도 잘 이해하시는데요. 한 번, 그런 제품을 만들 수 있게 되려면 해결해야 할 중요한 기술적 과제들이 어떤게 있는지 설명해 주실래요?

물론이죠. 혹시 ‘은하수를 여행하는 히치하이커를 위한 안내서’라는 책이나 영화, 그리고 거기 등장하는 ‘바벨 피쉬’라는 게 뭔지 아시나요?

바벨 피쉬

바벨 피쉬(Babel Fish)는 영국 작가 더글러스 애덤스의 SF 소설 『은하수를 여행하는 히치하이커를 위한 안내서』에 등장하는 가상의 생물입니다. 이 소설에서 바벨 피시는 작고 노란색의 거머리처럼 생긴 물고기로, 귀에 집어넣으면 어떤 언어든지 즉시 이해할 수 있게 해주는 만능 통역기 역할을 합니다. 즉, 상대방이 무슨 언어로 말하든 자신이 알아들을 수 있도록 실시간으로 번역해 주는 신비한 존재입니다.

편집자 주

바로 이 ‘바벨 피쉬’ 같은 걸 만드는게 우리가 향하는 방향이고, 저는 그걸 현실화하는데 참여하고 싶어요.

이 과정에는 세 가지의 중요한 단계가 있는데요.

첫째는, Speech-to-Text 변환이죠. 누군가가 말하는 ‘내용’을 이해하려고 하는 겁니다. 그렇지만 단순히 ‘단어를 옮기는’ 것을 넘어서 그 다음 목표는 더 깊은 것이죠: ‘누가’ 말하고 있는지 이해하는 거죠. 여러 사람이 있다면 화자 구분을 해야겠죠. 그리고 나서, 말 뒤에 숨은 감정을 포착하는 겁니다 - 누가 무엇을 말하는지를 넘어서, ‘어떻게’ 말하고 있는지를 파악하는 거예요.

Q. 네, 그런데 ‘감정’을 어떻게 이해하나요?

맞아요, 거기가 어려운 부분입니다. 음성, 텍스트를 넘어서 그 이면을 이야기해 주는 ‘메타데이터’ - 예를 들어서 ‘어떻게 말하고 있는지’ - 도 포함하는 데이터가 너무 적습니다. 그래서 이게 저는 진짜 넘어야 할 장벽이라고 생각하구요. 어떻게 고품질로, 스케일있게 이 데이터를 만들 수 있을까요? 그게 우리가 지금 노력하고 있는 부분입니다.

어쨌든 그래서 Speech-to-Text 변환이 첫 번째 부분이구요. 그 다음 LLM (Large Language Model) 부분이 필요하죠 - 또는 다른 모델 아키텍처일 수도 있습니다만, LLM이 아마 최선의 해결책일 거라고 생각해요 - 여기서 한 언어에서 다른 언어로 번역이 일어나죠. 하지만 중요한 건, ‘원래의 의미’를 보존하고 싶다는 것이죠.

문장의 어느 부분을 어느 정도 보고 있느냐에 따라서도 그 의미가 바뀔 수도 있죠. 두 개의 문장이 있는데, 한 문장이 다른 문장을 설명하는 거라면, 번역하고 전달하는 방식이 아주 많이 달라질 수도 있구요. 예를 들어, “정말 좋은 날이군요.” 같은 문장은 뭐 번역이 어렵지 않죠. 그렇지만 만약 “정말 좋은 날이군요.”라는 말을 ‘비꼬는 어조로’ 했다면, 완전히 다른 의미와 어조가 되겠죠?

어쨌든, 중간에 이런 레이어가 있겠구요. 마지막에는 Text-to-Speech 변환 단계가 있고, 이 단계에서도 역시 원래의 감정과 목소리를 ‘다른 언어로’ 전달해야 하죠. 케이스에 따라서, 더 자연스럽게 느껴지려면 대략 같은 길이가 될 수도 있구요.

이 세 단계들 중에서, LLM을 사용하면 어느 정도의 범위, 특히 ‘감정 표현이 적은 경우’라면 아주 잘 작동해요. 하지만 많은 경우, 특히 ‘틈새 어휘 (전문 용어)’나 ‘독특한 표현’이 있는 경우에는 어려움이 있어요. Speech-to-Text는 전반적으로 완성도가 많이 올라와 있다고 생각하구요. 우리 일레븐랩스에서도 최근에 모든 벤치마크에서 최상위 수준의 성능을 보인 모델 ‘Scribe’를 출시했어요. 그렇지만, 감정적인 부분은 아직 해결되지 않았어요. Text-to-Speech도 아주 좋은 수준이라고 생각하지만, 여전히 화자로부터 더 많은 맥락을 이해할 수 있어야 할 겁니다.

Q. ‘감정’의 문제는 어떻게 해결하려고 하고 있나요?

일단, 첫 번째 단계는 아주 큰 데이터셋을 만드는 거예요. 저희는 음성 코치, 그리고 기타 다른 전문가들과 협력하면서 대량의 오디오 데이터셋을 구축하고 있는데, 그 데이터셋에 ‘발화 방식’에 대한 주석을 답니다.

지금 우리가 나누고 있는 대화를 예로 들어보죠. 누군가 우리가 나누는 이야기를 샘플링하고 레이블링하는 거예요: “이 문장에서 감정적 톤은 ‘흥분된’, 그러나 ‘차분한’ 상태이고, 화자가 가끔 말을 더듬습니다.”라는 식으로요.

이런 방식의 레이블링은 큰 도움이 될 수 있고, 예시적인 자료가 충분하다면, 모델이 일반화를 하면서 새롭거나 보지 못한 사례들도 이해할 수 있게 되겠죠.

물론, 언어가 달라지면, 감정을 묘사하는 방식도 달라질 수 있겠죠 - 같은 기술로 모든 언어에 걸쳐서 번역할 수 있을지, 아직 분명하지는 않아요. 하지만 어쨌든 흥미로운 도전이라는 건 분명해요.

Q. 그렇다면, 아까 이야기한 ‘대화형 AI’ - STT (Speech-to-Text), LLM (Large Language Models), TTS (Text-to-Speech)로 구성된 - 의 각 구성 요소별로 현재 달성한 성능은 어느 정도인가요? 백분율로 표현한다면 진척도는 어느 정도라고 보세요?

글쎄요. 어려운 질문이네요. 저는, 일부 유즈케이스에 대해서는 이미 목표에 도달했다고 생각합니다. 특정한 시나리오에서는, 정말 제대로 쓸 수 있어요. 예를 들자면, 저희가 미국의 Hippocratic이라는 회사와 협업하고 있는데, 이 회사는 간호사들이 환자 예약 관련된 업무 중 시간이 많이 드는 일부 작업을 자동화하고 있어요. 환자에게 전화해서 상태를 묻거나, 약 먹어야 된다고 상기시켜 주거나, 다음 일정을 예약하는 것 등이요. 이런 경우에는, 대화형 AI가 이미 잘 작동해요 - 물론 영어에서 영어로의 경우이구요.

또 다른 회사와는 ‘고객 지원’ 업무 영역에서 협력하고 있는데, 발신자가 한 언어로 말하고, 상담원은 다른 언어만 알아들어요 - 그래서 실시간으로 번역을 해야 돼요. 그 전에는 아예 의사소통할 수가 없었던 것에 비하면, 너무나 잘 작동하죠. 아직 완전히 감정적인 톤을 그대로 보존하지는 못하지만, 이 유즈케잇의 경우에는 그게 중요한 걸림돌은 아니었어요.

아직 좀 어려운 부분은, 더 복잡하고 감정의 깊이가 상당히 높은 시나리오죠. 예를 들어, 앞서 이야기한 실시간 더빙 같은 경우요. 지금 스포츠 이벤트 같은 걸 방송하면서 실시간으로 통번역하고 싶어하는 일부 미디어 회사들하고 협업하고 있는데, 쉽지가 않아요. 이름도 많이 나오고, 발화도 빠르고, 감정적인 높낮이도 상당하구요, 그리고 맞추기가 어렵고 복잡한 해설의 스타일이라는 것도 있어요.

하지만, 콜센터, 의료 상담, 교육 같은 유즈케이스에서는 이미 실제 현장에서 활용이 적극적으로 진행되고 있다고 할 수 있어요. 앞으로 확장만 남겨놓고 있죠.

그리고, 개인적으로, 앞으로 12개월 ~ 18개월 내에는 ‘감정적으로 민감하거나 맥락이 중요한’ 세팅에서도 더 많은 대화형 AI 에이전트를 볼 수 있게 될 거라고 생각해요 - 실시간 더빙이든, 감정이 풍부한 대화든 말이죠.

Q. 정말 놀라운 이야기네요. 렉스 프리드먼의 팟캐스트를 더빙하는 작업은 어땠나요?

아래 일레븐랩스가 작업한 ‘렉스 프리드먼과 인도 모디 총리의 팟캐스트 유튜브’를 걸어놓았으니 한 번 보시기 바랍니다. 꽤 인상적이긴 합니다.

편집자 주

꽤 어려웠어요 - 모든 단어, 모든 문장이 제대로 번역되게 확실히 하고 싶었거든요. 저희에게는 중요한 순간이기도 했구요. 우리가 출발한 계기, 그리고 우리가 목표로 하는 비전을 고려할 때, 렉스 같은 사람들과 협력하고, 그 작업의 결과물이 엄청난 숫자의 사람들과 공유되는 걸 본다는 건, 가슴이 뛰는 일이죠.

이 작업에서 꽤 많은 시간을 QA, QC하는데 썼어요. 모든 부분이 가능한 범위 내에서 가장 정확하게 되었는지 확인하고, 외부 파트너들도 이 작업에 함께 했어요. 오디오에도 신경을 많이 썼는데, 화자의 목소리 - 모디 총리의 목소리 - 와 같은 톤과 존재감으로, 제대로 표현되도록 확실히 하고 싶었거든요.

말 그대로, 원본과 새 버전을 비교하면서 몇 번이고 계속해서 들었어요. 유튜브 같은 플랫폼의 팟캐스트에서 까다로운 점은, 그 길이가 제대로, 정확히 일치해야 한다는 거더라구요. 그래서 한 언어로 바꾸면 원래 언어보다 자연스럽게 길어지더라도, 여전히 같은 시간적인 윈도우에 맞춰야 돼요. 즉, 원래 문장을 가져와서 약간 바꿔서 말하고, 그 다음에야 다른 쪽에서 오디오를 생성한다는 것이죠.

그런데 문제는, 그렇게 작업을 하게 되면, 길거나 짧은 컨텐츠, 약간 다른 감정선, 그리고 원래와는 다른 문구를 가지고 작업을 하게 된다는 건데….어떻게 처리할까요? 어려운 일일 수 밖에 없어요. 정확한 숫자는 기억 안 나는데, 영어에서 스페인어로 발화할 때 약 30~40% 정도 더 길어지는 걸로 기억해요. 그래서 이런 번역 내용을 같은 시간의 프레임으로 압축하는 건, 생각만큼 쉬운 일은 아니에요.

그렇지만, 진짜 의미가 있는 도전이었어요. 언젠가 이런 종류의 더빙을 높은 품질로 반자동, 또는 완전 자동으로 할 수 있다면, 그건 정말 기술이 좋다는 하나의 증거가 될 겁니다. 물론 우리 일레븐랩스도 거기 가까워지고 있는 회사라고 생각해요.

Q. 그렇군요. 그래서, ‘하루’ 정도 걸리는 작업이었던 건가요? 

아녜요, 더 걸렸어요. 대략 이런 팟캐스트 - 길고 어려운 - 의 경우, 일주일에서 이주일 정도 걸렸다고 생각해요.

가장 어려운 부분은 ‘번역’ 부분이었고, 이걸 정확하게 맞추려고 다른 팀들과 같이 일했어요. 이건 그냥 번역이 아니고, 오디오라는 맥락 안에서의 번역이죠. 그래서 단어를 그냥 정확하게 옮기는 것만이 아니라, 아까 이야기한 것처럼 길이도 맞춰야 되는 거죠. 의미, 타이밍 둘 다 다듬는 이런 앞뒤의 과정이 가장 많은 시간을 차지했어요.

오디오 부분에서 ‘좋은 목소리를 생성하는 것’ 자체는 비교적 쉬웠다고 생각합니다. 하지만, 제대로 된 감정을 담은 훌륭한 목소리를 생성하고, 그것도 시간적인 제약 안에서 해내는 것, 그게 훨씬 더 어려웠습니다.

Q. 와, 듣기만 해도 대단한 작업이라는 느낌이 드네요! 그런데 이런 경우는 어떻게 되나요? 예를 들어, 우리가 이야기하는 중에 누군가 들어오고 소음이 생겼어요. 그럼 대화형 AI에서 이런 상황을 어떻게 처리하나요?

그런 상황에 대응할 수 있는 꽤 좋은 모델을 가지고 있어요 - 이 모델은 ‘화자의 볼륨’, 그리고 ‘이전에 말한 내용의 맥락’을 기반으로, 소음이 실제 방해인지 아니면 그렇지 않은지를 감지해요. 예를 들어서, 누군가 계속 말하고 있는 중간에 다른 사람이 말을 한다고 감지하면, 이게 실제로 다른 사람이 끼어드는 건지 아니면 같은 사람이 계속 말하는 건지요.

이 모델이 꽤 잘 작동하기는 하는데, 완벽한 해결책은 아니예요.

저희가 바라는 미래의 방향 중 하나는 이런 거예요: 제가 에이전트와 대화를 한다고 가정해 보죠. 제가 말하는 첫 몇 문장을 기반으로 시스템이 제 목소리를 인코딩하고 이후에 참조로 활용할 거예요. 그래서 이후에 뭔가 다른 목소리가 들어오면, 이게 여전히 같은 목소리인지 아닌지 확인할 수가 있죠.

물론, 유즈케이스는 너무나 다양해요. 어떨 때는 여러 사람이 대화에 참여할 수 있구요. 그래서 저희가 생각해 보는 건, 특히 에이전트와 대화를 하는 경우에 누가 말하는 건지 자동으로 감지하고, 그 사람한테만 맞춤형으로 응답을 제공하는 세팅 같은 걸 만들어 볼 수도 있다는 거예요.

진짜 어려운 부분은, 아마 이 대화를 원활하게 유지하고 이어가도록 하기 위해서, 어떻게 충분히 빠른 속도로 이 판단과 전환 작업을 수행하 건가예요.

Q. 지연 시간 (Latency)이 중요하군요.

네, 근데 할 수 있다고 봐요 - 특히 시끄러운 환경에서라면요. 이런 환경에 대한 지원을 특별히 저희한테 요청한 사람이나 기업도 있구요. 이에 대한 해결책을 올해 2분기에 출시하려고 노력하고 있어요.

현재 엔드-투-엔드의 지연 시간은 - 네트워크 지연이나 간섭 같은 걸 포함해서 - 1에서 1.2초 정도 맥스면 된다고 봐요. 지역에 따라 다르기는 하겠지만, 빠른 편입니다.

Text-to-Speech 부분, 즉 오디오를 생성하는 부분이 가장 빠른 속도를 보여주고, 이 부분에서 아마 아마 일레븐랩스의 모델이 가장 빠를 겁니다 - 지연 시간이 70 밀리세컨드 정도에 불과해요.

시간이 좀 걸리는 부분은 ‘전사 (Transcription; Speech-to-Text)’와 LLM의 작업 단계예요. 그렇지만 핵심적으로 중요한 부분은, 단지 속도가 아니라 ‘언제 끼어들까’ 하는 점이예요. 누군가 말을 멈춘 순간에 바로 끼어들어야 할까요? 혹시 말하다가 잠깐 멈춘 거라면 어떻게 해야 하죠?

저희 일레븐랩스의 대화형 AI 프레임웍에서는, 이걸 처리하기 위해 백엔드에 여러 가지 종류의 메커니즘을 구축해 놓고 있어요. 맥락을 분석해서, 지금 멈추는 게 자연스러운 문장의 끝인지 확인하고, 뒤따르는 침묵의 길이도 확인하고, 이런 신호들을 결합해서, 말이 끝났다고 판단이 되면 응답을 생성하죠.

물론, 이런 확인 작업을 하는 동안에도, 이미 LLM은 응답의 일부를 미리 생성하고 있죠. 결정이 내려진 다음에 응답을 더 빠르게 스트리밍해야 하니까요. 이 때문에, 엔드-투-엔드 응답 생성이 더 빠르고 자연스럽게 느껴질 수 있습니다.

이런 방법의 대안이 있다면, 아마 제대로 된 멀티모달 시스템을 구축하는 거겠죠 - 세 가지 구성 요소를 함께 훈련시키는 것 말이예요. 어쩌면 이 방식이 더 유연하고, 자연스럽게 느껴질 수도 있어요. 그렇지만, 특정한 시나리오에서 정말 필요한, 이 과정의 ‘제어’를 하기가 쉽지 않을 거예요.

우리가 만들어놓은 것 같은, 세 단계의 파이프라인을 사용하면, LLM이 특히 고객 지원, 의료 상담 같은 정확성이 중요한 영역에서 해당 주제에 집중하게 할 수 있어요. 의도한 것보다 더 많이 또는 적게 말하지 않고, 정확히 의도한 대로 말하게 하고 싶거든요. 그리고, 추가적인 확인 작업도 중요해요 - 조금 더 시간적으로 지연될 수는 있지만, 안전성, 신뢰성을 높이는 것도 중요해요.

멀티모달 시스템은, 더 ‘자연스러운’ 대화를 하기 위해서 위에서 이야기한 ‘제어’ 수준의 일부를 타협해야 해요. 물론, 연구의 관점에서 적극적으로 이 부분도 들여다보고는 있지만, 특히 대기업 고객 같은 경우는, 세 단계의 파이프라인 구조를 권장하는 편이예요. 안정적이고, 모니터링하기도 쉬우니까요.

Q. 안 그래도 물어보고 싶었어요 - 대화형 AI의 다음 단계가 언젠가는 멀티모달 쪽으로 나가야 하나 생각이 들었거든요.

네, 언젠가는, 특히 감정적인 뉘앙스나 소속감 같은 게 중요한 특정한 유즈케이스에서는, 멀티모달이 표준이 될 거라고 봐요. 앞으로 1~2년 내에 말이죠. 그리고 앞으로 3~5년 내에는, 멀티모달 시스템이 그런 사용 사례에 적합한 기법이라는 증거들, 그리고 안전성 측면에서도 개선되는 결과를 보게 될 거예요.

예를 들어서, 티켓을 환불한다거나 취소한다거나 하는 건 ‘백엔드’ 시스템과의 연결이 필요한데, 이런 것이 결부되지 않은 상호작용이라면 멀티모달 경험이 실제로 더 쓸모가 많을 수도 있을 거예요. 하지만 여전히 조심할 부분이 있어요. 절대적으로 항상 신뢰성있게 작동한다고 확신을 할 수 없다면, 과연 테라피스트 AI를 멀티모달로 구성하는게 안전할까요?

한동안은, 지금의 세 단계 파이프라인 아키텍처 중심의 해결책이 큰 가치를 제공할 겁니다. 모듈식이고, 제어의 수준이 좀 있는 시스템들이요.

Q. 처음에 일레븐랩스는 ‘연구 중심’ 회사로 시작했는데요. 지금은 얼마나 기술적으로 깊이 관여하고 있나요?

하하 네, 제 공동 창업자는 엄청난 사람이예요 - 우리가 구축한 모든 모델이 이 친구의 고민 속에서 태어났죠. 그리고 오디오 분야에서 최고의 연구자들을 한데 모으는데도 성공했구요. 우리 오디오 연구팀은, 이 영역에서 놀라운 좋은 모델들을 계속 내놓고, 각종 벤치마크에서도 최고 수준의 성과를 달성하는 팀이예요.

일레븐랩스는, 여전히 오디오 연구에 많은 초점을 맞추고 있고, 앞으로 몇 년 동안도 그럴 것 같습니다. 우리 목표는, Speech-to-Text, 대화형 에이전트, 오디오에 대한 이해와 생성 등 다양한 영역에서 최고의 최첨단 모델을 만드는 겁니다.

저 개인적으로는, ‘연구’만으로는 절대 충분하지가 않아요. 사용자를 위한, 엔드-투-엔드 경험, 즉 제품에 대한 신경을 많이 써야 한다는 겁니다. 하나의 훌륭한 모델을 갖고 있다는 거, 그걸로 충분하지가 않아요. 누군가 전체 오디오북을 만들든, 완전한 음성 에이전트 경험을 구축하든, 제품이나 워크플로우가 필요해요 - 지식 베이스, 기능, 그런 모든 것들을 통합하는 거요. 바로, 이 부분이 제가 가장 신경쓰는 부분입니다.

참고로, 저희 회사가 고객사와 일을 하면서 시스템을 배포할 때, 아마 이 업계에서 흔한 일은 아닐 텐데, 우리 엔지니어가 고객사 팀과 직접 함께 일을 합니다. 우리 엔지니어가, 고객사의 워크플로우에 들어가서 그 쪽에서 필요한 게 뭔지를 이해하는 것이죠. 그리고 그 필요에 더 적합한 해결책을 만드는 거예요.

Q. ‘연구’ 작업에 더 많이 몸담았던 때가 그립거나 하진 않아요?

저는 연구라는 그 작업 자체에 직접 관여한 적은 없어요. 대신 제품 자체를 구축하는 일에 참여했습니다.

이전에 팔란티어에서 일했을 때는, 기술적인 측면에 훨씬 더 가까운 일이었어요 - 파이프라인 작업과 최적화 문제에 대해서 고객사와 일했죠. 특히, 수학적인 과제를 다룬다거나, 엔지니어링적인 사고 방식으로 문제를 해결하곤 했던 것들은 확실히 그리울 때가 있어요.

하지만, 여전히 중요한 사실 한 가지 - 바로 이게 제 현재 역할에서 제가 좋아하는 점인데 - 는, 고객사와 긴밀하게 협력한다는 거예요. 많이 고객과 대화하고, 고객의 문제를 이해하려고 노력하고, 우리가 어떤 솔루션을 만들 수 있는지 파악하고 고민합니다. 이게 바로 제품을 구성해 나가는 방식에 직접적으로 영향을 주고요.

제가 더 이상 직접 코드를 쓰지는 않지만, 우리가 함께 한 작업의 결과물이 어떻게 만들어지고 배포되는지 확인하는 건, 정말 보람있는 일이예요.

Q. 네. 아 그리고 지난 1월 시리즈 C 성공적으로 투자 유치하신 것 축하해요. 렉스 프리드먼과 협업도 하고, 이번 주에는 구글 클랄우드와 파트너십도 발표되었네요. 일레븐랩스가 어디에든 등장하는 것 같아요. 앞으로의 전략은 어떤 건가요?

네, 일단 저희가 가장 중요하게 생각하는 것 한 가지는, 우리가 해결하려고 하는 문제를 정말 제대로 이해하는 거예요. 계속해서 말이죠. 그래야만, 비로소 제대로 된 해결책을 만들어 낼 수 있을 거예요.

그 다음으로는, 문제를 알고 좋은 해결책을 만들었다고 하더라도, 다른 사람들 대부분은 그런 게 있다는 것조차 모르기 마련이죠. 어떤 게 가능하다는 것 자체를 모르기가 쉬워요.

결국, 핵심 질문은: 어떻게 그런 분들한테 우리가 있고 우리 해결책이 있다는 걸 알릴까 하는 거죠. 이런 문제를 해결할 기술이 마침내 여기 있다는 걸 보여줘야 하니까요.

현재 전략의 한 부분은, 우리의 기술을 창작자와 개발자들에게 개방하는 거였어요. 자신들이 하고 싶은 프로젝트에서 사용하게 하는 거죠. 어떤 걸 할 수 있는지 세상에 보여주도록 하는 겁니다. 그 과정에서, 솔직히 우리도 예상하지 못했던 많은 걸 배웠어요 - 예를 들면, 우리가 생각해 본 적이 없는 유즈케이스 같은 거예요. 결국, 이 발견의 과정은, 일방적인 게 아니라 양방향으로 진행되었구요.

그와 동시에 우리는 ‘연구가 아주 중요하고, 연구가 실제 문제를 해결할 수 있다’고 믿는 사람들이예요. 오디오북 나레이션부터 뉴스레터 보이스오버, 팟캐스트 더빙, 영화 보이스오버, 음성 에이전트 같은 것들까지 말이죠. 하지만 그냥 그렇다고 주장하는게 아니라, 창작자, 개발자, 이노베이터 들과 협력해서 어디까지가 가능한지, 그 범위를 보여줍니다. 그리고 그 과정과 병행해서 대기업과 파트너십을 맺어 아주 깊게 들어가는 거죠 - 이 과정에서 그들이 필요로 하는 스케일, 기업 레벨의 요구 사항, 보안, 규정 준수에 대한 요구 사항 등이요.

지난 주도 마찬가지였어요. 도이치 텔레콤과의 파트너십을 발표하게 되어서 아주 기뻤는데요. 물론 이 파트너십 자체는 좀 다른 각도에서 이루어진 것이지만, 우리가 이 파트너십에 기대하는 이유 중 하나는, 도이치 텔레콤이 어떻게 음성을 통해서 상호작용을 하고 소통을 하는지 팟캐스트, 전화 통화 등을 통해서 잘 이해하고 있기 때문이예요. 자, 그럼 이 파트너십에서 우리 일레븐랩스의 초점은, 어떻게 여기서 더 깊이 들어갈 수 있을까, 어떻게 엔드 투 엔드로 뭘 만들어낼 수 있을까 하는게 됩니다.

결국, 우린 이렇게 생각해요. 한 쪽에서는 최고의 기술을 널리 널리 접근할 수 있게 만들고, 다른 한 쪽에서는 아주 유니크하고 깊이 통합된 기업 솔루션을 구축하는 겁니다.

Q. 연구도, 제품도, 어떤 부분도 빠지지 않는군요. 그렇지만, 어떤 것도 ‘오픈소스’로 공개하지는 않았어요 - 왜 그런가요? 그리고 앞으로는 어떻게 하실 생각이세요?

좋은 질문이예요. 저희도 이 부분에 대해서 많은 고민을 했어요.

현재 기준으로, 저희가 연구에 많은 투자를 했고, 다른 팀들이 주목하지 않던 영역에 집중했기 때문에, 그리고 더 솔직히 말하면, 너무 일찍 개방하게 되면 우리가 가진 많은 이점과 IP를 내주게 되는 셈이 될 거예요. 다른 사람들이, 우리가 구축한 이 결과물을 재현하기가 쉬울 수도 있어요.

물론, 이 게임은 제품 레이어를 더 많이 구축하게 되면서 변하게 될 테죠. 솔직히 지난 2년 동안 ‘제품’ 관점에서 많은 변화도 있었고 쌓아놓은 것이 있어요. 하지만 우리가 도달하고자 하는 지점까지는 아직 멀었거든요.

제품과 관련해서 주변에 준비가 많이 되었다고 판단된다면, 뭔가 더 성숙하고 강력한 제품을 우리가 보유했다고 느낀다면, 그 때쯤에는 연구의 측면에서 우리가 가지고 있는 걸 좀 더 기쁘게 개방할 수 있을 거라고 봅니다. 아마 이 방향이, 우리가 생각한 전반적인 비전과 사명을 이루는데 도움도 될 테죠.

어쨌든 아직은, 특히 지금까지 우리가 투입한 시간, 에너지, 자원 등을 생각해 보면, 현재로서는 많은 걸 폐쇄적으로 관리할 수 밖에 없다고 생각합니다. 특히 이 분야에 관심을 가진 많은 회사들이, 우리보다 훨씬 더 많은 자원을 가진 회사들이구요.

Q. 잠재적인 경쟁자가 많군요.

네, 그래요. 그리고 뭐 아다시피, 일부 대기업이나 하이퍼스테일러들도 언젠가 이 분야에 진입할 가능성이 높다고 봐요.

그 때문에라도 결국은 자유롭게 사용할 수 있도록 개방을 해야겠지만, 지금은 그 기반을 구축하는게 중요해요 - 우리 제품이 경쟁력있게 시장에 자리잡을 때까지는요.

Q. 하하, 네, 일레븐랩스 전략의 일부이기도 하군요. 그럼, 아마도 마지막 질문이 될 것 같은데 - 폴란드에서는 더빙 문제가 해결되었나요?

네, 저는 좋은 방향으로 나아가고 있다고 생각해요 ^.^ 아직 완전히 해결되지는 않았지만, 맞는 방향으로 가는 중이예요.

말씀드렸지만, 연구 관점에서 문제를 해결하는 것, 그리고 실제로 제대로 된 해결책을 만들고 세상에서 많은 사람들이 사용하게 하는 건 전혀 다른 문제잖아요. 그 부분이 우리가 지금 많은 노력을 하고 있는 부분입니다.

저는, 앞으로 몇 년 내, 아마 2~3년 정도 내에 해결될 문제라고 생각합니다.

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.