• Turing Post Korea
  • Posts
  • Moonshot AI: 롱 컨텍스트 (Long-Context) AI를 이끌고 있는 중국의 AI 유니콘

Moonshot AI: 롱 컨텍스트 (Long-Context) AI를 이끌고 있는 중국의 AI 유니콘

1년만에 기업가치 25억불을 달성하고, AGI 구축을 목표로 글로벌 경쟁에 참여하다

2024년 5월 13일 OpenAI가 GPT-4o를 공개 (Turing Post 뉴스레터 ‘OpenAI's new GPT-4o – what it can and cannot do’  참조) 하면서 생성 AI에서 미국의 주도권이 한층 공고해진 듯해 보이기는 하지만, 미국과 중국의 ‘AI 주도권 경쟁’은 오랜 기간동안 전세계의 주목을 받아온 주제입니다. 여전히 중국은 AI에 엄청난 투자를 하고 있고, 그 투자에 힘입어 미국을 중심으로 한 서구권의 AI 스타트업과 경쟁할 만한 새로운 기업들이 속속 등장하고 있습니다.

Turing Post에서는 지난 4월 ‘Zhipu AI: The Rise of an AI Tiger Reaching for AGI’에서 중국의 생성 AI 유니콘 스타트업이자 자사의 독특한 거대언어모델로 25억불 기업가치를 인정받은 Zhipu AI를 다루었습니다. 그런데 그 기사를 쓰는 동안에, 중국 베이징의 칭화대학교와 깊은 관계가 있는 중국의 또 다른 AI 유니콘 스타트업인 Moonshot AI 이야기가 계속 들려왔습니다. Moonshot AI는 설립 이후 1년만에 25억불의 기업가치를 달성한, 엄청난 성장속도를 보여주고 있는 스타트업입니다. 재미있게도, 이 친구들은 Google의 PaLM, Meta의 LlaMa, Stable Diffusion 같은 유명한 LLM에 Moonshot AI 팀이 개발한 다양한 핵심 기술이 활용되고 있다고 주장합니다. 웹사이트를 살펴보면, 이 회사는 중국어로 ‘月之暗面’, 즉 ‘달의 어두운 면 (Dark Side of the Moon)’이라는 별칭도 가지고 있는데, 공동 창업자 Yang Zhilin이 특히 좋아하는 밴드 ‘핑크 플로이드’의 전설적인 앨범 이름을 오마주한 것이라고 합니다. 어떻게 이 중국 AI 스타트업은 이 정도로 빠르게 성장하면서 큰 영향력을 가지게 되었을까요? 이들은 롱 컨텍스트 창 (Long-Context Window) 기술을 어떻게 파괴적으로 혁신하고 있으며, 이 친구들이 이야기하는 ‘AGI의 세 계층’이라는 건 무엇일까요? 과연 이 중국의 AI 스타트업이 미국의 경쟁자들과 한 번 제대로 맞붙어볼 수 있을까요?

자, 이 ‘달의 어두운 이면’에 무엇이 도사리고 있을지, 한 번 같이 살펴보시죠.

목차

창업 1년만에 25억불짜리 기업이 되다 - 이 여정은 어떻게 시작되었나

Zhipu AI, Baichuan, MiniMax와 함께 중국의 4대 AI 기업으로 불리는 Moonshot AI는, 2023년 3월 중국 베이징 칭화대학교 융합정보대학 조교수인 Zhilin Yang이 설립한 회사로, 그 업력이 1년 정도에 불과한 신생 기업입니다. Zhilin Yang은 칭화대학교 컴퓨터과학과를 거쳐 카네기멜론대학교에서 박사학위를 받았는데, 칭화대학교 졸업생인 Xinyu Zhou, Yuxin Wu과 함께 Long-Context Window에 초점을 맞춘 거대언어모델 연구를 위해 협업하면서 이 회사를 창업했습니다.

설립 1년만에 10억불 투자를 유치, 25억불짜리 기업으로 인정받은 것은 정말 엄청난 일인데요. 왜 투자자들이 Moonshot AI에 대규모 투자를 단행했는지 이해하기 위해서라도 먼저 창업자들의 면면을 살펴보는 것이 좋겠습니다. 창업자들 모두 30대 초반의 젊은 세대지만, 이미 그들이 이룬 기술적 성과는 대단합니다.

창업자들의 기술적 배경, 그리고 Moonshot AI의 제품 방향

당연하다고 할 수도 있지만, Moonshot AI의 정체성은 창업자 세 명의 기술적 배경과 큰 관련이 있습니다. Moonshot AI 웹사이트에 따르면, 초기 창업팀 멤버들은 모두 Google Gemini, Google Bard, Pangu NLP, Wu Dao 등 다양한 거대모델의 연구개발에 참여한 사람들입니다. 게다가, 웹사이트에서는 이 창업팀이 개발한 많은 핵심기술들이 Google PaLM, Meta LlaMa, Stable Diffusion 등에 채택되었다고 주장하는데, 정말 그럴까요?

Zhilin Yang

Zhilin Yang이 쓴 수많은 논문과 글 중에, 아마 최다 인용된 논문들은 카네기멜론대학교 박사과정, 그리고 Google Brain에서 쓴 논문들일 것입니다. 아래의 논문들에는 NLP 영역의 doc2vec과 seq2seq 모델을 공동 개발한 Quoc V. Le가 공저자로 참여했습니다:

  • “Transformer-XL: Attentive Language Models beyond a Fixed-Length Context” – 2019년 발표된 이 논문은 트랜스포머 모델에서 고정된 길이 이상으로 Context를 늘리는 방법을 소개하는데, 서로 다른 세그먼트에서도 Context를 유지하여 더 맥락을 잘 이해하고 더 일관성있는 긴 텍스트를 생성하는 능력을 개선하도록 했습니다. 이런 방법으로 긴 문서나 데이터셋을 처리해야 하는 작업의 성능을 상당히 높일 수 있습니다.

  • “XLNet: Generalized Autoregressive Pre-training for Language Understanding” – 이 논문은 Autoregressive 방식과 Autoencoding 방식 양쪽의 장점을 결합하여 언어모델을 사전 훈련하는 방법을 고안했습니다. 이 방법으로 모델이 더 광범위하게 데이터 간의 의존성을 파악할 수 있도록 함으로써 여러 가지 NLP 벤치마크에서 BERT 등의 기존 모델 성능을 뛰어넘는 성과를 보여주었습니다. 

재미있는 점은, Zhilin Yang이 칭화대학교 연구그룹의 일원으로서 Zhipu AI의 모델을 만드는데도 참여했다는 것인데요. 이 친구는 2022년 3월 발표한 GLM (General Language Model) 첫 번째 버전의 개발자 중 한 명일 뿐 아니라 2023년 8월 발표된 CodeGeeX에도 기여한 바 있습니다. 물론, CodeGeeX 작업은 Moonshot AI 설립 이전에 한 것이고 발표가 살짝 늦었던 것 뿐이기는 합니다. Zhilin Yang은 음성 분석 알고리즘을 개발하는 Recurrent AI를 공동 창업하기도 했습니다.

Xinyu Zhou

Xinyu Zhou는 Hulu, Tencent, 그리고 Megvii 등 다양한 기업에서 AI 제품 개발 및 연구자로 근무한 경험이 있고, 아래 논문들의 공저자입니다:

  • DoReFa-NetShuffleNet - 이 두 논문들은 모두 컴퓨팅 자원이 제한된 하드웨어에서 심층신경망을 운용할 때의 난제를 다루고 있는데, 각각 10,000회 이상 인용이 된 논문들입니다.

  • 2,000회 이상 인용된 The East Framework은, 자연스러운, 즉 노이즈가 많은 배경에서도 텍스트를 잘 인식하는 새로운 접근방법을 제시합니다. 이 방법은 복잡한 이미지에서 텍스트 인식의 속도와 정확도를 모두 개선해 주는데, 자율주행, 증강현실, 현실적인 조건에서의 텍스트 분석 등 실제 활용할 만한 어플리케이션을 만드는데 큰 의미가 있습니다. 

Yuxin Wu

Yuxin Wu는 Google Brain에서 Foundation Model 관련 작업을, Meta AI Research에서는 컴퓨터 비전 관련 작업을 한 경험이 있습니다. 객체 탐지, 세그먼테이션을 포함한 여러 가지 시각적 인식 작업을 위한 플랫폼 Detectron2를 만들었는데, 이것은 Facebook AI 프로젝트 중 가장 유명한 것들 중 하나로 알려져 있습니다.

Xinyu와 Yuxin은 모델이 모바일 디바이스나 개발자의 개인장비 등 보통 컴퓨팅 자원이 충분치 않은 상황을 위해서 모델을 최적화할 때 필요한 기술과 전문성을 가지고 있습니다. 또, 이 친구들이 텍스트와 이미지 인식 등의 영역에서 쌓은 많은 연구 경험은 Multimodal Foundation Model의 개발에 있어서 훌륭한 자산이 될 수 밖에 없습니다 – 현재의 선도적 언어 모델, Multimodal 모델 연구개발에 이 두 영역이 아주 중요한 부분을 차지하고 있습니다.

Moonshot AI의 핵심 기술은 무엇인가

Bloomberg에 따르면, Beijing Dark Side of the Moon Technology – Moonshot AI의 중국식 별칭 – 는 컴퓨터 시스템 서비스, 기술 컨설팅, 기술이전 등의 서비스, 그리고 컴퓨터 장치의 판매를 하는 회사로 등록되어 있습니다.

위에 등록된 사업이 모두 다 중요한 업이지만, 사실 이 회사가 LLM, 즉 거대언어모델 개발에 집중하는 회사라는 것은 모두 다 알고 있습니다. 특히, 창업자인 Zhilin Yang의 연구 주제인 중국어 관련 Long-form Context 처리와 응답 능력에 초점을 두고 있다는 것도 말이죠.

2023년 10월 출시된 회사의 주력 제품 Kimi Chat은 Moonshot AI의 성공을 향한 역작이라고 할 수 있는데요. 이 LLM은 경쟁사를 압도하는 수준인 ‘200,000개에 달하는 중국어 문자를 처리’할 수 있는 장문의 텍스트 처리 능력을 보여준다는 측면에서 차별화되어 있습니다. 계속해서 파인튜닝을 하지 않고도 큰 규모의 입력 텍스트를 소화하고 작업할 수 있는 능력은 금융, 법률, 학계 등 ‘광범위한 문서를 빠르게 분석하고 요약’하는 등의 작업이 아주 중요한 영역에서 빛을 발할 것입니다. 설계 상의 타협을 종종 하는 다른 모델들과는 달리, Kimi Chat은 혁신적인 엔지니어링 설계 덕분에 성능 상의 타협을 하지 않았다고 합니다.

그렇지만 Moonshot AI의 관심은 기술적 혁신을 이끌어가는데만 있는 것이 아닙니다. 이 회사의 주 목적은 시장에서 필요한 회사가 되고자 하는 것이고, 자연스럽게 투자자들의 관심을 사게 되었습니다.

TechSpec: KimiChat 아키텍처

KimiChat은 2019년 Zhilin Yang이 Zihang Dai, Yiming Yang, Jaime Carbonell, Quoc V. Le, 그리고 Ruslan Salakhutdinov와 공저한 논문에 등장하는 Transformer-XL 아키텍처 기반으로 만들어졌습니다. 이 아키텍처는 표준 트랜스포머 모델이 가진 제약 사항인 고정 길이 Context의 한계를 극복함으로써 언어 모델링의 큰 발전을 이끌어낸 바 있습니다. 

작동 방식: Transformer-XL은 세그먼트 레벨의 Recurrent Mechanism, 그리고 혁신적인 Positional Encoding 방식을 도입해서, 시간이 지나도 일관성을 유지한 채로 더 긴 문장과 문맥 안에서 의존성을 학습할 수 있도록 해 줍니다. 모델이 이전 세그먼트의 메모리를 유지하면서 확장된 시퀀스들을 더 잘 이해하기 때문에, 이 아키텍처는 RNN에 비해서 80% 이상, 전통적인 Transformer 대비 450%까지도 Context의 길이를 효과적으로 늘릴 수 있습니다.

벤치마크: Transformer-XL의 잠재력은 성능의 개선 정도를 통해서도 확인할 수 있는데요. 이 모델은 enwiki8, text8, WikiText-103, One Billion Word, 그리고 Penn Treebank 등의 데이터셋에 대한 Perplexity 점수를 상당히 낮춰주는 SOTA 성능을 달성한 바 있습니다. 이 뿐 아니라, 이전의 유사한 모델들보다 1,800배까지도 빠른 처리 속도를 보여주는 등 컴퓨팅 자원의 효율적 사용이라는 관점에서도 큰 발전을 이룬 모델입니다.

Transformer-XL 모델의 혁신적인 성능 개선에 기대어, KimiChat도 긴 시간 동안의 의존성유지, 관리가 중요한 작업의 경우에 대한 해결책으로서 부상, 다양한 언어 모델의 개발 및 연속 데이터 처리 어플리케이션을 위한 기술로 활용되고 있습니다. 이의 연결 선상에서, ‘손실없는 (Lossless) Long-context’가 Moonshot AI의 ‘북극성 지표’, 즉 제품의 지향점이라고 할 수 있을 것입니다.

Moonshot AI의 전략 : ‘무손실 Long Context’에 전력 투구한다

Moonshot AI 사업전략의 핵심에는 바로 ‘무손실 (Lossless) Long-context’라는 개념이 자리하고 있습니다. 전통적으로 AI 모델이 새로운 데이터라든가 사용자와의 새로운 상호작용 방식에 잘 대응하도록 하려면 잦은 파인튜닝이 필요합니다. 그런데, Moonshot AI에서는 사용자와의 풍성한 상호작용 이력 자체를 동적으로 진화하는 개인화의 기반으로 이용해서, AI 모델을 계속 변경할 필요 자체가 없도록 하는 것을 그 목표로 합니다.

Moonshot AI의 이런 실험은 아주 빠르게 진행되고 있는데요. 200,000개 문자에 달하는 Context Window를 발표한지 6개월만인 2024년 3월, Moonshot AI는 이전에 들어보지도 못한, 자그마치 2백만개 문자에 달하는 대화 Window를 지원한다는 발표를 하게 됩니다.

이 발표에 다양한 업계의 거대 기업들도 빠르게 대응하는데요:

이렇게 LLM의 영역에서 미국과 중국의 기업들 간 기술 격차가 빠르게 줄어들면서, 중국 AI 기술과 기업의 영향력, 그리고 잠재력이 점점 부상하고 있는 듯 합니다.

Long Context가 왜 중요한가

긴 문장을 처리할 수 있다는 것은, 그 안의 더욱 풍부하고 미묘한 뉘앙스나 복잡한 표현들과 관계들을 여러 세그먼트로 나누지 않고도 이해하고 처리할 수 있도록 할 수 있다는 것을 의미합니다. 이렇게 되면 자연스럽게 더 다양한 범위의 고객 서비스라든가 복잡한 데이터 분석을 잘 해내는 어플리케이션을 만들 수 있고, 따라서 LLM 서비스 시장에서 요구하는 차별적 요소가 되어가고 있습니다.

미국 기업들과 비교하면 KimiChat의 Context Window 사이즈는 어느 정도인가? (2024년 5월 기준)

Moonshot AI의 미션: AGI를 향하여

Moonshot AI 창업자들 중 가장 널리 알려져 있다고 할 수 있는 Zhilin Yang은, 자신의 웹사이트에 ‘궁극적인 나의 목표는 인공지능의 가치를 극대화하는데 있다’고 스스로 밝힌 바 있고, 인간과 AI 사이의 핵심 인터페이스로서의 자연어를 활용한 일반 인지 지능 (General Cognitive Intelligence)를 개발하기 위해 노력하고 있습니다.

Moonshot AI의 목표 중 하나는 일반인공지능 (AGI)를 달성하는 것입니다. Zhilin Yang은 사용자 중심의 혁신, 그리고 AI를 통한 개인화된 상호 작용에 집중하는 전략으로 OpenAI와 같은 기존의 AI 기업을 능가하고자 하는데, 가장 중요한 미션은 ‘무손실 Long Context’와 ‘개인화’에 우선순위를 두고 고급 AI 기술을 개발하여 AI-native 제품이 전통적으로 요구되었던 파인튜닝 없이도 아주 잘 맞춤화된 사용자 경험을 제공하도록 하는 것이라고 합니다. Zhilin Yang은 기술적 이상주의, 그리고 상업적 실용주의를 통합해서, 제품의 우수성, 그리고 유용성을 모두 추구할 있다고 믿는다고 합니다.

Zhilin Yang이 말하는 ‘AGI 기술의 세 계층’

  1. 첫 번째 계층: 스케일링 법칙 (Scaling Laws)와 다음 토큰의 예측

    • 산업이나 영역에 관계없이 공통적으로 적용되는 이 기본 계층은 다음 토큰의 예측과 결합된 스케일링 법칙을 포함하는데, OpenAI가 지난 몇 년간 상당한 투자를 진행하여 현재 이 영역의 선두 주자로 자리매김하고 있음

  2. 두 번째 계층: Representation과 데이터 병목 (Data Bottlenecks)

    • Universal Representation: 텍스트를 넘어서 복잡하고 다차원적인 데이터를 인코딩하는 등의, 세계 (World)를 종합적으로 표현하는데 따르는 난제를 해결해야 하는 계층

    • Data Scarcity: 계속해서 데이터를 공급해 주지 않아도 자기 진화형 AI 시스템을 통해 지속적으로 기능하는, 데이터 입력의 한계를 해결하는 계층

  3. 세 번째 계층: 고도의 역량 및 다양한 기능

    • Long-context의 처리, 다양한 모달리티에 걸친 데이터의 생성, 다단계 계획, 향상된 명령의 이해 및 실행, 다양한 에이전트 기능 등을 포함하는 계층

    • 이 계층은 하위 계층의 기술적 발전과 함께 AI 기술의 차별화 및 혁신을 이끌어낼 엄청난 잠재력이 있는 계층

Zhilin Yang은 바로 ‘세 번째 계층’에 Moonshot AI가 최고의 성과를 보이고 OpenAI 같은 회사를 능가할 수 있는 기회가 있다고 생각하고 있습니다.

재무 정보

투자 라운드 및 기업가치

KimiChat 사용료

Image Credit: Moonshot.cn

상세한 API 문서와 가격 정보는 여기에서 살펴볼 수 있습니다.

결론

미국을 비롯한 서구권과는 좀 다르게, 중국에서 언급되는 AGI (일반 인공지능)에 대한 이야기는 ‘종말론’적인 관점으로 가득 차 있지는 않습니다. Zhipu AI나 Moonshot AI와 같은 사례에서 보듯이, 중국의 AI 스타트업들은 아주 공개적으로 AGI를 목표로 한다고 말하면서 자주 AGI를 어떻게 달성할 것인지 대중과 연구자들에게 설명하기도 합니다. 어쩌면 AI 영역에서는 이런 ‘열려있는 대화’가 중국 기술 업계의 장점이라고 할 수 있을지도 모르겠네요.

또, 많이들 예상하시다시피, 중국의 막대한 자금이 AI 기술 개발에 계속해서 투자되고 있습니다. 중국 AI 스타트업들의 창업자들 중 상당수가 중국 현지에서 뿐 아니라 미국이나 유럽 등지의 우수한 교육 및 연구기관에서 수학하고 경험을 쌓은 인재들이라는 점도 주목할 만합니다. 우리의 주된 관심은 앞으로도 여전히 미국과 유럽 등 소위 우리가 생각하는 ‘선진국’이겠지만, 풍부한 인재 풀, 그리고 미국 등과는 달리 훨씬 적은 기술 개발의 제약 조건 하에서 앞으로 중국에서 더 많은 AI 스타트업들이 등장하리라 예상해 봅니다.

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주시고, 다른 생성 AI 유니콘들에 관심있으시면 아래 링크를 클릭해 주세요.

Reply

or to participate.