- Turing Post Korea
- Posts
- Topic #17: 미니스트로 (Les Ministraux) 들여다보기
Topic #17: 미니스트로 (Les Ministraux) 들여다보기
프랑스의 대표적 AI 스타트업, 미스트랄의 전략적 로드맵, 그리고 Ministral 모델의 특징과 성능
글을 시작하며
Image Credit: 미스트랄
미스트랄AI는 프랑스의 대표적인 AI 스타트업이죠. 지난 6월, 6억 유로 (한화로 동시 약 8천 5백억원)의 투자 유치에 성공하면서, 기업 가치가 58억 유로 (약 8조 5천 9백억원)가 된, 대형 스타트업입니다.
빠르게 성장하는 속도만큼이나 올해 새롭게 많은 미스트랄의 모델들이 공개되었는데요 - 대부분 오픈소스로 공개하고 있는 자사의 모델을 빠르게 개선하고 시장에서 계속해서 관심을 받게끔 하려는 이 회사의 의지를 잘 보여주는 것 같습니다. 한 가지 꼭 주목할 점은, 미스트랄이 자사의 모델을 강력하게 만드는 것만큼이나 동시에 가능한 작은 크기로 만들려고 한다는 점입니다.
이번 AI 101 에피소드에서는, 미스트랄의 전략적 로드맵을 따라가면서 최근에 개발하고 있는 혁신을 살펴보고, ‘미니스트로 (les Ministraux)’ - 작은 크기에 비해서 뛰어난 성능을 보여주는 모델들 - 의 독특한 성능을 자세히 살펴보려고 합니다. 그 과정에서 미스트랄이 보여주는 기술적 통찰, 실용적인 응용 사례, 그리고 모델의 민주화, 엣지 컴퓨팅에 미칠 미스트랄의 영향력에 대해서 이해할 수 있다면 좋겠습니다.
이 글은 아래 목차로 구성되어 있습니다:
그 시작: 소형 모델에서 대형 모델로
미국과 중국이 압도적인 자금 규모와 시장, 인력 풀 등을 바탕으로 전세계의 AI 산업을 이끌고 있는 가운데, 2023년 4월에 설립된 프랑스의 미스트랄AI - 앞으로는 ‘미스트랄’이라고 부르겠습니다 - 는 프랑스, 그리고 EU가 기술 패권의 선두권에 들어갈 수 있도록 하겠다는 야심찬 목표를 배경으로 출범한 스타트업입니다. 여러가지 이유로 부러운 시선, 존경, 그리고 회의적인 시선까지도 한꺼번에 받고 있기도 하죠.
한 가지 분명한 사실은, 미스트랄도 다른 어떤 회사 못지 않게 빠르고 과감하게 움직이고 있다는 건데요. 미스트랄의 모델 출시 타임라인을 기준으로 한 번 살펴보죠.
2023년 9월: 소형 언어모델 Mistral 7B 출시
미스트랄이 출범한지 5개월만에, 74억 개의 파라미터를 가진, 작지만 강력한 언어모델, Mistral 7B를 공개했습니다. 이 모델은, 많은 벤치마크를 기준으로 Llama 2 13B 같은 더 사이즈가 큰 모델들의 성능을 능가했고, 다양한 영역에서 Llama 34B의 성능과 대등한 모습을 보여줬습니다.
그룹 쿼리 어텐션 (Grouped-Query Attention), 슬라이딩 윈도우 어텐션 (Sliding Window Attention)이 이 모델에서 선보인 핵심적인 혁신적 기법인데, 이 방법들로 Mistral 7B는 더 적은 메모리로 긴 시퀀스를 빠르고 효율적으로 처리할 수 있었습니다.
Image Credit: Mistral 7B 블로그 포스트
2023년 12월: SMoE 모델 Mixtral 8×7B 모델 출시
첫 번째 모델 출시 후 얼마 지나지 않은 2023년 12월, 467억 개의 파라미터를 가진 희소 전문가 혼합 (SMoE; Sparse Mixture-of-Experts) 모델인 Mixtral 8×7B 모델을 출시했는데, 토큰 당 실제로는 129억 개의 파라미터만 사용하도록 합니다. 이 모델의 동적 라우팅 알고리즘은 긴 텍스트 (최대 32K 토큰), 다중 언어 (영어, 프랑스어, 스페인어, 독일어, 이탈리아어) 처리, 그리고 코드 생성 등의 작업에서 탁월한 성능을 보여줬고, Llama 2 70 대비 속도가 6배나 더 빨랐습니다 - Mixtral 8×7B는 이미 미스트랄의 첫 모델 Mistral 7B보다 훨씬 뛰어난 성능을 보여줬습니다.
Image Credit: Mixtral of Experts 블로그 포스트
2024년 2월: 새로운 플래그십, Mistral Large 출시
다음 해인 2024년 2월에는, 연이어 새로운 플래그십 모델인 Mistral Large를 선보였습니다. 이 모델은 영어, 프랑스어, 스페인어, 독일어, 이탈리아어 등 복잡한 다국어 작업을 처리하는 데 탁월한 성능을 보여줬고, 텍스트 이해, 변환, 코드 생성 능력이 한층 더 향상되었습니다. 특히 마이크로소프트와 협력해서 Mistral Large를 마이크로소프트 애저를 통해 제공하면서, 자사의 강력한 AI 모델의 접근성을 확대시켰습니다.
Mistral Large 모델과 함께 소형 버전의 모델도 개발했는데, 이 모델은 지연 시간이 짧고 저비용으로 사용할 수 있어서, 실시간의 효율성이 높아야 하는 어플리케이션에 적합했습니다.
Image Credit: Mistral “Au Large” 블로그 포스트
2024년 4월: 새로운 대형 SMoE 모델, Mixtral 8×22B 출시
채 여름이 되기도 전인 2024년 4월, 미스트랄은 새로운 대형 SMoE 모델 Mixtral 8x22B를 공개했습니다. 이 버전은 1,410억 개의 파라미터 중 390억 개의 활성 파라미터만 사용하는데, 중요한 강점은 다음과 같습니다:
다국어 지원 (영어, 프랑스어, 이탈리아어, 독일어, 스페인어)
수학, 코딩, 함수 호출 관련 고급 기능
대용량 문서를 위한 64K 토큰 컨텍스트 윈도우 (기존 32K에서 확장)
아래 그림에서 보듯이, Mixtral 8×22B는 이전 모델들과 비교해서 성능이 크게 향상된 모습을 보여주었습니다:
Image Credit: Mistral’s “Cheaper, Better, Faster, Stronger” 블로그 포스트
‘특수 목적 모델’로의 방향 전환, 그리고 중요 업그레이드
2024년 5월: 첫 번째 특화 모델, Codestral 22B
설립 이후 범용 모델을 계속해서 출시해 온 미스트랄은, 2024년 5월에 Codestral 22B라는 이름으로 첫 번째 ‘코딩 특화 모델’을 출시했습니다.
이 모델은 Python, Java, SQL, C++ 등 80개 이상의 프로그래밍 언어를 지원하고, 390억 개의 활성 파라미터를 사용하는 모델로 빠르고, 효율적이며, 비용 측면에서도 강점이 있습니다.
이 모델의 출시 발표에서, 미스트랄 측은 “이 Codestral 모델이 누구든지 코드를 만들고 이해할 수 있도록 하는 새로운 디딤돌이 될 겁니다”라고 한 바 있습니다.
Image Credit: Mistral’s “Codestral: Hello, World!” 블로그 포스트
2024년 7월: 네 개의 모델이 한꺼번에 출시
2024년 7월은 특히 많은 모델이 출시된 달이었습니다 - 거의 동시에 네 개의 모델을 선보였는데요:
Mathstral은 Project Numina와 함께 STEM 영역 어플리케이션을 위해서 특별히 개발된 모델입니다. 고급 수학, 논리적 추론에서 뛰어난 성능을 보여주고, 특히 복잡한 다단계 작업에서 최고의 성능을 보이는 모델로, 학술 연구용으로 적합합니다.
Codestral Mamba는 Mamba 아키텍처를 기반으로 만든 모델로, 빠른 처리 속도를 위해서 ‘선형 시간 추론 (Linear Time Inference)’을 할 수 있게 만들어졌고, 최대 256K 토큰에 달하는 매우 긴 입력값을 처리할 수 있어서 코드 작성이라든가 각종 생산성 어플리케이션에 잘 어울립니다.
미스트랄은 엔비디아와 협력해서 Mistral NeMo 12B를 개발했는데, 이 모델은 128K 토큰 컨텍스트 윈도우를 가진 강력한 모델로 추론, 세계 지식 (World Knowledge), 코딩 등에서 뛰어난 성능을 보여줍니다. Tekken 토크나이저를 사용해서 중국어, 프랑스어, 아랍어 등 100개 이상의 언어를 지원하는 향상된 다국어 기능을 갖추고 있습니다.
Image Credit: Mistral NeMo 블로그 포스트
Mistral Large 2는, 이전의 Mistral Large 버전을 업그레이드하는 관점에서 모든 발전된 기술을 모든 총화입니다:
향상된 다국어 처리 (영어, 스페인어, 일본어, 아랍어 등 12개 이상의 언어 지원)
최대 128K 토큰까지 광범위한 텍스트 처리
코드, 수학, 추론 벤치마크에서 GPT-4나 Claude 3 등 선도적인 모델들과 견줄 만한 강력한 성능
Image Credit: Mistral “Large Enough” 블로그 포스트
다시 ‘소형 모델’로
2024년 9월: 멀티모달 모델 Pixtral 12B 출시 + 모델 업그레이드
잠시 휴식기를 거치고 난 후, 2024년 9월에 미스트랄은 이미지와 텍스트를 처리하고 차트, 그림, 문서를 이해하는 데 최적화된 첫 멀티모달 모델, Pixtral 12B를 선보였습니다. 4억 개의 파라미터를 가진 비전 인코더와 128K 토큰 컨텍스트 윈도우를 특징으로 하는 Pixtral은, 다양한 크기와 형식을 가진 이미지를 처리할 수 있으며, 멀티모달 추론과 문서에 대한 QA 작업에서 유사한 모델들보다 더 뛰어난 성능을 보여줍니다.
Image Credit: “Announcing Pixtral 12B” 블로그 포스트
동시에, 미스트랄은 Mistral Small을 업그레이드했습니다. 220억 개의 파라미터를 가진 이 모델은 그 특성 상 Mistral NeMo 12B와 Mistral Large 2 사이 쯤에 해당하는 모델인데, 성능과 비용 효율성의 균형을 잘 맞춰 줍니다.
2024년 10월: 소형 모델군 강화
마지막으로, 2024년 10월에는 Mistral 7B 모델 발표 1주년에 맞춰 온디바이스, 엣지 어플리케이션을 위한 두 개의 강력한 새 모델을 포함한 다양한 모델을 출시합니다.
이 두 개의 모델은 Ministral 3B와 Ministral 8B인데, 이 모델들을 합쳐서 "les Ministraux"라고도 부릅니다 - 이 글의 제목이죠. 이 모델들은 지연 시간이 짧아야 하는 어플리케이션에 최적화된 모델이고 Mistral Large 같은 더 큰 모델들과 함께 작동, 운영할 수 있습니다.
미스트랄의 전략적 움직임을 보고 알아챌 수 있는 것
회사가 설립된 이후 바쁘게 달려온 미스트랄의 ‘1년 반’ 남짓한 여정을 한 번 살펴봤는데요. 여기서 볼 수 있듯이, 미스트랄은 ‘작은 모델들로 시작’해서 전문화된 모델들의 성능을 향상시켰고, 이 과정에서 쌓인 ‘모든 혁신의 결과물을 더 큰 강력한 모델들에’ 모았습니다. 그리고 ‘다시 작은 모델들로 돌아와’ ‘큰 모델들에서 달성한 성능 관점의 성과를 계승’, 지금의 les Ministraux를 만들어냈습니다.
이 과정에 대해 여러 가지 관점의 해석이 가능하겠습니다만, 저는 ‘더 큰 모델들과 경쟁할 수 있는 충분한 성능을 유지하면서도 모델을 최대한 작게 만들겠다’는 미스트랄의 의지라고 봅니다. 미스트랄은 자사 모델을 전체 또는 부분적으로 오픈소스로 제공하고 엔비디아나 마이크로소프트 같은 대형 기업들과 협력, 강력하고 효율적인 AI 모델을 계속해서 선보이고 있습니다.
아래 미스트랄 블로그에서 찾은 그림을 봐도, 작고 강력한 모델들을 더 많이 개발하고자 하는 미스트랄의 목표를 잘 확인할 수 있습니다:
Image Credit: “Un Ministral, des Ministraux” 블로그 포스트
자, 이제 미스트랄 연구진이 발표한 두 개의 최신 Ministral 모델이 어떤 것들인지, 어떤 결과를 보여주는지 한 번 살펴보겠습니다.
딥다이브: 최신 미스트랄 모델의 작동 방식
Ministral 3B와 Ministral 8B, 이 두 개의 모델은 ‘온디바이스’, ‘엣지 컴퓨팅’ 환경을 위해서 만들어진 모델이죠. 100억 개 미만의 파라미터를 유지하면서 워크플로우 관리부터 전문화된 작업 처리까지 다양한 작업에 활용할 수 있습니다. 두 모델 모두 최대 128K의 컨텍스트 길이를 지원하고, 대량의 다국어와 코드 데이터로 학습했으며, 함수 호출을 지원합니다.
Ministral 8B는 더 빠르고 메모리 효율적인 인터리브드 슬라이딩 윈도우 어텐션 패턴(Interleaved Sliding-Window Attention Pattern)이라는 특별한 기능을 사용합니다. 작동 방식은 다음과 같습니다:
먼저 Mistral 7B에서 사용된 원래의 슬라이딩 윈도우 어텐션 방식부터 간단히 살펴볼까요? 이 방식은 모든 토큰을 한번에 처리하는 대신 "윈도우" 내의 토큰들을 처리합니다. 각 층은 제한된 윈도우 내의 토큰들을 ‘뒤돌아’ 보지만, 각 층이 쌓여가면서 모델은 바로 앞에 있는 (Immediate) 윈도우보다 더 멀리 내다볼 수 있습니다. 이런 방식은 ‘윈도우 크기 내의 토큰들만 저장’을 하니까, 메모리의 사용을 제한적으로 하게 됩니다.
Image Credit: Mistral 7B 블로그 포스트
‘인터리브드 슬라이딩 윈도우 어텐션 패턴’은, 긴 시퀀스를 처리할 때의 효율성을 높이기 위해서 설계한 ‘슬라이딩 윈도우 어텐션 메커니즘의 변형’이라고 간단히 이야기할 수 있는데요. 그 작동 과정이 조금 다릅니다:
한 윈도우 내의 토큰들이 다음 윈도우의 토큰들과 부분적으로 겹치면서, 각 토큰이 더 많은 주변 정보와 연결할 수 있게 됩니다.
각 층에서 이전 윈도우뿐만 아니라 여러 윈도우의 토큰들에 주의를 기울입니다. 이런 ‘인터리빙 (Interleaving) 구조’가 어텐션의 범위를 넓혀서, 모델이 계산 효율성을 유지하면서도 층 전반에 걸쳐 멀리 있는 토큰들에 접근할 수 있게 합니다.
그럼 이런 기술적 업그레이드가 Ministral 모델들의 성능에 어떤 영향을 미쳤는지 살펴보겠습니다.
Ministral 모델의 성능, 장점 및 한계
성능은 어느 정도?
Ministral 모델들과 관련해서 가장 흥미로운 점 중 하나는, 미스트랄 제품군에서 가장 작은 Ministral 3B조차도 파인튜닝을 거치면 그 이전 모델인 Mistral 7B의 성능을 능가하고, 심지어 Llama 3.1 8B나 Gemma 2 9B와 같은 더 큰 크기의 다른 모델들보다도 더 좋은 성능을 보이는 경우가 있다는 점입니다.
사전 훈련된 소형 모델의 성능 비교. Image Credit: “Un Ministral, des Ministraux” 블로그 포스트
Instruct 모드. Image Credit: “Un Ministral, des Ministraux” 블로그 포스트
‘Les Ministraux’ 모델의 장점
위에서 언급한, Ministral 모델들이 효과적이고 좋은 성능의 소형 모델이라고 이야기할 수 있는 특징들을 모아서 정리하면 장점 목록이 될 것 같습니다:
효율성과 속도: 두 모델 모두 지연 시간이 짧아 계산 효율이 높고, 특히 Ministral 8B는 더 빠르고 메모리 효율적인 처리를 위해서 ‘인터리브드 슬라이딩 윈도우 어텐션’을 활용합니다.
긴 컨텍스트 길이: 최대 128K 토큰을 지원해서 더 긴 시퀀스나 컨텍스트도 잘 처리할 수 있습니다.
우수한 성능: 다양한 벤치마크에서 유사한 모델들을 능가하는 성능을 나타내고, 더 큰 모델들과 비교해도 강력한 추론과 작업 처리 능력을 보여줍니다.
엣지 최적화: 온디바이스와 엣지 컴퓨팅을 염두에 두고 설계되어서, 프라이버시에 민감하거나 오프라인에서 사용해야 하는 어플리케이션에 적합합니다.
다양한 응용 분야: 워크플로우 관리부터 전문화된 기능까지 다양한 작업을 처리할 수 있어서, 취미로 적용하는 경우부터 대규모 조직에 이르기까지 활용 범위가 광범위합니다.
‘Les Ministraux’ 모델의 한계
Ministral 모델은, 그 크기가 소형 모델이고 비교적 새로운 모델인데, 이런 제약 사항이 있을 수 있습니다 (장점을 뒤집으면 때로는 한계점이 되기도 하죠):
제한된 사용 범위로 제한: 아무래도 엣지 컴퓨팅을 위해 설계되어 있기 때문에, Ministral 모델은 높은 연산 능력이나 복잡한 딥러닝 작업이 필요한 업무에는 적합한 모델이 아닐 가능성이 큽니다.
vLLM에서의 컨텍스트 제한: Ministral 모델이 최대 128K 토큰의 컨텍스트 길이를 지원하지만, vLLM 플랫폼에서 사용할 경우 현재는 32K 토큰으로 제한됩니다.
양자화 지원 필요: 최적의 성능을 달성하기 위해서는 ‘양자화 과정’에 서포트를 필요로 할 수도 있습니다. 따라서 배포 과정에서 추가적인 단계로 인한 부담이 발생할 수 있습니다.
맺으며
종합해 본다면, ‘les Ministraux’ 모델은 오프라인 번역, 인터넷 연결이 없는 상태에서의 스마트 어시스턴트, 로컬 데이터 분석, 자율 로봇 등의 응용 사례에 필요한 효율적인 해결책을 구성할 때 검토해 볼 만한 AI 모델이라고 하겠습니다. Ministral 3B가 스마트폰 같은 소형 기기에 더 적합한 반면, Ministral 8B는 좀 더 많은 GPU 메모리가 필요하기 때문에 노트북과 같은 기기에 더 맞아 보입니다.
두 가지 모델 모두 ‘다단계로 작업을 처리하는 에이전틱 워크플로우’에서 활용할 만하고, 또 Mistral Large 2와 같은 더 큰 모델의 도우미 역할을 할 수도 있습니다. 이런 소형 모델을 입력의 이해, 작업 지시, 사용자 요구사항에 따른 적절한 기능 호출 등의 작업을 처리하도록 설정할 수 있겠죠.
AI 101, 이번 에피소드에서는 프랑스 AI 스타트업 ‘미스트랄AI’의 모델 개발 역사와 최신 모델 ‘les Ministraux’를 살펴보면서, 작지만 경쟁력 있는 ‘Ministral’ 모델을 어떤 과정과 혁신 기술을 적용해서 개발했는지 이해해 봤습니다.
많은 AI 스타트업과 빅테크 등을 포함한 기업들이 ‘규모를 키우는 데 집중’하는 사이, 미스트랄은 더 작고 접근성 높은 모델을 가지고 강력한 성능을 제공하는 전략적 선택을 하고 있습니다 - 물론 이 방향이 미스트랄만의 전매 특허는 아니죠. 현재, 그리고 앞으로도 AI 분야의 핵심적 트렌드 중 하나입니다. 하지만 이런 미스트랄의 접근 방식은 ‘AI 모델의 효율성/성능’ 그리고 ‘AI의 대중화/민주화’가 어떻게 균형을 맞춰갈 수 있는지에 대한, 그리고 ‘작지만 강력하다’는 것의 단초가 될 것으로 보입니다.
보너스 : 각종 자료 및 소스 링크
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply