- Turing Post Korea
- Posts
- Mamba 아키텍처 관련 연구 15選
Mamba 아키텍처 관련 연구 15選
최근에 Mamba 아키텍처와 관련된 연구들도 많이 나오고 있고, Mamba 기반의 오픈소스 모델들도 연이어 출시되는 등, Mamba 아키텍처가 인기를 얻고 있는 것 같습니다 - 지난 주에는 이스라엘의 스타트업 AI21 랩스가 트랜스포머 아키텍처에 Mamba의 근간인 ‘SSM (상태 공간 모델)’을 결합한 ‘Jamba’의 새로운 버전, Jamba 1.5 패밀리를 출시했구요, 지지난주에는 UAE (아랍에미리트연합)의 간판 오픈소스 소형언어모델 (SLM)인 ‘Falcon’의 후속작으로 ‘Falcon Mamba 7B’를 발표했습니다.
LLM 모델이 처리할 수 있는 ‘Context Window’가 점점 커져가는 상황에서, 입력 시퀀스의 길이에 ‘제곱’으로 계산량/비용이 증가하는 구조의 트랜스포머 대비 계산 프로세스가 단순하고 계산량이 적다는 큰 장점을 가진 Mamba가 관심을 받는 건 어찌보면 당연한 것이겠죠.
Mamba 아키텍처에 대한 상세한 개요가 궁금하신 분은 튜링 포스트 코리아의 AI 101 중 SSM 편을 한 번 참조해 보시면 좋겠구요.
아래에 올 여름 발표된 Mamba 관련 연구 논문과 모델 15개를 정리해 봤습니다:
“Jamba-1.5: Hybrid Transformer-Mamba Models at Scale”
- AI21랩스에서 발표한 이 모델은, 트랜스포머와 Mamba 아키텍처를 조합해서 입력 텍스트가 아주 길더라도 성능은 높여주고, 메모리는 적게 사용하는 효율적인 오픈소스 언어모델입니다. —> [논문 보기]“Scalable Autoregressive Image Generation with Mamba”는 2D 신호 처리를 위해서 기존의 Mamba를 수정하는 방법 대신 ‘넥스트 토큰 예측’ 결과를 직접적으로 이미지 생성에 사용하는, 새로운 이미지 생성 모델 AiM을 제안합니다. 이미지 품질이 향상되고 속도도 빠른 것으로 알려져 있습니다. —> [논문 보기]
“MambaEVT: Event Stream based Visual Object Tracking using State Space Model”는 ‘이벤트 카메라’ - 이벤트 카메라라는 건, ‘사람의 망막과 시신경 등 인간의 시각 체계를 모방해서 고안한 카메라로, 특정 프레임마다 영상 전체를 취득하는게 아니라 밝기 변화가 있었던 픽셀들만 선택적으로 센싱해서 비동기적인 이벤트 스트림 형태로 기록하는 카메라를 말합니다 - 기반의 시각적 트래킹에 Mamba 기반의 방법론을 사용할 것을 제안합니다. 이 방법은 특히 대규모의 데이터셋을 사용할 때 시각적 트래킹의 정확성, 효율성을 향상시킵니다. —> [논문 보기]
“MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval”는 TVR (Text-Video Retrieval)에 핵심적인 ‘Multi-Scale Representation’을 효율적으로 처리할 수 있는 Mamba 아키텍처를 사용하는 새로운 접근 방식을 보여줍니다. —> [논문 보기]
“DeMansia: Mamba Never Forgets Any Tokens”에서는 긴 입력 시퀀스를 처리할 때 발생하는 트랜스포머의 한계를 살펴보고, 이미지 분류 성능을 크게 개선해 줄 수 있는 Mamba, Vision Mamba(ViM), LV-ViT와 같은 SSM (상태 공간 모델)과 토큰 레이블링 (Token Labeling)을 결합한 ‘DeMansia’ 아키텍처를 소개합니다. —> [논문 보기]
“BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba”는 Mamba를 기반으로 구축된 전문화된 모델이 어떻게 복잡하고 어려운 바이오메디칼 텍스트를 이해할 수 있는지, 그리고 BioBERT 등의 모델보다 더 효과적으로 작동하는지 보여줍니다. —> [논문 보기]
“VSSD: Vision Mamba with Non-Causal State Space Duality” 는 비인과적 (non-causal) 방법론을 사용해서 분류나 세그멘테이션 같은 비전 작업의 성능, 효율성을 모두 개선해 주는 VSSD 모델을 소개합니다. —> [논문 보기]
“MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection”: MambaMixer 모델은 토큰과 채널 전반에 걸쳐서 데이터를 선택적으로 믹스해서 이미지 분류나 시계열 예측 같은 작업의 성능을 향상시켜 줍니다. 기존 모델들보다 효율성, 정확성 등에서 많이 개선된 모습을 보여주는 것으로 나타납니다. —> [논문 보기]
“MambaVision: A Hybrid Mamba-Transformer Vision Backbone” - 엔비디아가 발표한 이 하이브리드 모델은 시각 작업의 성능을 향상시키기 위해서 Mamba 아키텍처와 ViT (비전 트랜스포머)를 결합한 모델입니다. 이 모델에서 Mamba 부분은 대상의 시각적 특징을 효율적으로 모델링하는데 도움을 주고, Self-Attention 블록은 장거리의 공간 디테일을 잘 파악하게 해 줍니다. —> [논문 보기]
“Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis”에서는 음성의 분리, 음성 인식, 음성 합성 작업을 대상으로 세 가지 Mamba 모델을 테스트하는데, 특히 긴 음성을 처리할 때는 일반적으로 트랜스포머와 유사하거나 더 나은 성능을 보이지만 짧은 음성의 경우, 또는 텍스트와 음성을 함께 처리하는 경우에는 효율성이 떨어진다는 것을 보여줍니다. —> [논문 보기]
“Audio Mamba: Bidirectional State Space Model for Audio Representation Learning” 은 Mamba같은 SSM (상태 공간 모델)을 기반으로 하는, Self-Attention 메커니즘이 불필요한 모델, Audio Mamba (AuM)를 소개합니다. AuM은 Self-Attention에 따라오는 ‘높은 계산 비용’ 문제를 해결하고, 기존의 Audio Spectrogram Transformer와 비슷하거나 더 나은 성능을 발휘합니다. —> [논문 보기]
“Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing”은 시간에 따라 변화하는 데이터를 효율적으로 처리하기 위해 SNN (Spiking Neural Network)과 Mamba 백본을 결합한 뉴로모픽 컴퓨팅 아키텍처를 제공합니다. Mamba의 선형 시간 시퀀스 모델링은 복잡한 시간적 종속성을 처리하는 데 사용됩니다. —> [논문 보기]
“Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference”: Cobra는 Mamba 언어모델을 통합해서 강력한 성능을 유지하면서도 속도를 향상시키는 멀티모달 모델입니다. 시각적인 작업, 공간적인 판단 작업 등에 탁월한 성능을 보여줍니다. —> [논문 보기]
“Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models”는 Mamba 기반의 LLVM (Large Language Vision Model)인 Meteor를 소개하는데요. 이 모델은 ‘이해력과 답변 능력을 향상시키기 위해서 다양한 근거를 활용’하는, 새로운 효율적인 모델입니다. 다면적인 근거와 추론을 임베딩하기 위해서 ‘선형적 시간 복잡도’를 나타내는 Mamba 아키텍처를 도입했습니다. —> [논문 보기]
뽀~나스!: Mamba 아키텍처의 ‘오리지날’ 논문:
“Mamba: Linear-Time Sequence Modeling with Selective State Spaces” by SSM의 한 변종, Selective SSM인 ‘Mamba’가 무엇이고 어떻게 작동하는지 설명한, 카네기 멜론 대학교, 프린스턴 대학교의 연구진이 쓴 논문입니다. —> [논문 보기]
읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply