- Turing Post Korea
- Posts
- 오픈소스 멀티모달 모델 (MLLM) 10選
오픈소스 멀티모달 모델 (MLLM) 10選
AI 학계, 그리고 업계에서는 왜 그렇게 ‘오픈소스’에 대한 논의가 많을까요? ‘오픈소스’로 배포되는 모델에는 폐쇄형 모델과 대비해서 여러 가지 장점이 있습니다 - 브라우저에서 바로 모델을 구동해 본다거나, 개인과 기업의 필요에 맞게 커스터마이징할 수도 있고, 상대적으로 개인정보의 보호에 대한 부분도 안심할 수 있도록 아키텍처를 구성할 수가 있죠.
그렇지만 무엇보다도, AI 모델에 대해 보다 더 자유롭게 탐구도 하고 직접 경험해 볼 수 있는 기회를 제공한다는 것이 가장 큰 오픈소스의 가치가 아닌가 합니다. 오픈소스 모델은 전 세계의 개발자 커뮤니티를 통해서 함께 발전하는 것이니까, 버그 수정도 빠르게 할 수 있고 새로운 기능의 추가, 성능의 지속적 개선도 많은 사람들의 협업, 의견 교환 등을 통해서 이루어질 수 있습니다.
이제 단순한 LLM을 넘어서 텍스트 뿐 아니라 이미지를 이해하고 다양한 모달리티를 넘나들면서 추론을 할 수 있는 멀티모달 모델 (MLLM)으로 관심이 많이 이동하고 있는 것 같아 보이는데요.
오늘은 다양한 사이즈로 배포되고 있는, 강력한 오픈소스 멀티모달 모델 10가지를 소개할까 합니다:
MiniCPM-Llama3-V 2.6은 이미지, 다중 이미지, 그리고 동영상을 이해하는 데 탁월한 성능을 보이는 80억 파라미터 규모의 컴팩트한 모델입니다. 단일 이미지와 동영상 분석에서는 다른 모델들을 능가하는 성능을 보여주고, 속도도 빠르고 에너지 효율도 높은 모델입니다. OCR 및 다양한 언어를 지원하고, 로컬 환경이나 온라인에서 쉽게 배포할 수 있습니다.
마이크로소프트의 Vision Foundation Model인 Florence-2는 이미지 캡셔닝이나 객체 탐지와 같은 비전 및 비전-언어 작업에서 뛰어난 성능을 보여줍니다. 54억 개의 주석이 달린 1억 2천6백만 장의 이미지로 학습한 이 모델은, Zero-shot 학습 및 파인튜닝한 어플리케이션 모두에서 우수한 성능을 발휘하는 것으로 알려져 있습니다.
OmniParser는 UI 스크린샷을 잘 구조화된 형식으로 변환해서 LLM 기반 UI 에이전트의 성능을 향상시키는 마이크로소프트의 도구입니다. 두 가지 데이터셋으로 학습한 모델인데, 하나는 웹 페이지의 클릭할 수 있는 아이콘을 감지하고, 다른 하나는 각 UI 요소의 기능을 설명하는 데 사용됩니다. 이 도구는 PC와 휴대폰 스크린샷 모두에서 작동하지만, 최상의 결과를 얻으려면 사람의 개입과 판단이 필요합니다.
11B, 그리고 90B 버전으로 배포되는 메타의 Llama 3.2-Vision 패밀리는 시각적 인식, 이미지 추론, 그리고 이미지 설명 생성을 위한 대규모 언어 모델입니다. Llama 3.1을 기반으로 만들어졌으며, 비전 어댑터를 포함하고 있습니다. 지도 학습과 강화 학습으로 파인튜닝을 했는데, 업계의 주요 벤치마크에서 다른 많은 모델들보다 우수한 성능을 보여주고 있습니다.
Qwen2-VL은 다양한 해상도의 이미지를 해석하는 데 탁월한 성능을 보여주는 모델로, 20분 이상의 영상도 처리할 수 있습니다. 복잡한 추론을 통해서 스마트폰이나 로봇 같은 기기들을 조작할 수 있으며, 여러 가지 유럽의 언어와 아시아 지역 언어도 지원합니다. 2B, 7B, 72B 등 세 가지 모델 크기로 제공됩니다.
엔비디아의 NVLM 1.0은 OCR, 추론, 코딩 등의 작업을 위해서 설계된 모델인데, 디코더 전용 모델인 이 시스템은 GPT-4 같은 최고 수준의 모델들보다도 시각-언어 작업에서 더 뛰어난 성능을 보여줍니다. 허깅페이스에 오픈소스로 공개되어 있는데, 재현 가능한 벤치마크 결과를 제공하고 있고, 효율적인 추론을 위해서 다중 GPU 환경도 지원합니다.
Phi-3.5-vision은 마이크로소프트가 개발한 컴팩트한 최신 모델로, 일반적인 이미지 이해와 비교, OCR, 영상 요약 기능 등을 갖추고 있습니다. 최대 128K 토큰을 지원하고, 정확하게 지시 사항을 안전하게 수행하도록 최적화되었습니다.
Idefics2는 허깅페이스에서 개발한 멀티모달 LLM으로, 질문에 답하거나, 시각적 자료를 설명하고, 여러 개의 이미지로부터 이야기를 만들어낼 수 있습니다. OCR, 문서 이해, 시각적 추론 능력이 뛰어나지만, 중요한 의사 결정이나 민감한 콘텐츠 처리에는 적합하지 않다고 평가됩니다. 총 세 가지 버전이 있는데, 그중에서 Idefics2-8B가 가장 널리 사용되고 있습니다.
LLaVA-V1.5는 LLaMA와 Vicuna를 기반으로 하되 GPT로 생성된 데이터를 활용해서 만들어진 모델로, 비전-언어 응용 프로그램과 챗봇 연구에 특히 적합합니다. 이미지-텍스트 쌍 (Image-Text Pair)과 학술 데이터를 혼합해서 학습시켰고, 12개의 벤치마크로 테스트했다고 합니다. 7B와 13B 두 가지 버전으로 제공됩니다.
DeepSeek AI의 Janus-1.3 B는 현재 아주 인기가 높은 범용 변환 (Any-to-Any) 모델로, 시각적 인코딩을 서로 다른 경로로 분리해서 단일 트랜스포머 구조에서도 텍스트와 이미지 작업을 더 효과적으로 처리할 수 있습니다. 이러한 경로 분리 방식 덕분에 Janus는 더욱 유연한 방식으로 활용할 수 있다고 합니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply