Turing Post Korea
Posts
멀티모달 파운데이션 모델: AI의 미래를 살짝 들여다본 2024년 서베이

멀티모달 파운데이션 모델: AI의 미래를 살짝 들여다본 2024년 서베이

Ben Eum & Ksenia Se
August 02, 2024

‘멀티모달’이라는 주제가 2024년 AI 판의 중요한 트렌드 중 하나라는 건 부인할 수 없을 겁니다.

우리가 살아가는 세계가 본질적으로 ‘멀티-모달’이기 때문에 이런 트렌드가 나타나는 것은 어쩌면 당연하다 하겠습니다. ‘병원’이라는 도메인을 하면 볼까요? 엑스레이같은 의료 이미지, 검사 결과지 같은 구조화된 표 형식의 데이터, 환자 이력이나 소견서 같은 임상 및 진단 관련 텍스트 등 업무 처리에 아주 다양한 유형이 사용됩니다. 멀티모달 모델은 이런 다양한 정보 입력값들을 합쳐서 어떤 영역에 대한 ‘종합적인’ 이해를 제공하는 게 목표입니다 - 종합적인 이해를 해야만 예측은 더 정확하게, 의사결정에 필요한 정보도 더 풍부하게, 인사이트도 좀 더 깊게 만들어낼 수 있을 겁니다.

한 번 멀티모달 거대언어모델 (MLLM; Multimodal Large Language Model)에 대한 설문조사가 어떤 것들이 있는지 목록을 만들어봤습니다. 각각의 설문조사들이 MLLM의 조금씩 다른 측면을 다루고 있으니 한 번 살펴보시고 관심있는 관점의 설문조사를 참고해 보시면 좋을 것 같습니다.

추천드리는 설문조사 목록입니다:

2024년 4월: "A Survey on Multimodal Large Language Models"는 MLLM의 아키텍처 관련 세부 사항, 트레이닝 전략, 데이터셋 등 다양한 정보를 모아놓았습니다. 특히 MLLM이 어떻게 시각적 정보와 텍스트 정보를 처리하고 통합하는지에 대해서도 구체적으로 기술되어 있어서, 다양한 어플리케이션에서 모델의 성능을 높이는데 도움이 될 것 같습니다. 여기 Github 리포지토리에 각종 논문 및 정보에 대한 링크가 있습니다.

Source: “A Survey on Multimodal Large Language Models”

2023년 9월: "Multimodal Foundation Models: From Specialists to General-Purpose Assistants”는 파운데이션 모델의 시각 및 언어 능력을 통합하는 것에 초점을 맞춥니다 - 시각적 이해 (Visual Understanding), 시각 생성모델 (Visual Generation Model), 비전-언어 사전훈련 (VLP; Vision-Language Pre-training) 등에 대한 심도있는 인사이트를 포함하고 있구요. “Recent Advances in Vision Foundation Models”라는, CVPR 2023에서 있었던 Tutorial의 슬라이드와 동영상 (Microsoft와 Apple 같은 회사의 전문가가 설명한 내용 포함)도 볼 수 있습니다.

Source: "Multimodal Foundation Models: From Specialists to General-Purpose Assistants"

2023년 11월: “Multimodal Large Language Models: A Survey"는 고급 알고리즘이나 중요한 데이터셋 등을 포함해서 멀티모달 모델을 이해하고 적용하는 데 필수적인 리소스를 모았습니다. 이 백서는 연구자들이 여러 데이터 유형을 처리하는 AI 시스템을 실험하고 평가할 수 있는 도구를 제공하여, 순수한 텍스트 기반 모델을 넘어서도록 기능을 향상시키게 해 줍니다.

Source: "Multimodal Large Language Models: A Survey"

2024년 1월: “A Survey of Resource-efficient LLM and Multimodal Foundation Models”는 리소스 요구사항을 줄이면서도 효율적으로 멀티모달 AI 시스템을 개발하는데 유리한 모델 아키텍처, 그리고 최적화 기법에 초점을 맞춥니다. 함께 제공되는 Github 리포지토리에는 AI 모델의 효율성, 확장성을 높이기 위한 다양한 모델 유형과 시스템 설계에 대한 자료가 있습니다.

Source: "A Survey of Resource-efficient LLM and Multimodal Foundation Models"

2024년 2월: “Large Multimodal Agents: A Survey”는 거대 언어모델의 기능을 확장, AI가 복잡한 멀티모달 상호작용을 처리할 수 있도록 하는 LMA (Large Multimodal Agent)를 리뷰합니다. 관련된 기존 연구내용을 정리하고, 평가 방법론의 프레임웍을 수립하고, LMA의 잠재적 응용 분야와 향후 연구 방향에 대해 설명합니다. 관련 Github 리포지토리는 여기에.

Source: "Large Multimodal Agents: A Survey"

2024년 2월: “The (R)Evolution of Multimodal Large Language Models: A Survey”에서는 다양한 작업을 위해 시각 데이터와 텍스트 데이터를 결합하는 MLLM을 종합적으로 자세히 검토합니다. 아키텍처의 선택, 정렬 또는 조정 (Alignment) 전략, 트레이닝 기법에 대해 설명하고, 트레이닝 데이터셋, 평가 벤치마크, 성능 비교를 포함한 자료가 정리되어 있어서 MLLM의 현재와 이후 발전 방향에 대해 이해할 수 있는 기초 자료로 좋습니다.

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.