VLM (비전 언어 모델) 연구논문 10選

이미지와 텍스트의 융합이 열어갈 새로운 가능성

비전 언어 모델(VLM)은 시각적 인식, 그리고 자연어 이해 사이의 간극을 메우는, AI의 고도화 관점에서 아주 중요한 토픽입니다. VLM은 이미지, 동영상 같은 시각적 입력의 ‘맥락’에서 언어를 이해하고 생성하게끔 설계되었습니다.

VLM은 이미지의 캡션 생성, 시각적인 질문에 대한 답변, 텍스트가 설명하는 이미지 생성 등 다양한 응용 방향이 있을 뿐 아니라, 시각적인 맥락과 텍스트의 맥락이 모두 중요하다고 할 수 있는 물체의 감지라든가 특정한 장면의 이해 등에도 필요합니다.

VLM의 작동 원리를 더 잘 이해할 수 있게 도와줄 논문을 10개 골라봤습니다:

  1. 메타의 “An Introduction to Vision-Language Modeling”에서는 VLM의 정의, 기능, 트레이닝 및 평가 방법 등을 다룹니다. CLIP, FLAVA, MaskVLM, 생성형 VLM 등 다양한 종류의 VLM에 대해서 설명하고, VLMdmf 제너레이티브 기반 VLM 등 기존 VLM 제품군에 대해 설명합니다. 또한 VLM의 모달리티를 비디오 컨텐츠로 확장하는 법도 살펴봅니다. → 논문 보기

  2. An image is worth 16x16 words: Transformers for image recognition at scale는 이미지 패치에 적용한 순수 트랜스포머가 이미지 분류에 탁월한 성능을 발휘하는 것을 보여줍니다. 대규모 데이터셋에서 트레이닝한 다음 ImageNet, CIFAR-100, VTAB 등의 벤치마크로 테스트했을 때, 비전 트랜스포머(ViT)가 최고의 CNN보다 더 나은 성능을 보이면서도 더 적은 컴퓨팅 리소스를 사용하도록 하는 방법을 보여 줍니다. → 논문 보기

  3. Learning Transferable Visual Models From Natural Language Supervision 논문은 이미지를 설명하는 원시 텍스트를 가지고 학습하는 것이 왜 더 잘 학습 지도를 할 수 있는 대안이 되는지 설명합니다. 인터넷에 있는 4억개의 이미지-텍스트 쌍을 활용해서, 효과적으로 캡션과 이미지를 일치시키는 모델을 트레이닝할 수 있다는 걸 보여줍니다. → 논문 보기 

    이 논문은 오픈AI의 CLIP을 만들었던 접근 방법도 소개하는데, 관련해서 “CLIP: Connecting Text and Images”도 한 번쯤 보면 좋을 것 같습니다.

  4. ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 는 시각 데이터의 처리를 컨볼루션 (Convolution)을 사용하지 않고 텍스트 입력을 처리할 때와 비슷하게 단순화하는 미니멀한 모델, ViLT (Vision-and-Language Transformer)를 소개합니다. → 논문 보기

  5. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision는 는 10억 개가 넘는, 노이즈가 많은 이미지-알트(Alt) 텍스트 쌍으로 이루어진 데이터셋을 사용하는 ‘ALIGN’ 모델을 설명합니다. 간단한 구조의 이 듀얼 인코더 아키텍처는 시각 데이터와 언어 데이터를 대조 손실(Contrastive Loss) 함수를 사용해서 조정합니다. → 논문 보기

  6. BEIT: BERT Pre-Training of Image Transformers는 마스크 이미지 모델링 작업을 통해서 비전 트랜스포머를 사전 학습시키는 자기지도형 비전 모델인 BEIT를 소개합니다. → 논문 보기

  7. Flamingo: a Visual Language Model for Few-Shot Learning. Flamingo는 사전 학습된 시각 전용 모델과 언어 전용 모델을 연결하고 시각 및 텍스트 혼합 데이터를 관리하면서, 이미지나 동영상을 쉽게 처리하게 해 주는 혁신적인 아키텍처로 만들어진 모델입니다. → 논문 보기 

  8. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation는 비전-언어의 이해와 생성 작업을 모두 효과적으로 처리하는, 새로운 VLP 프레임웍을 제안합니다. BLIP은 캡션 작성기로 캡션을 만들고 노이즈가 많은 웹 데이터를 잘 활용해서 필터로 문제있는 캡션을 제거합니다. → 논문 보기

  9. Language Is Not All You Need: Aligning Perception with Language Models. 이 논문에서 Microsoft는 웹 스케일의 멀티모달 데이터로 학습한 KOSMOS-1 MLLM을 소개합니다. Zero-shot 및 Few-shot 학습에서 탁월한 성능을 발휘하여, 언어의 이해나 생성, OCR 과정없이 문서를 잘 이해하는 NLP (OCR-free NLP), 멀티모달 대화, 이미지 캡션, 시각적 질문 답변, 텍스트 명령을 통한 이미지 인식 등의 작업을 살펴볼 수 있습니다. → 논문 보기

  10. DeepSeek-VL: Towards Real-World Vision-Language Understanding”. DeepSeek-VL은 광범위한 사전 학습, 선별된 데이터, 고해상도 처리 기능을 통합하여 다양한 애플리케이션에서 높은 성능을 보여줍니다. 이 논문의 저자들은 여기서의 접근 방식이 다른 멀티모달 모델의 일반적인 한계를 어떻게 해결하는지 보여줍니다. → 논문 보기

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.