• Turing Post Korea
  • Posts
  • '비디오의 이해와 생성'을 위한 7가지 오픈소스 모델과 프레임웍

'비디오의 이해와 생성'을 위한 7가지 오픈소스 모델과 프레임웍

AI 학계와 업계에서는 특히 최근 비디오의 생성, 그리고 이해라는 영역에서 ‘멀티모달리티’의 잠재력을 실현하는데 있어서 큰 진전을 이루고 있습니다. 지난 주에 발표된 연구들만 보더라도, 비디오를 처리하는 작업이 현재 AI 모델의 능력을 발전시키는 중요한 방향이라는 걸 보여주고 있는데요.

이번 주 또 다른 주목할 만한 포인트로, DeepSeek와 같은 오픈소스가 다시 한 번 그 가치를 입증했다는 점이 있겠죠. DeepSeek-R1에 큰 인상을 받으셨나요?

오늘은 이 두 가지의 방향을 합쳐서, ‘비디오의 이해와 생성’을 더 잘 하도록 해 주는 7가지 오픈소스 모델과 기법을 소개하려고 합니다:

  1. VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding (2501.13106)
    VideoLLaMA 3 모델은 비전 중심의 학습 방식 덕분에 다양한 동영상 및 이미지 작업에서 뛰어난 성능을 보여줍니다.

  2. FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces (2501.12909)
    FILMAGENT 프레임웍은 감독, 각본가, 배우, 촬영감독과 같은 역할을 여러 AI 에이전트에 할당해서 3D 가상 환경에서의 영화 제작 과정을 자동화합니다.

  3. Improving Video Generation with Human Feedback (2501.13918)
    사람의 피드백을 활용해서 비디오 생성 모델을 개선하는 새로운 VideoReward 모델 및 접근 방식을 제안합니다.

  4. DiffuEraser: A Diffusion Model for Video Inpainting (2501.10018)
    스테이블 디퓨전 기반의 DiffuEraser 비디오 인페인팅 모델은, 누락된 영역을 상세하고 사실적인 콘텐츠로 채우면서 프레임 전반에 걸쳐서 일관된 구조를 보장하도록 설계되었습니다.

  5. Taming Teacher Forcing for Masked Autoregressive Video Generation (2501.12389)
    MAGI는 마스킹된 모델링과 인과적 모델링을 결합한 하이브리드 비디오 생성 모델입니다. 이 모델의 중요한 혁신적 내용인 CTF (Complete Teacher Forcing)는 마스킹된 프레임을 완전히 보이는 프레임에 맞춰서 조정합니다.

  6. Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise (2501.08331)
    생성된 비디오 안에 있는 물체나 카메라의 움직임을 사용자가 조정할 수 있는 모션 컨트롤을 제안합니다. 이 모델의 ‘노이즈 워핑’ 알고리즘은 비디오의 랜덤한 노이즈를 움직임 정보를 기반으로 한 구조화된 노이즈로 대체합니다.

  7. Video Depth Anything: Consistent Depth Estimation for Super-Long Videos (2501.12375)
    ‘Video Depth Anything’ 모델은 품질이나 속도를 희생하지 않고도 아주 긴 비디오 (최소 몇 분 이상)에서도 일관되게 깊이를 추정합니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.