오픈소스 비디오 생성 모델 7選

생성형 AI에 관심 많으신 분들은 챗GPT나 끌로드 같은 LLM 중심의 서비스도 많이들 쓰시겠지만, 다른 쪽에서는 또 이미지나 비디오 생성 모델이 엄청난 관심을 끌고 있죠? 그 적용 영역과 가능성 관련해서도 웹툰, 광고, 영화 등의 영역에서 열띤 토론을 불러일으키는 기술이기도 합니다.

Text-to-Video 생성 모델은 텍스트를 기반으로 비디오 컨텐츠를 생성하는 AI 시스템입니다. 이 모델은 신경망과 같은 고급 머신러닝 기술을 활용해서 텍스트 입력을 이해하고 해당되는 비디오 시퀀스로 전환합니다. 특히 관련된 분야의 많은 전문가 뿐 아니라 일반인들도 자기 업무와 관련되거나 창의적인 컨텐츠를 만들 때 이런 도구를 사용할 수 있기 때문에, Text-to-Video 생성 모델은 점점 많은 인기를 얻고 있습니다.

아래는 7가지 오픈소스 비디오 생성 모델들입니다:

Flux.1 는 스테이블 디퓨젼에서 나와 블랙 포레스트 랩스라는 스타트업을 세운 팀에서 만든 모델로, 트랜스포머와 확산 기술을 결합한 하이브리드 AI 아키텍처를 사용하고 있습니다. 이 모델은 특히 기존 모델들의 단점 - 사람의 손을 잘 생성한다든가, 이미지에 프롬프트로 원하는 텍스트를 제대로 표현하도록 한다든가 - 을 해결해 주는 것으로 관심을 받고 있습니다. [깃허브]
VideoGPT는 가능성 기반 모델링 (Likelihood-based Modeling)으로 자연스러운 동영상을 생성하는 간단한 아키텍처입니다. 이 모델은 3D 컨볼루션과 축 방향 셀프 어텐션을 포함한 VQ-VAE를 사용해서 압축된 비디오 표현을 학습합니다. GPT와 유사한 이 모델은 시공간 인코딩을 통해서 이러한 잠재 공간 변수를 자동 회귀적으로 처리합니다. VideoGPT는 GAN 모델 수준의 비디오 품질을 가진 컨텐츠를 생성하고 UCF-101 및 TGIF로부터 고품질 비디오를 생성합니다. [논문 보기] [깃허브]
Stability AI가 만든 Stable Video Diffusion은 Text-to-Video 및 Image-to-Video 생성을 위한 Latent Video Diffusion Model입니다. 초당 3~30프레임 범위 안에서 지정할 수 있는 속도로 14프레임과 25프레임을 생성하는 두 개의 Image-to-Video 모델로 만들어진 이 모델은, 강력한 멀티뷰 3D Prior를 제공하며 멀티뷰 확산 모델을 파인튜닝하는 데 사용할 수 있습니다. [논문 보기] [깃허브]
Tencent AI Lab의 LVDM (Latent Video Diffusion Model)은 고화질의 긴 동영상을 생성하는 데 사용할 수 있습니다. LVDM은 저차원 3D Latent Space를 사용하는 경량 비디오 확산 모델인데, 여기서 활용하는 계층적 확산 방식은 1,000 프레임 이상의 동영상을 생성하는 데 도움이 됩니다. [논문 보기] [깃허브]
Dreamix는 높은 사실감을 구현하는 이미지 및 동영상 확산 모델입니다. 일반 동영상의 텍스트 가이드 모션 및 외형 편집에 디퓨젼 기반 방식을 사용합니다. Dreamix는 원본 영상의 저해상도 시공간 데이터와 새로운 고해상도 정보를 병합하고, 또 피사체 중심의 영상 생성을 지원합니다. [논문 보기] [깃허브]
Meta AI가 만든 MAV3D는 동적인 4D NeRF (Neural Radiance Field)를 사용해서 텍스트로부터 3D의 동적 장면을 생성하는 방법입니다. 이 접근 방식은 Text-to-Video 확산 모델을 Probing해서 장면의 모양, 밀도 및 움직임을 최적화합니다. 생성된 비디오는 모든 각도에서 볼 수 있으며 모든 3D 환경에 통합할 수 있습니다. [논문 보기] [깃허브]
StyleGAN-V는 Neural Representation을 사용하는 Continuous Time-Video 생성기입니다. 위치 임베딩으로 연속 동작 표현을 설계하면 클립 당 2프레임만 사용해도 희박한 동영상에 대한 훈련을 효과적으로 할 수 있다는 걸 보여줍니다. StyleGAN2 기반으로 구축된 이 모델은 공간 조작을 통해 고품질 비디오를 생성할 수 있습니다. [논문 보기] [깃허브]

보너스 → 지금 당장 무료로 사용해 볼 수 있는 4가지 유용한 Text-to-Video 생성기를 소개합니다. 한 번 재미로라도 사용해 보세요!

DeepBrain AI (한국 회사입니다!)
Runway AI (가장 대중적으로 알려지고 사용되는 것으로 보입니다)
Kaiber AI
Pika

그나저나 이 판의 경쟁도 만만치 않게 심화되고 있네요 ㅎㅎ

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

오픈소스 비디오 생성 모델 7選

Reply

Keep Reading

Turing Post Korea

Home

Account