Turing Post Korea
Posts
Text-to-Audio 모델 12選

Text-to-Audio 모델 12選

Text-to-Speech와 Text-to-Music 모델들

Ben Eum & Ksenia Se
August 10, 2024

Text-to-Audio 모델은 글로 써 있는 텍스트를 소리로 변환하는 모델이죠. 보통 다음과 같은 용도로 사용합니다:

Text-to-Speech (TTS) 모델은 입력 텍스트로부터 음성 언어를 만들어냅니다. 가상 비서, 오디오북, 내비게이션 시스템 등에서 사용합니다.
음악 생성 모델은 텍스트로 된 설명이라든가 지시 사항을 참조해서 음악을 생성합니다. 크리에이티브 도구, 엔터테인먼트 및 자동적으로 음악을 작곡할 때 사용합니다.
음향효과 생성 모델은 텍스트로 된 설명을 가지고 특정한 음향 효과를 생성하는 모델입니다. 비디오 게임 개발, 영화 및 가상 환경에서 유용합니다.

아래는 다양한 유형의 Text-to-Audio 모델들입니다:

JASCO는 메타에서 개발한 Text-to-Music 모델입니다. 음악 기호나 오디오 기반의 입력을 받아서 사실적이고도 고품질의 음악 클립을 생성합니다. Flow Matching 스피치 생성 기술을 사용해서 고품질 사운드를 구현하는 JASCO는 특정한 코드나 비트가 언제 재생되어야 하는지 등의 음악적 요소라든가 음악의 특정 부분을 세부적으로 제어할 수 있게 해 줍니다. [자세히 보기]
Stable Audio Open은 텍스트 프롬프트에서 최대 47초 분량의 44.1kHz 스테레오 오디오를 생성하는 Stability AI의 모델로, 가중치가 오픈된 Text-to-Audio 모델입니다. 이 모델은 파형 압축을 위한 자동 인코더, T5 기반 텍스트 임베딩, 트랜스포머 기반 확산 모델(DiT)이라는 세 가지 구성 요소로 이루어져 있습니다. Stable Audio Open을 사용하면 사실적인 사운드와 현장 녹음을 생성할 수 있습니다. [자세히 보기]
MELLE은 벡터 양자화를 사용하지 않는 빠르고 간단한 음성 합성 방식을 보여줍니다. 마이크로소프트와 홍콩 중문 대학교가 함께 만든 MELLE은 mel-spectrogram 프레임을 사용해서 텍스트에서 직접 음성을 생성합니다. [자세히 보기]
마이크로소프트의 VALL-E는 Text-to-Speech (TTS)를 ‘언어 모델링’ 작업으로서 처리하는 신경 코덱 언어 모델입니다. VALL-E는 음소를 불연속 코드로 변환한 다음에 파형으로 변환합니다. 이런 불연속 코드는 텍스트와 화자의 음성을 모두 표현하는데, 새로운 화자가 3초만 녹음하면 음성을 생성할 수 있는 Zero-shot TTS, 음성 편집 및 콘텐츠 제작과 같은 작업을 GPT 같은 모델과 함께 처리합니다. [자세히 보기]. VALL-E의 확장 버전 모델들이 있는데:
- VALL-E X는 한 가지 언어만 아는 사람을 위해서 다른 언어로 개인화된 음성을 합성하는 등 다국어 TTS를 지원합니다.
- VALL-E R는 음소 정렬을 더 정확히, 디코딩을 더 빠르게, 오타 등 오류를 줄여서 TTS 작업을 더 효율적으로 하도록 합니다.
- VALL-E 2는 Zero-shot TTS에서 사람에 가까운 수준의 성능을 보여줍니다. 반복 인식 샘플링으로 오류를 줄이고, 코드 모델링을 그룹화해서 처리 속도를 높임으로써 음성을 더욱 자연스럽게 만들어 줍니다.
Suno AI는 텍스트 프롬프트나 가사로 멜로디, 하모니, 전체 곡을 생성하는 AI 기반 음악 제작 도구입니다. 다양한 장르의 고품질 악기 트랙을 제공하기 때문에 음악가, 전문가, 애호가, 교육자 등 다양한 사람들이 자기의 음악 프로젝트에 활용하는데 적합합니다. [자세히 보기]
Suno가 만든 트랜스포머 기반 Text-to-Audio 모델인 Bark는 사실적인 다국어 음성, 음악, 배경 소음 및 음향 효과를 생성합니다. 다양한 언어를 지원하고, 입력 텍스트에서 언어를 감지하며, 코드 전환된 텍스트에 원어민 악센트를 적용합니다. 웃음, 한숨, 울음과 같은 비언어적 소리도 생성할 수 있습니다. [자세히 보기]
구글 딥마인드에서 만든 심층 신경망 네트웍인 WaveNet는 고해상도 오디오 데이터를 효율적으로 처리하여 영어와 중국어를 대상으로 다른 시스템보다 뛰어난 자연스러운 음성을 생성합니다. 다양한 화자를 모방하고 사실적인 음악 피스를 생성할 수 있습니다. WaveNet은 음소 인식에서도 가능성을 보여 TTS 어플리케이션을 넘어선 확장 가능성을 보여줍니다. [자세히 보기]
오픈AI가 만든 Jukebox는 노래로 음악을 만듭니다. 멀티스케일 VQ-VAE를 사용하여 원시 오디오를 코드로 압축한 다음 자동 회귀 트랜스포머를 사용하여 음악을 생성합니다. Jukebox는 고품질의 다양한 노래를 생성하며 아티스트, 장르, 가사에 따라 제어할 수 있습니다. [자세히 보기]
메타가 만든 스피치 생성 모델 Voicebox는 대규모 데이터셋으로 학습해서 다양한 음성 작업에서 탁월한 성능을 발휘합니다. Voicebox는 6개 언어로 음성을 합성하고, 노이즈를 제거하고, 콘텐츠를 편집하고, 오디오 스타일을 전송할 수 있습니다. 가장 발전된 자동 회귀 모델보다 최대 20배 빠른 속도로 음성을 생성할 수 있습니다. [자세히 보기]
메타가 만든 또 다른 모델 Audiobox는 음성 및 사운드를 포함한 다양한 유형의 오디오를 생성하기 위한 고급 모델입니다. 오디오 스타일을 세부적으로 제어할 수 있으며 텍스트 설명을 기반으로 새로운 스타일을 만들 수 있습니다. Audiobox는 생성하는 오디오의 품질과 속도에서 새로운 차원을 달성했고, 오디오 제작을 누구나 효율적으로 할 수 있게 해 줍니다. [자세히 보기]
MusicLM은 구글이 만든 모델로, "왜곡된 기타 리프가 뒤를 받치는 동안 들리는 차분한 바이올린 멜로디"와 같은 텍스트 설명으로 고품질의 음악을 생성합니다. 몇 분 동안 24kHz로 일관된 음악을 생성할 수 있고, 텍스트 설명을 기반으로 허밍이나 휘파람 소리를 변형할 수도 있습니다. [자세히 보기]
구글의 MusicFX는 MusicLM의 업그레이드 버전입니다. MusicFX는 최대 70초 길이의 작곡과 음악 루프를 만들 수 있고, DJ 모드가 있습니다. [자세히 보기]

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.