Text-to-Audio λͺ¨λΈ 12選

Text-to-Speech와 Text-to-Music λͺ¨λΈλ“€

Text-to-Audio λͺ¨λΈμ€ κΈ€λ‘œ 써 μžˆλŠ” ν…μŠ€νŠΈλ₯Ό μ†Œλ¦¬λ‘œ λ³€ν™˜ν•˜λŠ” λͺ¨λΈμ΄μ£ . 보톡 λ‹€μŒκ³Ό 같은 μš©λ„λ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€:

  • Text-to-Speech (TTS) λͺ¨λΈμ€ μž…λ ₯ ν…μŠ€νŠΈλ‘œλΆ€ν„° μŒμ„± μ–Έμ–΄λ₯Ό λ§Œλ“€μ–΄λƒ…λ‹ˆλ‹€. 가상 λΉ„μ„œ, μ˜€λ””μ˜€λΆ, λ‚΄λΉ„κ²Œμ΄μ…˜ μ‹œμŠ€ν…œ λ“±μ—μ„œ μ‚¬μš©ν•©λ‹ˆλ‹€.

  • μŒμ•… 생성 λͺ¨λΈμ€ ν…μŠ€νŠΈλ‘œ 된 μ„€λͺ…이라든가 μ§€μ‹œ 사항을 μ°Έμ‘°ν•΄μ„œ μŒμ•…μ„ μƒμ„±ν•©λ‹ˆλ‹€. ν¬λ¦¬μ—μ΄ν‹°λΈŒ 도ꡬ, μ—”ν„°ν…ŒμΈλ¨ΌνŠΈ 및 μžλ™μ μœΌλ‘œ μŒμ•…μ„ μž‘κ³‘ν•  λ•Œ μ‚¬μš©ν•©λ‹ˆλ‹€.

  • 음ν–₯효과 생성 λͺ¨λΈμ€ ν…μŠ€νŠΈλ‘œ 된 μ„€λͺ…을 가지고 νŠΉμ •ν•œ 음ν–₯ 효과λ₯Ό μƒμ„±ν•˜λŠ” λͺ¨λΈμž…λ‹ˆλ‹€. λΉ„λ””μ˜€ κ²Œμž„ 개발, μ˜ν™” 및 가상 ν™˜κ²½μ—μ„œ μœ μš©ν•©λ‹ˆλ‹€.

μ•„λž˜λŠ” λ‹€μ–‘ν•œ μœ ν˜•μ˜ Text-to-Audio λͺ¨λΈλ“€μž…λ‹ˆλ‹€:

  1. JASCOλŠ” λ©”νƒ€μ—μ„œ κ°œλ°œν•œ Text-to-Music λͺ¨λΈμž…λ‹ˆλ‹€. μŒμ•… κΈ°ν˜Έλ‚˜ μ˜€λ””μ˜€ 기반의 μž…λ ₯을 λ°›μ•„μ„œ 사싀적이고도 κ³ ν’ˆμ§ˆμ˜ μŒμ•… 클립을 μƒμ„±ν•©λ‹ˆλ‹€. Flow Matching μŠ€ν”ΌμΉ˜ 생성 κΈ°μˆ μ„ μ‚¬μš©ν•΄μ„œ κ³ ν’ˆμ§ˆ μ‚¬μš΄λ“œλ₯Ό κ΅¬ν˜„ν•˜λŠ” JASCOλŠ” νŠΉμ •ν•œ μ½”λ“œλ‚˜ λΉ„νŠΈκ°€ μ–Έμ œ μž¬μƒλ˜μ–΄μ•Ό ν•˜λŠ”μ§€ λ“±μ˜ μŒμ•…μ  μš”μ†ŒλΌλ“ κ°€ μŒμ•…μ˜ νŠΉμ • 뢀뢄을 μ„ΈλΆ€μ μœΌλ‘œ μ œμ–΄ν•  수 있게 ν•΄ μ€λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]

  2. Stable Audio Open은 ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈμ—μ„œ μ΅œλŒ€ 47초 λΆ„λŸ‰μ˜ 44.1kHz μŠ€ν…Œλ ˆμ˜€ μ˜€λ””μ˜€λ₯Ό μƒμ„±ν•˜λŠ” Stability AI의 λͺ¨λΈλ‘œ, κ°€μ€‘μΉ˜κ°€ μ˜€ν”ˆλœ Text-to-Audio λͺ¨λΈμž…λ‹ˆλ‹€. 이 λͺ¨λΈμ€ νŒŒν˜• 압좕을 μœ„ν•œ μžλ™ 인코더, T5 기반 ν…μŠ€νŠΈ μž„λ² λ”©, 트랜슀포머 기반 ν™•μ‚° λͺ¨λΈ(DiT)μ΄λΌλŠ” μ„Έ 가지 ꡬ성 μš”μ†Œλ‘œ 이루어져 μžˆμŠ΅λ‹ˆλ‹€. Stable Audio Open을 μ‚¬μš©ν•˜λ©΄ 사싀적인 μ‚¬μš΄λ“œμ™€ ν˜„μž₯ λ…ΉμŒμ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]

  3. MELLE은 벑터 μ–‘μžν™”λ₯Ό μ‚¬μš©ν•˜μ§€ μ•ŠλŠ” λΉ λ₯΄κ³  κ°„λ‹¨ν•œ μŒμ„± ν•©μ„± 방식을 λ³΄μ—¬μ€λ‹ˆλ‹€. λ§ˆμ΄ν¬λ‘œμ†Œν”„νŠΈμ™€ 홍콩 쀑문 λŒ€ν•™κ΅κ°€ ν•¨κ»˜ λ§Œλ“  MELLE은 mel-spectrogram ν”„λ ˆμž„μ„ μ‚¬μš©ν•΄μ„œ ν…μŠ€νŠΈμ—μ„œ 직접 μŒμ„±μ„ μƒμ„±ν•©λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]

  4. λ§ˆμ΄ν¬λ‘œμ†Œν”„νŠΈμ˜ VALL-EλŠ” Text-to-Speech (TTS)λ₯Ό β€˜μ–Έμ–΄ λͺ¨λΈλ§β€™ μž‘μ—…μœΌλ‘œμ„œ μ²˜λ¦¬ν•˜λŠ” μ‹ κ²½ 코덱 μ–Έμ–΄ λͺ¨λΈμž…λ‹ˆλ‹€. VALL-EλŠ” μŒμ†Œλ₯Ό λΆˆμ—°μ† μ½”λ“œλ‘œ λ³€ν™˜ν•œ λ‹€μŒμ— νŒŒν˜•μœΌλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€. 이런 λΆˆμ—°μ† μ½”λ“œλŠ” ν…μŠ€νŠΈμ™€ ν™”μžμ˜ μŒμ„±μ„ λͺ¨λ‘ ν‘œν˜„ν•˜λŠ”λ°, μƒˆλ‘œμš΄ ν™”μžκ°€ 3초만 λ…ΉμŒν•˜λ©΄ μŒμ„±μ„ 생성할 수 μžˆλŠ” Zero-shot TTS, μŒμ„± νŽΈμ§‘ 및 μ½˜ν…μΈ  μ œμž‘κ³Ό 같은 μž‘μ—…μ„ GPT 같은 λͺ¨λΈκ³Ό ν•¨κ»˜ μ²˜λ¦¬ν•©λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]. VALL-E의 ν™•μž₯ 버전 λͺ¨λΈλ“€μ΄ μžˆλŠ”λ°:

    • VALL-E XλŠ” ν•œ 가지 μ–Έμ–΄λ§Œ μ•„λŠ” μ‚¬λžŒμ„ μœ„ν•΄μ„œ λ‹€λ₯Έ μ–Έμ–΄λ‘œ κ°œμΈν™”λœ μŒμ„±μ„ ν•©μ„±ν•˜λŠ” λ“± λ‹€κ΅­μ–΄ TTSλ₯Ό μ§€μ›ν•©λ‹ˆλ‹€.

    • VALL-E RλŠ” μŒμ†Œ 정렬을 더 μ •ν™•νžˆ, 디코딩을 더 λΉ λ₯΄κ²Œ, μ˜€νƒ€ λ“± 였λ₯˜λ₯Ό μ€„μ—¬μ„œ TTS μž‘μ—…μ„ 더 효율적으둜 ν•˜λ„λ‘ ν•©λ‹ˆλ‹€.

    • VALL-E 2λŠ” Zero-shot TTSμ—μ„œ μ‚¬λžŒμ— κ°€κΉŒμš΄ μˆ˜μ€€μ˜ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 반볡 인식 μƒ˜ν”Œλ§μœΌλ‘œ 였λ₯˜λ₯Ό 쀄이고, μ½”λ“œ λͺ¨λΈλ§μ„ κ·Έλ£Ήν™”ν•΄μ„œ 처리 속도λ₯Ό λ†’μž„μœΌλ‘œμ¨ μŒμ„±μ„ λ”μš± μžμ—°μŠ€λŸ½κ²Œ λ§Œλ“€μ–΄ μ€λ‹ˆλ‹€.

  5. Suno AIλŠ” ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ‚˜ κ°€μ‚¬λ‘œ λ©œλ‘œλ””, ν•˜λͺ¨λ‹ˆ, 전체 곑을 μƒμ„±ν•˜λŠ” AI 기반 μŒμ•… μ œμž‘ λ„κ΅¬μž…λ‹ˆλ‹€. λ‹€μ–‘ν•œ μž₯λ₯΄μ˜ κ³ ν’ˆμ§ˆ μ•…κΈ° νŠΈλž™μ„ μ œκ³΅ν•˜κΈ° λ•Œλ¬Έμ— μŒμ•…κ°€, μ „λ¬Έκ°€, μ• ν˜Έκ°€, ꡐ윑자 λ“± λ‹€μ–‘ν•œ μ‚¬λžŒλ“€μ΄ 자기의 μŒμ•… ν”„λ‘œμ νŠΈμ— ν™œμš©ν•˜λŠ”λ° μ ν•©ν•©λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]

  6. Sunoκ°€ λ§Œλ“  트랜슀포머 기반 Text-to-Audio λͺ¨λΈμΈ BarkλŠ” 사싀적인 λ‹€κ΅­μ–΄ μŒμ„±, μŒμ•…, λ°°κ²½ μ†ŒμŒ 및 음ν–₯ 효과λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ μ–Έμ–΄λ₯Ό μ§€μ›ν•˜κ³ , μž…λ ₯ ν…μŠ€νŠΈμ—μ„œ μ–Έμ–΄λ₯Ό κ°μ§€ν•˜λ©°, μ½”λ“œ μ „ν™˜λœ ν…μŠ€νŠΈμ— 원어민 μ•…μ„ΌνŠΈλ₯Ό μ μš©ν•©λ‹ˆλ‹€. μ›ƒμŒ, ν•œμˆ¨, 울음과 같은 비언어적 μ†Œλ¦¬λ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 
     

  7. ꡬ글 λ”₯λ§ˆμΈλ“œμ—μ„œ λ§Œλ“  심측 신경망 λ„€νŠΈμ›μΈ WaveNetλŠ” 고해상도 μ˜€λ””μ˜€ 데이터λ₯Ό 효율적으둜 μ²˜λ¦¬ν•˜μ—¬ μ˜μ–΄μ™€ 쀑ꡭ어λ₯Ό λŒ€μƒμœΌλ‘œ λ‹€λ₯Έ μ‹œμŠ€ν…œλ³΄λ‹€ λ›°μ–΄λ‚œ μžμ—°μŠ€λŸ¬μš΄ μŒμ„±μ„ μƒμ„±ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ ν™”μžλ₯Ό λͺ¨λ°©ν•˜κ³  사싀적인 μŒμ•… ν”ΌμŠ€λ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. WaveNet은 μŒμ†Œ μΈμ‹μ—μ„œλ„ κ°€λŠ₯성을 보여 TTS μ–΄ν”Œλ¦¬μΌ€μ΄μ…˜μ„ λ„˜μ–΄μ„  ν™•μž₯ κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 

  8. μ˜€ν”ˆAIκ°€ λ§Œλ“  JukeboxλŠ” λ…Έλž˜λ‘œ μŒμ•…μ„ λ§Œλ“­λ‹ˆλ‹€. λ©€ν‹°μŠ€μΌ€μΌ VQ-VAEλ₯Ό μ‚¬μš©ν•˜μ—¬ μ›μ‹œ μ˜€λ””μ˜€λ₯Ό μ½”λ“œλ‘œ μ••μΆ•ν•œ λ‹€μŒ μžλ™ νšŒκ·€ 트랜슀포머λ₯Ό μ‚¬μš©ν•˜μ—¬ μŒμ•…μ„ μƒμ„±ν•©λ‹ˆλ‹€. JukeboxλŠ” κ³ ν’ˆμ§ˆμ˜ λ‹€μ–‘ν•œ λ…Έλž˜λ₯Ό μƒμ„±ν•˜λ©° μ•„ν‹°μŠ€νŠΈ, μž₯λ₯΄, 가사에 따라 μ œμ–΄ν•  수 μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기]

  9. 메타가 λ§Œλ“  μŠ€ν”ΌμΉ˜ 생성 λͺ¨λΈ VoiceboxλŠ” λŒ€κ·œλͺ¨ λ°μ΄ν„°μ…‹μœΌλ‘œ ν•™μŠ΅ν•΄μ„œ λ‹€μ–‘ν•œ μŒμ„± μž‘μ—…μ—μ„œ νƒμ›”ν•œ μ„±λŠ₯을 λ°œνœ˜ν•©λ‹ˆλ‹€. VoiceboxλŠ” 6개 μ–Έμ–΄λ‘œ μŒμ„±μ„ ν•©μ„±ν•˜κ³ , λ…Έμ΄μ¦ˆλ₯Ό μ œκ±°ν•˜κ³ , μ½˜ν…μΈ λ₯Ό νŽΈμ§‘ν•˜κ³ , μ˜€λ””μ˜€ μŠ€νƒ€μΌμ„ 전솑할 수 μžˆμŠ΅λ‹ˆλ‹€. κ°€μž₯ λ°œμ „λœ μžλ™ νšŒκ·€ λͺ¨λΈλ³΄λ‹€ μ΅œλŒ€ 20λ°° λΉ λ₯Έ μ†λ„λ‘œ μŒμ„±μ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 

  10. 메타가 λ§Œλ“  또 λ‹€λ₯Έ λͺ¨λΈ AudioboxλŠ” μŒμ„± 및 μ‚¬μš΄λ“œλ₯Ό ν¬ν•¨ν•œ λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ˜€λ””μ˜€λ₯Ό μƒμ„±ν•˜κΈ° μœ„ν•œ κ³ κΈ‰ λͺ¨λΈμž…λ‹ˆλ‹€. μ˜€λ””μ˜€ μŠ€νƒ€μΌμ„ μ„ΈλΆ€μ μœΌλ‘œ μ œμ–΄ν•  수 있으며 ν…μŠ€νŠΈ μ„€λͺ…을 기반으둜 μƒˆλ‘œμš΄ μŠ€νƒ€μΌμ„ λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. AudioboxλŠ” μƒμ„±ν•˜λŠ” μ˜€λ””μ˜€μ˜ ν’ˆμ§ˆκ³Ό μ†λ„μ—μ„œ μƒˆλ‘œμš΄ 차원을 λ‹¬μ„±ν–ˆκ³ , μ˜€λ””μ˜€ μ œμž‘μ„ λˆ„κ΅¬λ‚˜ 효율적으둜 ν•  수 있게 ν•΄ μ€λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 

  11. MusicLM은 ꡬ글이 λ§Œλ“  λͺ¨λΈλ‘œ, "μ™œκ³‘λœ 기타 리프가 λ’€λ₯Ό λ°›μΉ˜λŠ” λ™μ•ˆ λ“€λ¦¬λŠ” μ°¨λΆ„ν•œ λ°”μ΄μ˜¬λ¦° λ©œλ‘œλ””"와 같은 ν…μŠ€νŠΈ μ„€λͺ…μœΌλ‘œ κ³ ν’ˆμ§ˆμ˜ μŒμ•…μ„ μƒμ„±ν•©λ‹ˆλ‹€. λͺ‡ λΆ„ λ™μ•ˆ 24kHz둜 μΌκ΄€λœ μŒμ•…μ„ 생성할 수 있고, ν…μŠ€νŠΈ μ„€λͺ…을 기반으둜 ν—ˆλ°μ΄λ‚˜ 휘파람 μ†Œλ¦¬λ₯Ό λ³€ν˜•ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 

  12. κ΅¬κΈ€μ˜ MusicFXλŠ” MusicLM의 μ—…κ·Έλ ˆμ΄λ“œ λ²„μ „μž…λ‹ˆλ‹€. MusicFXλŠ” μ΅œλŒ€ 70초 길이의 μž‘κ³‘κ³Ό μŒμ•… 루프λ₯Ό λ§Œλ“€ 수 있고, DJ λͺ¨λ“œκ°€ μžˆμŠ΅λ‹ˆλ‹€. [μžμ„Ένžˆ 보기] 

μ½μ–΄μ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€. 재미있게 보셨닀면 μΉœκ΅¬μ™€ λ™λ£Œ λΆ„λ“€μ—κ²Œλ„ λ‰΄μŠ€λ ˆν„°λ₯Ό μΆ”μ²œν•΄ μ£Όμ„Έμš”.

Reply

or to participate.