- Turing Post Korea
- Posts
- Text-to-Audio λͺ¨λΈ 12ιΈ
Text-to-Audio λͺ¨λΈ 12ιΈ
Text-to-Speechμ Text-to-Music λͺ¨λΈλ€
Text-to-Audio λͺ¨λΈμ κΈλ‘ μ¨ μλ ν μ€νΈλ₯Ό μλ¦¬λ‘ λ³ννλ λͺ¨λΈμ΄μ£ . λ³΄ν΅ λ€μκ³Ό κ°μ μ©λλ‘ μ¬μ©ν©λλ€:
Text-to-Speech (TTS) λͺ¨λΈμ μ λ ₯ ν μ€νΈλ‘λΆν° μμ± μΈμ΄λ₯Ό λ§λ€μ΄λ λλ€. κ°μ λΉμ, μ€λμ€λΆ, λ΄λΉκ²μ΄μ μμ€ν λ±μμ μ¬μ©ν©λλ€.
μμ μμ± λͺ¨λΈμ ν μ€νΈλ‘ λ μ€λͺ μ΄λΌλ κ° μ§μ μ¬νμ μ°Έμ‘°ν΄μ μμ μ μμ±ν©λλ€. ν¬λ¦¬μμ΄ν°λΈ λꡬ, μν°ν μΈλ¨ΌνΈ λ° μλμ μΌλ‘ μμ μ μ곑ν λ μ¬μ©ν©λλ€.
μν₯ν¨κ³Ό μμ± λͺ¨λΈμ ν μ€νΈλ‘ λ μ€λͺ μ κ°μ§κ³ νΉμ ν μν₯ ν¨κ³Όλ₯Ό μμ±νλ λͺ¨λΈμ λλ€. λΉλμ€ κ²μ κ°λ°, μν λ° κ°μ νκ²½μμ μ μ©ν©λλ€.
μλλ λ€μν μ νμ Text-to-Audio λͺ¨λΈλ€μ λλ€:
JASCOλ λ©νμμ κ°λ°ν Text-to-Music λͺ¨λΈμ λλ€. μμ κΈ°νΈλ μ€λμ€ κΈ°λ°μ μ λ ₯μ λ°μμ μ¬μ€μ μ΄κ³ λ κ³ νμ§μ μμ ν΄λ¦½μ μμ±ν©λλ€. Flow Matching μ€νΌμΉ μμ± κΈ°μ μ μ¬μ©ν΄μ κ³ νμ§ μ¬μ΄λλ₯Ό ꡬννλ JASCOλ νΉμ ν μ½λλ λΉνΈκ° μΈμ μ¬μλμ΄μΌ νλμ§ λ±μ μμ μ μμλΌλ κ° μμ μ νΉμ λΆλΆμ μΈλΆμ μΌλ‘ μ μ΄ν μ μκ² ν΄ μ€λλ€. [μμΈν 보기]
Stable Audio Openμ ν μ€νΈ ν둬ννΈμμ μ΅λ 47μ΄ λΆλμ 44.1kHz μ€ν λ μ€ μ€λμ€λ₯Ό μμ±νλ Stability AIμ λͺ¨λΈλ‘, κ°μ€μΉκ° μ€νλ Text-to-Audio λͺ¨λΈμ λλ€. μ΄ λͺ¨λΈμ νν μμΆμ μν μλ μΈμ½λ, T5 κΈ°λ° ν μ€νΈ μλ² λ©, νΈλμ€ν¬λ¨Έ κΈ°λ° νμ° λͺ¨λΈ(DiT)μ΄λΌλ μΈ κ°μ§ κ΅¬μ± μμλ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€. Stable Audio Openμ μ¬μ©νλ©΄ μ¬μ€μ μΈ μ¬μ΄λμ νμ₯ λ Ήμμ μμ±ν μ μμ΅λλ€. [μμΈν 보기]
MELLEμ λ²‘ν° μμνλ₯Ό μ¬μ©νμ§ μλ λΉ λ₯΄κ³ κ°λ¨ν μμ± ν©μ± λ°©μμ 보μ¬μ€λλ€. λ§μ΄ν¬λ‘μννΈμ ν콩 μ€λ¬Έ λνκ΅κ° ν¨κ» λ§λ MELLEμ mel-spectrogram νλ μμ μ¬μ©ν΄μ ν μ€νΈμμ μ§μ μμ±μ μμ±ν©λλ€. [μμΈν 보기]
λ§μ΄ν¬λ‘μννΈμ VALL-Eλ Text-to-Speech (TTS)λ₯Ό βμΈμ΄ λͺ¨λΈλ§β μμ μΌλ‘μ μ²λ¦¬νλ μ κ²½ μ½λ± μΈμ΄ λͺ¨λΈμ λλ€. VALL-Eλ μμλ₯Ό λΆμ°μ μ½λλ‘ λ³νν λ€μμ ννμΌλ‘ λ³νν©λλ€. μ΄λ° λΆμ°μ μ½λλ ν μ€νΈμ νμμ μμ±μ λͺ¨λ νννλλ°, μλ‘μ΄ νμκ° 3μ΄λ§ λ Ήμνλ©΄ μμ±μ μμ±ν μ μλ Zero-shot TTS, μμ± νΈμ§ λ° μ½ν μΈ μ μκ³Ό κ°μ μμ μ GPT κ°μ λͺ¨λΈκ³Ό ν¨κ» μ²λ¦¬ν©λλ€. [μμΈν 보기]. VALL-Eμ νμ₯ λ²μ λͺ¨λΈλ€μ΄ μλλ°:
VALL-E Xλ ν κ°μ§ μΈμ΄λ§ μλ μ¬λμ μν΄μ λ€λ₯Έ μΈμ΄λ‘ κ°μΈνλ μμ±μ ν©μ±νλ λ± λ€κ΅μ΄ TTSλ₯Ό μ§μν©λλ€.
VALL-E Rλ μμ μ λ ¬μ λ μ νν, λμ½λ©μ λ λΉ λ₯΄κ², μ€ν λ± μ€λ₯λ₯Ό μ€μ¬μ TTS μμ μ λ ν¨μ¨μ μΌλ‘ νλλ‘ ν©λλ€.
VALL-E 2λ Zero-shot TTSμμ μ¬λμ κ°κΉμ΄ μμ€μ μ±λ₯μ 보μ¬μ€λλ€. λ°λ³΅ μΈμ μνλ§μΌλ‘ μ€λ₯λ₯Ό μ€μ΄κ³ , μ½λ λͺ¨λΈλ§μ κ·Έλ£Ήνν΄μ μ²λ¦¬ μλλ₯Ό λμμΌλ‘μ¨ μμ±μ λμ± μμ°μ€λ½κ² λ§λ€μ΄ μ€λλ€.
Suno AIλ ν μ€νΈ ν둬ννΈλ κ°μ¬λ‘ λ©λ‘λ, νλͺ¨λ, μ 체 곑μ μμ±νλ AI κΈ°λ° μμ μ μ λꡬμ λλ€. λ€μν μ₯λ₯΄μ κ³ νμ§ μ κΈ° νΈλμ μ 곡νκΈ° λλ¬Έμ μμ κ°, μ λ¬Έκ°, μ νΈκ°, κ΅μ‘μ λ± λ€μν μ¬λλ€μ΄ μκΈ°μ μμ νλ‘μ νΈμ νμ©νλλ° μ ν©ν©λλ€. [μμΈν 보기]
Sunoκ° λ§λ νΈλμ€ν¬λ¨Έ κΈ°λ° Text-to-Audio λͺ¨λΈμΈ Barkλ μ¬μ€μ μΈ λ€κ΅μ΄ μμ±, μμ , λ°°κ²½ μμ λ° μν₯ ν¨κ³Όλ₯Ό μμ±ν©λλ€. λ€μν μΈμ΄λ₯Ό μ§μνκ³ , μ λ ₯ ν μ€νΈμμ μΈμ΄λ₯Ό κ°μ§νλ©°, μ½λ μ νλ ν μ€νΈμ μμ΄λ―Ό μ μΌνΈλ₯Ό μ μ©ν©λλ€. μμ, νμ¨, μΈμκ³Ό κ°μ λΉμΈμ΄μ μ리λ μμ±ν μ μμ΅λλ€. [μμΈν 보기]
κ΅¬κΈ λ₯λ§μΈλμμ λ§λ μ¬μΈ΅ μ κ²½λ§ λ€νΈμμΈ WaveNetλ κ³ ν΄μλ μ€λμ€ λ°μ΄ν°λ₯Ό ν¨μ¨μ μΌλ‘ μ²λ¦¬νμ¬ μμ΄μ μ€κ΅μ΄λ₯Ό λμμΌλ‘ λ€λ₯Έ μμ€ν λ³΄λ€ λ°μ΄λ μμ°μ€λ¬μ΄ μμ±μ μμ±ν©λλ€. λ€μν νμλ₯Ό λͺ¨λ°©νκ³ μ¬μ€μ μΈ μμ νΌμ€λ₯Ό μμ±ν μ μμ΅λλ€. WaveNetμ μμ μΈμμμλ κ°λ₯μ±μ λ³΄μ¬ TTS μ΄ν리μΌμ΄μ μ λμ΄μ νμ₯ κ°λ₯μ±μ 보μ¬μ€λλ€. [μμΈν 보기]
μ€νAIκ° λ§λ Jukeboxλ λ Έλλ‘ μμ μ λ§λλλ€. λ©ν°μ€μΌμΌ VQ-VAEλ₯Ό μ¬μ©νμ¬ μμ μ€λμ€λ₯Ό μ½λλ‘ μμΆν λ€μ μλ νκ· νΈλμ€ν¬λ¨Έλ₯Ό μ¬μ©νμ¬ μμ μ μμ±ν©λλ€. Jukeboxλ κ³ νμ§μ λ€μν λ Έλλ₯Ό μμ±νλ©° μν°μ€νΈ, μ₯λ₯΄, κ°μ¬μ λ°λΌ μ μ΄ν μ μμ΅λλ€. [μμΈν 보기]
λ©νκ° λ§λ μ€νΌμΉ μμ± λͺ¨λΈ Voiceboxλ λκ·λͺ¨ λ°μ΄ν°μ μΌλ‘ νμ΅ν΄μ λ€μν μμ± μμ μμ νμν μ±λ₯μ λ°νν©λλ€. Voiceboxλ 6κ° μΈμ΄λ‘ μμ±μ ν©μ±νκ³ , λ Έμ΄μ¦λ₯Ό μ κ±°νκ³ , μ½ν μΈ λ₯Ό νΈμ§νκ³ , μ€λμ€ μ€νμΌμ μ μ‘ν μ μμ΅λλ€. κ°μ₯ λ°μ λ μλ νκ· λͺ¨λΈλ³΄λ€ μ΅λ 20λ°° λΉ λ₯Έ μλλ‘ μμ±μ μμ±ν μ μμ΅λλ€. [μμΈν 보기]
λ©νκ° λ§λ λ λ€λ₯Έ λͺ¨λΈ Audioboxλ μμ± λ° μ¬μ΄λλ₯Ό ν¬ν¨ν λ€μν μ νμ μ€λμ€λ₯Ό μμ±νκΈ° μν κ³ κΈ λͺ¨λΈμ λλ€. μ€λμ€ μ€νμΌμ μΈλΆμ μΌλ‘ μ μ΄ν μ μμΌλ©° ν μ€νΈ μ€λͺ μ κΈ°λ°μΌλ‘ μλ‘μ΄ μ€νμΌμ λ§λ€ μ μμ΅λλ€. Audioboxλ μμ±νλ μ€λμ€μ νμ§κ³Ό μλμμ μλ‘μ΄ μ°¨μμ λ¬μ±νκ³ , μ€λμ€ μ μμ λꡬλ ν¨μ¨μ μΌλ‘ ν μ μκ² ν΄ μ€λλ€. [μμΈν 보기]
MusicLMμ ꡬκΈμ΄ λ§λ λͺ¨λΈλ‘, "μ곑λ κΈ°ν 리νκ° λ€λ₯Ό λ°μΉλ λμ λ€λ¦¬λ μ°¨λΆν λ°μ΄μ¬λ¦° λ©λ‘λ"μ κ°μ ν μ€νΈ μ€λͺ μΌλ‘ κ³ νμ§μ μμ μ μμ±ν©λλ€. λͺ λΆ λμ 24kHzλ‘ μΌκ΄λ μμ μ μμ±ν μ μκ³ , ν μ€νΈ μ€λͺ μ κΈ°λ°μΌλ‘ νλ°μ΄λ ννλ μ리λ₯Ό λ³νν μλ μμ΅λλ€. [μμΈν 보기]
ꡬκΈμ MusicFXλ MusicLMμ μ κ·Έλ μ΄λ λ²μ μ λλ€. MusicFXλ μ΅λ 70μ΄ κΈΈμ΄μ μ곑과 μμ 루νλ₯Ό λ§λ€ μ μκ³ , DJ λͺ¨λκ° μμ΅λλ€. [μμΈν 보기]
μ½μ΄μ£Όμ μ κ°μ¬ν©λλ€. μ¬λ―Έμκ² λ³΄μ ¨λ€λ©΄ μΉκ΅¬μ λλ£ λΆλ€μκ²λ λ΄μ€λ ν°λ₯Ό μΆμ²ν΄ μ£ΌμΈμ.
Reply