- Turing Post Korea
- Posts
- 새롭게 등장하는 '확산 모델'의 구현 5選
새롭게 등장하는 '확산 모델'의 구현 5選

확산 모델 (Diffusion Models)은, 잘 아시다시피 ‘이미지’와 ‘비디오’ 생성 기술로 널리 사용됩니다. 하지만 ‘텍스트’ 생성 분야에서는 아직 충분히 많은 연구와 시도가 되지 않고 있죠. 아무래도 텍스트 분야에서는 ‘자기회귀 모델 (Autoregressive Models)’이 더 널리 사용되죠.
최근에 ‘인셉션 랩스’라는 스타트업에서 확산 모델 기반의 LLM인 ‘Mercury’를 공개해서 화제가 되고 있습니다.
자기회귀 모델이 토큰을 ‘순차적으로 생성’하는 것과는 다르게, 확산 모델은 잡음 (Noise)을 제거하는 단계를 통해서 반복적으로 전체 그림을 개선해 나가기 때문에, 아무래도 속도와 유연성 측면에서 장점이 있습니다.
최근에 자기회귀 모델 대신 확산 모델을 사용하거나, 아니면 두 가지 모델을 함께 사용하는 방향 - 자기회귀의 개념을 확산 모델에 통합하는 등 - 으로의 새로운 시도가 많이 보이는 것도 바로 확산 모델의 장점 때문이겠죠.
오늘은 ‘확산 모델을 새로운 방식으로 구현한 5가지 사례’를 살펴볼까 합니다:
Inception Labs의 dLLM (diffusion LLM), Mercury 모델
텍스트와 코드 데이터에 확산 기법을 적용해서, 현재 최고 수준의 LLM보다 10배 빠른 토큰 생성이 가능하다고 합니다. 현재 출시되어 있는 Mercury Coder는 NVIDIA H100에서 초당 1,000개 이상의 토큰을 처리할 수 있다고 하네요.Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models (2402.07754)
확산 모델과 Chain-of-Thought를 통합하는 기법으로, DoT는 추론의 단계를 시간의 흐름에 따라 점진적으로 확산되도록 설계합니다. 이런 방식은 시스템에 ‘유연성’을 주어서, 추론의 품질과 계산 비용 사이에 균형을 맞출 수 있습니다.Large Language Diffusion Models (2502.09992)
확산 모델이 자기회귀 모델을 대체할 수 있지 않을까 하는 가능성을 보여주는 연구로, 사전 훈련과 SFT로 훈련된 LLaDA는 토큰을 마스킹하고, Transformer를 통해 예측한 다음에, Likelihood Bound를 최적화합니다. LLaDA는 주요한 LLM과 유사한 수준의 능력을 보여주고, 특히 ‘Reversal Poetry - 앞에서 뒤로 읽었을 때와 뒤에서 앞으로 읽었을 때 다른 의미를 가지는 시’ 생성 태스크에서는 GPT-4o를 능가하는 모습을 보여줍니다.The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation (2503.04606)
하이브리드 Text-to-Video 모델로, 자기회귀 기법과 확산 기법이라는 두 가지 패러다임을 결합해서 의미론적 토크나이저, 토큰 생성을 위한 LM, 그리고 스트리밍 확산 모델을 실험해 보고 있습니다. LanDiff는 Sora와 같은 모델보다도 뛰어난 성능을 보여줍니다.Generalized Interpolating Discrete Diffusion (2503.04482)
기존의 Diffusion ELBO (Evidence Lower BOund; 모델이 최적화하려는 목표 함수)를 새롭게 변경해서, 노이징 프로세스를 유연하게 만들어서 ‘마스킹’, ‘균일한 노이즈’를 결합함으로써 자기회귀 모델이 어려워하는 ‘오류 수정’ 등을 확산 모델이 할 수 있게끔 합니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply