Turing Post Korea
Posts
Topic #20: Flow Matching이란 무엇인가?

Topic #20: Flow Matching이란 무엇인가?

플로우 매칭의 핵심 개념, 디퓨전 모델과의 연관성, 그리고 생성모델 훈련에 있어서의 효과를 알아봅시다.

Ksenia Se & Ben Eum
January 04, 2025

글을 시작하며

기법별 이미지-노이즈 변환 비교. Image: BayesianBacteria (세균맨) 블로그에서.

오늘의 AI 101, 2025년의 첫 번째 AI 101 에피소드인데요. 상당히 복잡할 수 있지만 그래도 개념적으로 어느 정도 이해하면 좋겠다는 마음에서, ‘플로우 매칭 (FM; Flow Matching)’에 대해서 알아볼까 합니다. 기술적으로 깊은 이야기는 가급적 피하더라도, 그 핵심을 개념적인 수준에서 이해하는 정도만 되더라도 일반인에게는 충분하다고 생각합니다.

우선 구체적인 이야기를 하기 전에, 위 그림을 보시죠. 결국 이미지, 음성 등의 데이터를 생성하는 작업에서, ‘노이즈’와 '이미지’ 사이를 왔다갔다 하는 가장 빠르고 효율적인 방법을 찾는 게 핵심이라고 본다면, 그림의 위쪽, 가운데, 아래쪽 중 직관적으로 어떤 게 가장 좋은 걸로 보이시나요?

위쪽은 ‘디퓨전 포워드 프로세스 (Diffusion Forward Process)’, 가운데는 ‘디퓨전 플로우 매칭 (Diffusion Flow Matching)’, 아래쪽은 ‘OT-FM (Optimal Transport Flow Matching)’ 기법이라고 하는데, 딱 보기에도 아래쪽이 이미지와 노이즈 사이의 변환이 매끄럽게 느껴지시죠?

‘플로우 매칭’은 이렇게 ‘노이즈’와 ‘이미지’ 사이를 변환하는 방식을 더 효과적으로, 빠르게 학습할 수 있게 해 주는 기법이라고 일단 할 수 있을 것 같은데요. 왜 플로우 매칭이 중요할까요? 작년에 화제를 일으켰던 Flux (텍스트-이미지 변환), F5-TTS나 E2-TTS (텍스트-음성 변환), 메타의 MovieGen (텍스트-비디오 변환), Stability AI의 Stable Diffusion 3 (텍스트-이미지 변환) 같은, 멀티모달 데이터를 다루는 최신의 생성AI 모델에서 ‘플로우 매칭’이 중요한 역할을 하고 있기 때문이죠. FM이 결국 디퓨전 모델을 제치고 멀티모달 생성모델의 베이스가 될 거라고 이야기하는 전문가들도 있구요.

FM은 CNF (Continuous Normalizing Flow)라는 걸 개선한 거라고 할 수 있는데, 그럼 이 CNF는 뭐냐 하면, ‘구조화된 노이즈에서 시작해서 이미지, 오디오, 텍스트 등 복잡한 데이터의 실제같은 샘플을 생성하는 프레임웍’입니다. CNF는 강력한 프레임웍이긴 하지만 학습 시간이 길고, 샘플링 속도를 높이려면 복잡한 기술이 필요하다는 문제가 있는데요. FM (플로우 매칭)은 노이즈에서 구조화된 출력값으로 가는 경로를 최적화해서 이런 문제를 해결해서, CNF를 간소화하고 계산의 비효율성을 줄여줍니다. 조금 다르게, 그렇지만 간단한 표현으로 정리해 보자면, FM은 ‘시간에 따른 확률 분포의 흐름을 매칭하는 방법을 학습’하는데 중점을 둡니다.

아직 어렵고 개념이 잘 와닿지 않으실 텐데요, 실제로 구체적으로 이해를 하려면 새로운 용어나 수식을 많이 알아야 하는 것 같습니다. 모두가 그런 내용을 다 알 필요는 없으니, ‘간단하게 아주 상위 수준에서 개념적인 부분으로만 이해를 해 본다’고 생각하고 한 번 시작해 보시죠.

오늘은 아래와 같은 내용을 다룹니다:

CNF (Continuous Normalizing Flow) 소개 및 그 한계

먼저, CNF가 뭔지 알아봐야겠죠.

CNF는 생성 모델링에서 사용하는 일종의 프레임웍인데, 단순한 데이터 (예를 들어, 무작위로 만들어진 노이즈 같은 거요)를 복잡한 분포 (실제 현실에서 볼 수 있는 이미지나 소리)의 데이터로 변환하는 수학적 도구입니다. ‘노이즈를 천천히 추가하고 제거하면서 비교적 제한된 방식으로 데이터를 처리하게 되는 디퓨전 모델’과는 다르게, CNFs는 더 넓은 범위의, 다양한 방식의 데이터 변환을 잘 처리할 수 있는데, 이건 ‘벡터 필드’를 따라서 데이터를 점진적으로, 그리고 부드럽게 재구성하는 방식을 사용해서 이루어집니다. 간단히 살펴볼께요.

CNF를 이해하기 위해서 필요한 핵심적인 개념:

데이터 공간 (Data Space)
말 그대로 데이터가 ‘존재하는’ 곳인데, 예를 들어서, 픽셀로 이루어진 이미지는 고정된 수의 픽셀을 가진 고차원 공간에 ‘존재’한다고 볼 수 있죠.
확률 밀도 경로 (Probability Density Path)
시간축이 이동하면서 데이터의 확률 분포가 어떻게 변화하는지를 설명해 주는 요소예요. 데이터를 어떤 ‘공간 위에 있는 점’이라고 생각해 보면, 아주 단순한 그냥 ‘노이즈’가 ‘실제같은 데이터’로 이동을 하게끔, 확률 밀도 경로가 그 점진적인 이동 경로를 설명해 줍니다.
벡터 필드 (Vector Field)
위에서 이야기한 ‘변환’을 실제로 하기 위해서, 데이터 포인트들이 ‘매 순간 어떻게 움직여야 하는지 안내하는 지도’로 생각하면 됩니다.
플로우 (Flow)
마지막으로, ‘플로우’는 벡터 필드의 가이드에 따라서 시간에 따른 데이터를 단계별로 재구성합니다. 좀 더 정확한, 수학적인 용어로 말하자면, CNF에서는 벡터 필드를 기반으로 해서 데이터가 어떻게 움직이는지 알려주는 상미분방정식(ODE; Ordinary Differential Equation)을 풀어야 합니다. 바로 이게 ‘시간에 따른 확률의 흐름’으로 최종적인 ‘변환’을 만들어 냅니다.

여기서, 벡터 필드는 수동적으로 만드는 대신 ‘신경망을 사용해서 학습’하게 되는데요. 이 신경망이 일종의 GPS같이 데이터 포인트를 입력으로 받아서 원하는 분포와 합치하도록 어디로 이동해야 할지 예측합니다. 이 과정에서, ‘Push-Forward 방정식’이라는 규칙을 활용해서 데이터를 실제와 같은 복잡한 데이터 분포 - 예를 들면 이미지라든가 음악, 소리 등요 - 로 재구성하는데, 물론 확률 법칙 (전체 확률이 항상 1을 유지)을 보장하면서요.

‘노이즈’로부터 연속적으로, 그리고 부드럽게 ‘실제 데이터’로 변환이 이루어지는게 바로 CNF의 중요한 장점이고, 이게 바로 CNF가 생성 모델링에서 사용할 수 있는 강력한 도구가 되는 이유입니다. 그런데, CNF에는 중요한 한계가 있어요. 바로 위에서 이야기한 ODE - 상미분방정식 - 를 푸는게 느리고, 어렵고, 계산 비용도 많이 든다는 겁니다.

조금만 더 이야기해 보면, CNF에서 데이터의 변환 과정이 ‘연속적인 시간에 따른 흐름’으로 표현되는데, 이 흐름을 계산하기 위해서 미분방정식을 직접 풀기는 어려우니 대신 컴퓨터가 ‘아주 작은 시간 단계별로 변화를 계산하면서 근사 (Approximation)하는 방식을 사용하는 거죠 - 이게 ODE Solver를 사용해서 상미분방정식을 풀어가는 과정이구요. 이 계산 과정을 ‘시뮬레이션’이라고 부르는데요, 각 학습의 단계마다 이 시뮬레이션을 수행해야 하고, 정확한 결과를 얻으려면 아주 작은 시간 간격으로 많은 단계를 계산해야 하니 비용과 시간이 많이 든다는 겁니다.

플로우 매칭 (FM; Flow Matching)의 등장과 작동 방식

플로우 매칭 (FM)은, 비용과 시간이 많이 드는 시뮬레이션이 없이도 CNF를 학습시킬 수 있는, 더 빠르고 간단한 방법입니다. 생성AI 모델링에서 플로우 매칭의 개념은 2022년 메타의 AI FAIR, 그리고 Weizmann Institute of Science의 연구자들이 공저한 "Flow Matching for Generative Modeling" 논문에서 처음 소개됐습니다.

FM은 Normalizing Flow, 그리고 Diffusion Model 같은 기술을 기반으로 하지만, 데이터의 분포를 변환하는 데 있어서 더 스마트하고 효율적인 접근 방식을 취합니다. CNF처럼 학습 중에 ODE를 푸는 대신, FM은 Regression 기반의 목적 함수를 사용해서 (신경망에서 나온) 벡터 필드와 직접 매칭을 합니다 (표현이 좀 어렵지만, 전체 경로를 시뮬레이션하는 대신, 시작점과 끝점을 사용해서 바로 변환 방향을 학습한다고 하면 어떨까 싶네요). 이렇게 해서, 학습 단계에서 미분방정식을 적분해야 하는 계산 부담을 피하는 것이죠. 이 과정이 어떻게 진행되는지 한 번 볼까요?

플로우 매칭은 어떻게 작동하나?

플로우 매칭의 전체 아이디어를 작은 개념으로 나눠서 한 번 살펴보죠.

플로우 매칭과 관련된 핵심적인 개념:

분포 변환 (Transforming Distribution)
FM의 아이디어는, 학습된 ‘플로우 필드’를 사용해서, ‘노이즈’ 같이 단순한 확률 분포를 ‘실세계 데이터’ 같은 복잡한 목표 분포로 점진적으로 변환하는 건데요. 이 ‘변환’은 시간에 따른 분포 (Distribution) 간의 경로로 표현됩니다.
벡터 필드 학습 (Vector Field Learning)
전체 데이터 변환을 한 번에 모델링하는 대신, FM은 데이터 포인트가 확률 경로를 따라 한 분포에서 다음 분포로 어떻게 이동하는지 설명하는 벡터 필드를 학습합니다.
확률 경로 (Probability Path)
확률 경로란 변환의 과정에서 데이터 포인트가 따라가는, 확률 공간에서 미리 정의된 궤도라고 하겠습니다. FM은 학습된 플로우를 이런 ‘경로’와 일치시키는 걸 목표로 합니다.
신경망 (Neural Network)
실제의 벡터 필드를 근사치로 학습하는 신경망을 이야기합니다.
학습 목표 (Training Objective)
지도 학습 회귀 문제 (Supervised Regression Problem)을 풀어서, 확률 플로우 경로 (Probability Flow Path)와 학습된 플로우 사이의 불일치를 최소화합니다. 손실이 최소화되면 신경망이 변환을 정확히 모델링하고, CNF는 원하는 분포를 생성해 낼 수 있게 됩니다.

FM은 아래와 같은 과정을 거쳐 이뤄집니다:

자, 일단 우리한테 두 가지의 데이터 모양이 있다고 상상해 볼까요? 예를 들어, 가우시안 분포를 따르는 덩어리 (이건 출발점이구요), 그리고 나선 모양 (이건 목표점입니다)이 있습니다.
‘가우시안 분포를 따르는 덩어리’에서 나선으로 변화하기 위해서, 일단 간단하게 ‘점들이 일정한 속도로 직선 경로를 따라 움직인다’는 가정을 해 봅니다. 물론 대략적인 추정이고, 가끔 경로들이 교차하게 되기도 할 겁니다.
이 과정 속에서, 모델은 ‘시간별로 점들이 어떻게 움직이게 되는지 가이드’하는 벡터 필드를 학습하게 됩니다.
수많은 포인트들의 움직임을 평균 내서, 출발점으로부터 목표점으로 가장 부드럽게 흘러가는 경로를 찾아냅니다.

Image Credit: ‘Flow with What You Know’ 블로그

그런데, 포인트들이 모인 전체적인 데이터셋이 전반적으로 이동하는 단계별 확률 경로 (Marginal Probability Path), 그리고 벡터 필드의 계산 과정은 다루기가 어렵습니다 (Intractable). 그래서, 플로우 매칭 (FM)은 동일한 연구 논문에서 제안된 또 다른 하나의 기술로 이 문제를 해결합니다.

CFM (Conditional Flow Matching; 조건부 플로우 매칭)

디퓨전 모델에서 ‘디노이징 스코어 매칭 (Denoising Score Matching)’ - 노이즈를 추가해서 더러워진 사진을 어떻게 하면 깨끗하게 만들까’ 하는 과정을 학습하는 거라고 보시면 됩니다 - 같은 기술에서 힌트를 얻어서, CFM은 플로우 매칭 과정에 필요한 학습을 더 단순화합니다:

조건부 확률 경로 (Conditional Probability Path)에 집중
전체의 변환 (Transformation)을 직접 모델링하기보다, CFM은 개별적인 데이터 샘플과 그에 관련된 벡터 필드에 대한 더 단순한 조건부 경로를 구성합니다. 더 다루기 쉽고, 전체의 변환 과정에 대한 상세한 정보도 필요없죠.
손실 함수의 단순화
일바적으로 플로우 매칭 손실 (Flow Matching Loss)은 전체적인 확률 경로 (Marginal Probability Path)와 벡터 필드에 대한 정보가 필요하지만, 더 작은 조건부 경로, 그리고 벡터 필드에 집중하게 되면 단순하고 계산도 쉬운 목적 함수를 얻을 수 있습니다.
일반적인 플로우 매칭과의 동등한 효과
문제를 더 단순화했지만, CFM은 조건부의 플로우 매칭 손실 최적화 결과 생성되는 그래디언트가 전체 FM의 목적 함수와 동일해지도록 보장합니다. 결국 CFM은 대규모 데이터셋에 대해서 스케일할 수 있는 학습을 하면서도 FM의 이론적 장점을 보장할 수 있는 겁니다.

학습하는 과정에서 개별적인 데이터 포인트들의 경로가 교차할 수 있고, 이 때문에 모델을 혼란스럽게 만들 수 있지만, 중요한 건 ‘플로우 매칭’ 접근법이 단순히 특정 포인트가 아닌 ‘분포의 변환’에 초점을 맞춘다는 겁니다. 그래서 시스템은 이런 궤적들을 ‘교차하지 않는 하나의 일반적인 흐름으로 추정’하는 법을 학습하게 되고, 전체 플로우는 가역적 과정으로 만들어질 수 있습니다.

그렇다면 디퓨전 모델은?

CNF에서는 미분방정식으로 데이터 분포를 정의하는 반면에, 디퓨전 모델에서는 (무작위의) 확률적 과정을 통해서 데이터가 확률 궤적 (Probability Trajectory)를 따라 점차 ‘노이즈화’ 되었다가 다시 디노이징되게 되죠. 그리고 앞에서 잠깐 이야기한 것처럼, ‘학습을 위한 스코어 매칭’ 기법이 필요합니다.

디퓨전 모델은 노이즈를 추가했다가 제거하는 과정 때문에 ‘곡선 형태의 디퓨전 확률 경로’를 따르게 되고, FM은 위 그림에서 보듯이 ‘직선 경로’를 만든다는 일반적인 의견이 있는데요. 물론 이건 모델이 단일 데이터 포인트를 완벽하게 예측할 때만 해당되는 이야기이긴 한데요.

구글 딥마인드의 연구진들도 ‘항상 그런 것은 아니다’라고 한 적이 있습니다. 이미지를 처리한다든가 하는 실제적인 상황에서는, FM의 예측이 ‘분포 전체에 대한 평균’을 내기 때문에 데이터 구조와 분포에 따라 경로가 곡선처럼 보일 수도 있습니다. 반대로, 디퓨전 모델의 결정론적 샘플러는 특정한 조건에서 직선과 비슷한 경로를 만들어낼 수 있기 때문에 ‘플로우 매칭과 비슷하게 동작’할 수도 있습니다.

FM과 디퓨전 모델 둘 다 효과적인 방법이긴 해도, 몇 가지 차이점이 있습니다:

FM은 선형 보간법 (Linear Interpolation)을 선호하는 반면에, 디퓨전 모델은 노이즈 스케줄에 의존합니다.
샘플링의 관점에서, 디퓨전은 - 특히 단순한 세팅의 경우 - 보통 확률적 (약간 무작위라고 할까요)으로 움직이고, 플로우 매칭은 결정록적 경로로 작동할 수 있어서 무작위성이 덜하다고 하겠습니다.
디퓨전 모델은 ‘저해상도 공간에서 작동해서 학습 및 샘플링이 느려질 수 있습니다. FM은 디퓨전 모델보다 ‘더 높은 해상도 공간’에서 작동하기 때문에 더 빠르고 효율적으로 학습할 수 있습니다.

FM과 디퓨전 모델은 수학적으로는 ‘동등 (Equivalent)’한 기법이라서, 두 방식의 기술을 혼합해서 사용할 수 있다고 합니다. 예를 들어서, 하나의 기법으로 학습을 하고 다른 기법으로 샘플링을 하거나, 플로우 매칭을 사용해서 학습 경로를 단순화하면서 무작위성을 다루는데는 디퓨전의 기술을 차용할 수 있다는 거죠.

또, 플로우 매칭 기법으로 디퓨전 모델을 개선할 수도 있는데, FM이 더 넓은 범위의 다양한 확률 경로를 지원하기 때문에 디퓨전 모델을 더 빠르고, 유연하게, 그리고 정확하게 만들 수 있다고 합니다. FM이 지원하는 다양한 경로의 예시에는 다음과 같은 것들이 있구요:

OT (Optimal Transport) 경로 - 노이즈와 데이터 사이의 직선 궤적 경로
곡선을 비롯한 다른 복잡한 경로 - 데이터의 특정한 요구사항에 따라 맞춤화

다음 테이블은 FM (플로우 매칭) 으로 향상했을 때 확인할 수 있는 디퓨전 모델의 장점을 간단히 요약한 겁니다:

FM으로 디퓨전 모델 향상했을 때의 장점

플로우 매칭의 성능, 그리고 한계

타 기법과 플로우 매칭 성능 비교

자, 그럼 FM 기법의 성능이 얼마나 좋은지, 그리고 실제 생성AI 모델의 성능 향상으로 이어지는지 ‘수치’를 통해서 한 번 살펴볼까요?

아래 그림은, 디퓨전과 결합한 FM, 그리고 FM-OT (FM with Optimal Transport; 최적 전송 경로로 만들어진 FM)를 DDPM (Denoising Diffusion Probabilistic Model), 스코어 매칭, 스코어 플로우 등 자주 사용되는 디퓨전 기밥 기법들과 비교한 건데요. CIFAR-10, ImageNet (32×32, 64×64, 128×128 해상도) 같은 데이터셋에서 테스트한 결과입니다:

Image Credit: ‘Flow Matching for Generative Modeling’ 논문

첫 번째 그림에서 보이는 ‘NLL’은 ‘Negative Log-Likelihood인데요, 이건 모델이 ‘데이터의 분포를 얼마나 잘 포착하는지’를 보여주는 지표입니다. FM-OT가 다른 최신 모델들과 비교해도 경쟁력있는 결과를 보여준다는 걸 알 수 있구요. 주목해 볼 만한 시사점으로 다음과 같은 것들이 있네요:

‘OT 경로’를 사용할 때, FM이 더 적은 단계(NFE; Number of Function Evaluation)로 높은 품질의 샘플을 생성할 수 있어서, 품질과 계산 비용 사이에서 더 나은 트레이드오프를 보여줍니다.
디퓨전 경로에서는 생성 과정의 대부분에서 이미지 대비 노이즈가 지배적이고, 선명한 이미지는 끝부분에 도달해서야 나타납니다. 반면에 ‘OT 경로’에서는 이미지가 과정 초기에서부터 형성되기 시작해서, 더 빠르고 해석도 가능한 샘플링 궤적을 만들어 냅니다.
FM-OT는 디퓨전 모델보다 더 적은 NFE로 더 낮은 수치적 오차를 달성할 수 있습니다.
FM-OT는 계산 자원이 더 적어도 더 나은 FID (생성된 샘플 품질의 지표)를 달성할 수 있습니다.
플로우 매칭은 64×64에서 256×256으로 저해상도 이미지를 업샘플링하는 것 등의 ‘조건부 작업’에도 효과적입니다.

Image Credit: ‘Flow Matching for Generative Modeling’ 논문

플로우 매칭 기법의 장점

앞의 글들에서 부분적으로 언급하기는 했지만, 플로우 매칭의 이점을 전부 한 곳에 정리해 보면:

효율성 (Efficiency)
FM은 학습 과정에서 복잡한 미분방정식을 풀지 않아도 되니까, ImageNet 같은 대규모 데이터셋에서도 더 속도도 빠르고 스케일링에도 유리합니다.
유연성 (Flexibility)
OT (Optimal Transport)라든가 디퓨전 모델에서 일반적으로 사용되는 기법들을 포함해서, Normalizing Flow라든가 디퓨전 모델에 비해 더 넓은 범위의 변환을 다룰 수 있습니다.
높은 품질 (High Quality)
FM이 적용된 모델들은 더 선명하고 실제같은 이미지 등 더 높은 품질의 출력을 생성할 수 있습니다.
안정성 (Stability)
FM은 다른 생성 모델링 방법들에서 흔히 발생하는 ‘수치적인 불안정성 (Numerical Instabilities)’을 피할 수 있습니다.

아래는, 전통적인 CNF (Continuous Normalizing Flow)와 비교했을 때 플로우 매칭이 적용된 CNF의 장점을 요약한 테이블입니다:

플로우 매칭 기법의 한계

플로우 매칭이 생성 모델의 학습, 그리고 샘플링 효율성에서 상당한 수준의 개선을 이뤄냈지만, 이것도 당연히 그 나름의 한계와 과제가 있습니다:

목표 확률 경로에 대한 의존성
(당연한 거긴 하지만) 경로를 잘못 선택하면, 특히 복잡한 데이터에서 학습이 비효율적으로 되거나 성능이 낮아지는 결과를 초래할 수 있습니다.
벡터 필드 (Marginal Vector Field)에 대한 정확한 기준치 부재
FM이 얼마나 높은 성능을 보이느냐 하는 건 ‘CFM 근사 (Approximation)가 얼마나 고품질로 되느냐’에 달려 있는데, 그 때의 ‘Marginal Vector Field’에 대한 Ground Truth가 없죠.
조건부 경로 (Conditional Path)의 안정성
OT 경로 등의 조건부 경로는 하이퍼파라미터 튜닝 등에 따라서 민감하게 변화하기도 합니다.
대규모 데이터셋 처리에 상당한 자원 필요
ImageNet과 같은 대규모 데이터셋의 경우에, FM이 상당한 계산 자원을 필요로 할 수 있습니다.

맺으며

Flux, MovieGen, F5-TTS, E2-TTS, Stable Diffusion 3 같은 최신 모델에서 사용되는 플로우 매칭은 생성 모델링의 성능을 혁신할 잠재력을 이미 보여주고 있습니다. CFM (조건부 플로우 매칭)과 같은 혁신적인 기술로 기존의 CNF (Continuous Normalizing Flow)를 개선해서, 길어지는 학습 시간, 비효율적인 계산 등의 문제들을 해결하면서 전통적 접근 방식 대비 효율적이고 유연한 대안을 제시합니다.

더 빠르고 안정적인 생성 작업을 가능하게 할 뿐 아니라 출력물의 품질도 높여주는 이 기법은, 다음 세대 생성 AI 발전의 초석 중 하나로 역할을 할 거라고 생각합니다. 텍스트-이미지 변환, 텍스트-비디오 변환, 음성 합성 등 어디에 적용되든, 복잡한 데이터 변환을 최적화하는 플로우 매칭의 능력은 최첨단 AI 모델의 미래를 만들어가는 데 중요한 역할을 하게 될 거라고 믿습니다.

보너스: 참고 자료

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.