- Turing Post Korea
- Posts
- 12가지 유형의 JEPA (최신 + 클래식)
12가지 유형의 JEPA (최신 + 클래식)

Yann LeCun과 Randall Balestriero가 JEPA(Joint-Embedding Predictive Architecture)의 중요 이론을 다시 정리하고, 실제로 효율성있게 적용해 볼 수 있는 새로운 버전, LeJEPA를 공개했습니다. 이 때쯤 한 번 다시 JEPA에 어떤 유형이 있는지 확인해 보는게 좋겠다는 생각이 들어서, 최근에 등장한 JEPA 변형 모델 7가지, 그리고 대표적인 고전 JEPA 5가지를 함께 정리해 봤습니다:
최근 등장한 7가지 JEPA 변형 모델
LeJEPA
JEPA의 전체 이론을 정리하고 있는데, 이상적인 JEPA 임베딩을 ‘등방성 가우시안’으로 정의합니다. 그리고 JEPA를 이 이상적인 형태로 수렴시키기 위해서 SIGReg라는 새로운 목적함수를 제안함으로써, 실제 환경에서 활용 가능한 LeJEPA를 구현합니다.JEPA-T
이미지와 캡션을 Joint Predictive Transformer로 함께 토크나이즈해서 처리하는 텍스트-투-이미지 모델입니다. 학습 과정 전에 교차 어텐션(Cross-Attention)과 텍스트 임베딩으로 융합을 강화하고, 이후 텍스트 조건을 기반으로 시각 토큰을 단계적으로 디노이징해서 이미지를 생성합니다.Text-JEPA
자연어 문장을 1차 논리 형태로 변환하고, 추론은 Z3 솔버가 담당합니다. 이렇게 해서 대형 LLM보다 훨씬 적은 연산량으로 효율적이고 설명 가능한 질의응답을 수행할 수 있습니다.N-JEPA (Noise-based JEPA)
자기지도학습을 디퓨전 모델의 노이즈 개념과 연결합니다. 노이즈 기반 마스킹과 여러 단계의 스케줄을 적용해서 학습하고, 특히 이미지 분류 성능을 크게 향상시킵니다.SparseJEPA
희소 표현 학습(Sparse Representation)을 적용해서 임베딩을 더 해석 가능하고 효율적으로 만들어 줍니다. 잠재 변수를 의미적으로 비슷한 그룹으로 묶기 위해서 희소성 페널티를 활용하면서도 정확도는 그대로 유지합니다.TS-JEPA (Time Series JEPA)
JEPA를 시계열 데이터에 맞게 확장한 모델입니다. 시계열의 잠재 표현을 자기지도 방식으로 학습한 뒤에, 미래의 잠재값을 예측함으로써 노이즈나 외생 요인에 더 강한 모델을 만듭니다.TD-JEPA (Temporal difference JEPA)
장기적인 잠재 다이나믹스를 TD 학습으로 모델링하는 비지도 강화학습 방식입니다. 인코더와 정책 기반 예측기를 함께 학습해서, 보상 신호를 보지 않고도 즉시 목표를 최적화하는 제로샷 성능을 보여줍니다.
5가지 전통적, 대표적인 JEPA 유형
I-JEPA (Image-based)
이미지의 일부를 가리고, 남은 부분만으로 가려진 영역의 잠재 표현을 예측합니다. Vision Transformer를 사용하고, 픽셀을 직접 재구성할 필요가 없습니다.V-JEPA (Video-based)
영상의 관측된 프레임을 활용해서 미래 프레임이나 누락된 프레임의 잠재 표현을 예측합니다. 부정 샘플(Contrastive Negative)이나 텍스트 감독(Text Supervision) 없이도 시간적 패턴을 효과적으로 학습합니다.MC-JEPA (Motion-Content)
하나의 인코더로 모션(옵티컬 플로우)과 이미지 콘텐츠 표현을 동시에 학습합니다. 플로우 예측 작업과 이미지 표현 학습(VICReg)을 하나의 모델 안에서 결합합니다.A-JEPA (Audio-based)
오디오 스펙트로그램에 JEPA 방식을 적용한 모델입니다. 스펙트로그램의 특정 시간-주파수 패치를 커리큘럼 방식으로 가린 뒤에, 남아 있는 부분으로 해당 패치의 잠재 특징을 예측합니다.TI-JEPA (Text-Image)
텍스트와 이미지 임베딩을 하나의 공유 잠재 공간에서 정렬시키고, 에너지 기반 예측 목표를 사용해서 두 모달리티를 일관되게 연결해 줍니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요
Reply