- Turing Post Korea
- Posts
- 10가지 JEPA 모델
10가지 JEPA 모델

튜링 포스트 코리아의 FOD를 통해서도 말씀드렸지만, 금주에 메타에서 최신 모델 V-JEPA 2를 발표했죠. JEPA(Joint Embedding Predictive Architecture)는 말 그대로 인코딩한 ‘임베딩 (Embedding; ‘추상적 표현’이죠)’을 결합 (Joint)해서 예측 (Predictive) 모듈을 트레이닝하는 아키텍처 (Architecture)입니다.
V-JEPA 2의 발표를 계기삼아서, 다른 흥미로운 JEPA 계열 모델들을 한 번 살펴봤습니다:
V-JEPA 2
100만 시간 이상 분량의 인터넷 동영상, 그리고 소량의 로봇 상호작용 데이터를 가지고 학습한 모델로, 로봇이 영상을 보고, 이해하고, 질문에 답하고, 물리적 세계에서 계획하고 행동하도록 도와줍니다.Time-Series-JEPA (TS-JEPA)
이 모델은 시간적인 시퀀스를 예측하는 모델로, 압축적이고 의미있는 Representation(표현)을 학습합니다. 자기지도 방식의 Semantic Actor가 이 표현(Representation)을 활용해서, 원시(Raw) 데이터를 직접 사용하지 않고도 로봇의 행동을 위한 제어 명령을 생성합니다.Denoising JEPA (D-JEPA)
JEPA를 Diffusion 기법과 결합한 모델로, 자기회귀 방식(Auto-regressively)으로 데이터를 생성하고, Diffusion Loss와 Flow-Matching Loss를 함께 사용해서 더 정밀하고 안정적인 복원이 가능하도록 합니다.CNN-JEPA
이 자기지도 학습(SSL) 기법은 Sparse Encoder, Depthwise Separable Convolution, 개선된 마스킹 기법을 활용해서 JEPA의 아이디어를 CNN에 적용합니다. ImageNet-100에서 CNN-JEPA는 73.3% 정확도로 I-JEPA보다 더 높은 성능을 보였습니다.DMT-JEPA (Discriminative Masked Targets JEPA)
의미적으로 유사한 인접 패치들로부터 Masked Target을 생성하고, 이를 가벼운 Cross-Attention 구조로 집계(Aggregation)해서 분류나 판별 작업에서 더 정밀한 성능을 낼 수 있도록 해 줍니다.seq-JEPA
시점(View) 시퀀스와 변환(Transformations)으로부터 불변(Invariant) 및 공변(Equivariant) 표현을 학습하고, 트랜스포머를 사용해서 미래 상태를 예측하는 월드 모델 프레임워크입니다. 시퀀스 기반 작업에서 뛰어난 성능을 보입니다.AD-L-JEPA
명시적으로 공간이나 이미지를 생성한다거나, 사람이 직접 수동적인 입출력 쌍을 생성해 주지 않고도, Bird’s Eye View(BEV) 임베딩을 통해서 공간적인 세계 모델을 학습합니다. 학습 과정이 상대적으로 단순하면서도 임베딩의 품질을 향상시킬 수 있고, LiDAR 기반 3D 객체 탐지 및 전이 학습(Transfer Learning) 등에서 뛰어난 성능을 보입니다.SAR-JEPA
국소적으로 마스킹한 패치들로부터, 멀티 스케일의 Synthetic Aperture Radar(SAR; 위성이나 드론에서 땅을 관측할 때 사용하는 고해상도 레이더) 그래디언트 특징을 예측합니다. SAR-JEPA는 작은 목표물과 스페클 노이즈(Speckle Noise)를 처리하고, 도메인에 특화된 특징들을 통합해서 자기지도학습(SSL) 신호를 향상시켜 줍니다.HEP-JEPA
고에너지 충돌기(High-Energy Collider)의 작업을 위한 트랜스포머 기반의 파운데이션 모델입니다. JetClass 데이터셋의 1억 개 제트(Jet)를 사용해서, 일부 맥락으로부터 보이지 않는 제트 구성 요소들의 임베딩을 예측합니다.ECG-JEPA
ECG 기반의 심장 부정맥 진단 작업에서 뛰어난 성능을 내도록 설계한, 자기지도 학습 방식의 ECG 표현 학습용 JEPA 모델입니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply