• Turing Post Korea
  • Posts
  • 12가지 유형의 JEPA 아키텍처

12가지 유형의 JEPA 아키텍처

JEPA (Joint Embedding Predictive Architecture)는 현재 Meta AI에 있는 얀 르쿤이 소개한 AI 모델의 구축 기법이죠.

얀 르쿤이, ‘생성형 모델은 궁극적인 AI의 모델이 아니다’라는 관점을 가지고 계신 건 많이 알고 계실 테고, 그런 관점에서 ‘다음 토큰이나 픽셀을 예측하는게 아니라, 입력값의 누락된 부분이나 입력값이 미래에 가지게 될 일부분의 표현 (Representation)을 예측’하는 접근으로 트랜스포머 기반 아키텍처와 차별화합니다.

궁극적으로는 단순한 저차원의 ‘패턴 매칭’을 넘어서 ‘개념적 이해’를 할 수 있는 모델을 만드는 것이 목표인 이 JEPA 아키텍처는 ‘추상적인 추론’을 할 수 있는 AI를 향해 나아가고 있습니다.

JEPA에 대해서 조금 더 궁금하신 분은 튜링 포스트의 이전 AI 101 에피소드를 한 번 참고하시기 바라구요:

오늘은, JEPA로부터 파생되어 나온 12가지 유형의 기법을 소개합니다:

  1. I-JEPA
    이미지 처리를 위해서 설계된 ‘비 생성형 (Non-generative)’ 자기지도학습 프레임웍입니다. 이미지의 일부분을 마스킹한 다음에 마스킹된 부분을 예측하는 방식으로 훈련합니다.

  2. MC-JEPA
    공유 인코더를 사용해서 비디오 데이터의 다이나믹한 요소(움직임)와 정적인 세부사항(내용)을 동시에 해석합니다.

  3. V-JEPA
    사전 훈련된 이미지 인코더나, 텍스트가 없이, 네거티브 샘플링이나 재구성을 하지 않고 미래의 영상 특징을 예측해서 훈련한 비전 모델을 제안합니다.

  4. UI-JEPA
    레이블이 없는 UI 시퀀스를 마스킹해서 추상적인 임베딩을 학습한 다음에, 의도를 예측하기 위해서 파인튜닝한 LLM 디코더를 추가합니다.

  5. Audio-based JEPA
    커리큘럼 방식으로 스펙트로그램의 패치를 마스킹하고, 이를 인코딩한 다음에 숨겨진 표현을 예측하도록 합니다.

  6. S-JEPA
    Signal-JEPA는 EEG 분석에 사용되는데, 공간적인 블록 마스킹 방식과 세 개의 경량 다운스트림 Classifier를 추가합니다.

  7. TI-JEPA
    TI (Text-Image) JEPA는 자기지도학습을 기반으로 한 Energy-Based 사전 훈련으로 텍스트와 이미지를 공유 임베딩 공간에 매핑하고, 다운스트림 작업으로의 Cross-Modal 트랜스퍼 성능을 개선합니다.

  8. T-JEPA
    구조화된 테이블형 데이터를 위한 기법으로, 테이블 특성의 한 부분집합을 마스킹하고 다른 부분집합에서 해당 잠재 표현을 예측해서, 풍부하고 레이블에 무관한 임베딩을 학습합니다.

  9. ACT-JEPA
    모방학습과 자기지도학습을 결합해서 전문적인 데이터를 헤비하게 갖추지 않고도 정책 임베딩을 학습합니다. 잠재 공간에서 청크 단위의 행동과 추상적 관찰을 예측하면서 노이즈를 필터링하고, 다이나믹스를 모델링하고, 누적되는 오류를 줄여 줍니다.

  10. Brain-JEPA
    인구통계학적 특성, 질병, 특징 등을 예측하기 위한 뇌 역학 Foundation 모델에 JEPA를 적용합니다.

  11. 3D-JEPA
    3D 표현을 학습하기 위한 JEPA입니다. 하나의 풍부한 Context 블록과 여러 Target 블록을 샘플링한 다음, Context에서 각 Target의 임베딩을 예측합니다.

  12. Point-JEPA
    포인트 클라우드에 Joint-Embedding Predictive Learning 기법을 도입합니다. 경량의 시퀀서가 패치 임베딩의 순서를 정렬합니다. 모델이 Context와 Target 패치를 선택할 수 있게 하고, 속도를 향상하기 위해서 거리 계산 (Distance Calculation) 결과를 재사용합니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.