글을 시작하며

지금 AI 업계에서 가장 ‘잘 나간다’, ‘성능이 좋다’고 인식이 되고 있는 아키텍처라고 하면 아무래도 트랜스포머 (Transformer)라든가 자기회귀형 생성형 아키텍처 (Autoregressive Generative Architecture; LLM 같은 것들) 등이겠죠. 이전에 학습한 적이 없는 종류의 데이터에 대해서도 적응 (‘일반화’를 이렇게 표현했습니다) 한다거나, 모델이 확장하면서 성능이 갑자기 좋아진다거나 새로운 능력을 보여준다거나 하는 것까지 포함한다면, 말 그대로 깜짝 놀랄만하다고 해도 부족할 정도죠. 그렇지만 또 한 편으로는, ‘사람이나 동물은 수백만개의 데이터로 학습하지 않고서도 뭔가에 대해서 맞는 결론을 내리거나, 아니면 ‘말하기’, ‘독해하기’ 같은 새로운 스킬을 학습할 수 있는데…’ 하는 생각을 해 보면, 여전히 현재의 AI는 ‘학습’에 있어서 사람이나 동물에 비교해서는 꽤 큰 제약사항이 있다고도 볼 수 있을 겁니다. 다섯 살짜리 어린이 수준의 퍼즐을 까마귀도 풀 수 있고, 범고래는 무리를 지어서 잔인하지만 정교한 사냥을 하고, 코끼리도 어떤 일을 할 때 협동을 한다고 하니까요.

모라벡의 역설 (Moravec’s Paradox)이라는게 있습니다. 사람과 컴퓨터 간의 능력을 비교할 때, 복잡한 수학적 연산이나 대규모 데이터 처리 등 인간에게는 어려운 작업은 컴퓨터는 쉽게 처리할 수 있는 반면, 인간은 너무 자연스럽게 할 수 있는 지각이나 감각 처리는 기계가 잘 하기 어렵다는 겁니다. 이런 역설을 생각해 본다면, 어쩌면 단순하게 모델을 계속해서 키우고 더 많은 데이터를 사용해서 트레이닝하는 것이, 실제 유의미한 결과를 만들어 낼 해결책이 아닐 수도 있는 거죠. 꽤 많은 AI 연구자들이 “이런 접근 방식으로는 AI 모델이 새로운 수준의 추론을 하거나 ‘월드 모델’ - AI 에이전트가 주변 환경에 대해서 학습하고 이해하는데 사용하는 지각과 인식의 구조 - 을 구성하도록 해서, 지금과 ‘질적으로’ 다른 결과를 만들어낼 수는 없을 거다”라고 이야기합니다. 그렇다면, AI가 ‘인간 수준’의 지능에 도달할 수 있기를 원한다면, 무언가 다른 방법을 모색할 수 밖에 없습니다. 여기, 딥러닝의 3대 구루 중 한 명인 얀 르쿤은, 바로 ‘JEPA (Joint Embedding Predictive Architecture)가 그 첫걸음이라고 이야기합니다.

이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:

(참고) 얀 르쿤이 직접 이 글에 대해서 “JEPA에 대해 설명한 아주 훌륭한 글이다”라고 X (전 트위터)에 포스팅을 해 주었는데요. 같은 포스팅에서 “JEPA는 트랜스포머가 아니라 ‘자기회귀형 생성 모델 (Autoregressive Generative Model)’의 대안이다”라고 명확히 설명도 해 주었습니다. (밑의 글에서 보시면, JEPA는 트랜스포머 모듈을 사용합니다.)

자, 이제 본격적으로 시작해 볼까요?

얀 르쿤은 최신의 모델이 나와도 항상 냉철하게, 이성적으로 그 모델을 살펴보고, 어떤 한계점이 있는지 자신의 생각을 공유하는 연구자죠. 그리고, AGI (일반인공지능)에 대한 공포, AI가 사람을 대체해 버릴 거라는 류의 두려움이 얼마나 비합리적인지 대중에게 열심히 알리는 분입니다. 이런 얀 르쿤이, 2022년 2월 어떻게 AI가 사람 수준의 추론을 하도록 할 수 있는지에 대해서 자신의 비전을 제시했죠. 바로 JEPA (Joint Embedding Predictive Architecture)가 얀 르쿤의 이 비전에 핵심에 있는 기술입니다. 자, 심장이 두근두근하시죠? 한 번 JEPA가 뭔지 함께 알아보죠!

LLM은 어떤 한계점이 있는가?

얀 르쿤이 종종 언급하는 용어 중에 ‘목적 기반 AI (Objective-Driven AI)’라는게 있습니다. 이와 관련된 비전을 제시한 몇 차례 강연 - 2024년 3월 28일 강연, 2023년 9월 강연 등 - 에서, 얀 르쿤이 거대언어모델 (LLM)의 한계에 대해서 폭넓게 이야기를 했어요 - 주요 포인트는 아래와 같습니다:

  • LLM은 ‘상식’이라는 게 엄밀히는 없습니다: LLM은 텍스트로 표현되는 것 그 너머에 있는 근본적인 실재, 현실 (Reality)에 대한 지식은 아주 제한적으로만 갖고 있을 뿐 - 또는 갖고 있는 것처럼 보일 뿐 - 이고, ‘환각 (Hallucination)’이라고 부르는 이상한 실수들을 저지릅니다. 예를 들어서, ‘Dissociating Language and Thought in Large Language Models’라는 논문을 보면, LLM이 언어의 규칙이라든가 패턴 같은 ‘형식적’인 언어 능력은 뛰어나지만, 세상의 언어를 실제로 이해하고 사용하는 등의 ‘기능적’ 언어 능력은 불안정하다는 것을 보여줍니다.

  • LLM은 기억력이 없고 응답을 위한 계획을 할 수 없습니다: LLM의 계획 수립과 추론 능력을 평가하기 위한 벤치마크를 소개하는 PlanBench 논문을 보면, GPT-4 같은 SOTA 모델조차 계획을 생성한다든가 하는 중요한 능력이 상당히 부족합니다.

그렇다면, 어떤 방향의 해결책을 고민해 봐야 하나?

새로운 아이디어가 필요할 때는, 항상 그 뿌리로, 기초 학문과 그 원리로 돌아가서 고민해 보는 것이 도움이 됩니다. ‘지능적인 AI’를 만들겠다면, 인지 과학, 심리학, 신경 과학, 그리고 엔지니어링 등 여러 영역의 원칙과 기초를 한 번 되새겨봐야겠죠 - 사실 이게 1960년대에 AI라는 걸 만들었던 사람들이 택했던 전략입니다. 얀 르쿤도 2020년대에 같은 접근을 했었고 오늘날 우리가 향유하고 있는 엄청난 성공의 기초를 여러 연구자들과 함께 닦았습니다.

월드 모델 (World Models)

얀 르쿤이 생각하는 ‘AI에 대한 비전의 핵심’에는 ‘월드 모델’이라는 개념이 있습니다. 월드 모델이라는 건, 말 그대로 ‘세계가 움직이는, 작동하는 방식, 원리를 내부적으로 표현 (Representation)한 것’이라고 할 수 있겠습니다. 얀 르쿤은 AI 모델에게 ‘주변 세계의 맥락’ - 즉 월드 모델 - 을 부여할 수 있다면, 모델의 성능을 개선할 수 있다고 이야기합니다.

“인간, 동물, 그리고 지능형 시스템이 ‘월드 모델’을 사용한다는 생각은, 심리학이라든가 제어공학, 로봇공학 같은 분야에서는 이미 수십년 전부터 받아들여진 아이디어예요.”

얀 르쿤

자기지도 학습 (Self-supervised Learning)

또 하나의 중요한 관점은, 주변을 관찰하면서 세상에 대해서 학습하는 아기처럼, 자기지도 학습을 사용하는 겁니다. GPT, BERT, LLaMA 및 기타 파운데이션 모델은 모두 이 자기지도 학습 방법론을 기반으로 해서 우리가 머신러닝을 활용하는 방식을 바꿨습니다.

추상적 표현 (Abstract Representations)

자기지도 학습 방법을 사용하는 것과 별도로, 모델은 ‘센서’가 캡처해야 하는 것, 그렇지 않은 것이 어떤 건지 이해하고 있어야 합니다. 다시 말해서, 모델은 모델의 각 ‘상태’별로 적절한, 유효한 정보를 아주 명확히 대조할 수 있어야 한다는 말이죠. 예를 들면, 사람의 눈은 이런 작업을 기가 막히게 해 내죠 - 한 시점과 그 다음 시점에 보고 있는 대상의 모든 것을 똑같이 보는 것이 사실 아니고, 내게 필요한, 즉 적절하고 유의미한 정보의 차이를 아주 잘 잡아내잖아요? 언뜻 생각했을 때 ‘한계’ 아니냐 생각되는 것이 사실은 무언가의 ‘본질’ - 맥락에 대해서 적절하다는 측면에서 - 을 잡아낼 수 있도록 해 주는 겁니다.

1999년 ‘보이지 않는 고릴라 (Invisible Gorilla)’라는 이름의 연구는 소위 말하는 ‘무주의 맹시 (Inattentional Blindness)’라는 현상을 보여주는 가장 유명한 예시입니다 - 이건 사람이 자기가 보고 싶은 것에만 집중하느라고 정작 중요한 것은 놓치게 되는 현상을 뜻하는데요. 밑의 유튜브 비디오를 한 번 보면서 사람들이 공을 몇 번이나 주고받는지 한 번 세 보세요.

다 보셨나요? 혹시 중간에 고릴라가 지나가는 건 보셨나요?

이 ‘무주의 맹시’는 사람의 눈이 어떻게 작동하는지 보여주는 한 가지 예시일 뿐이고, 과학자들은 우리 눈도 스마트폰 카메라처럼 사물에 다시 초점을 맞추는데 일정 시간이 필요하다는 걸 보여줬습니다.

이 비유를 가지고, 얀 르쿤은 모델이 이미지의 ‘픽셀 하나하나’를 비교하는 게 아니라 이미지의 ‘추상적 표현 (Abstract Representation)*’을 사용해야 한다고 제안했습니다.

*'추상적 표현'은 복잡한 정보를 특정 작업 또는 분석을 하는데 더 적합하고 의미있도록 단순화하는 것을 말합니다. 이런 '표현'은 대상의 중요한 측면에 더 집중하고 덜 중요한 세부 사항은 무시하는 방법으로, 시스템 (그게 사람이든 기계든 간에)이 정보를 보다 '효율적'이고 '효과적'으로 처리할 수 있게 해 줍니다.

아키텍처 - 목적 기반 AI (Objective-Driven AI)

얀 르쿤은 자율 인공지능 (Autonomous Intelligence)를 위한 모듈화된 (Modular), 제어 가능한 (Configurable) 아키텍처를 제안하면서, 엄청난 양의 레이블 데이터 없이도 AI가 월드 모델을 학습할 수 있는 자기지도 학습 방법의 중요성을 강조합니다.

‘자율 인공지능’을 위한 시스템 아키텍처에는 구체적으로 어떤 역할을 하는 구성요소가 필요할까요?

  • 제어 (Configurator) 모듈: 특정한 작업이나 상황에 맞춰서 시스템의 다른 구성요소를 동적으로 구성하는, AI 시스템의 제어 센터 역할을 합니다. 인식 (Perception) 모듈, 월드 모델 (World Model) 모듈, 액터 (Actor) 모듈의 파라미터를 조정해서 주어진 작업에 맞게 성능을 최적화합니다.

  • 인식 (Perception) 모듈: 다양한 센서에서 감각 데이터를 수집, 해석해서 현재의 상태를 추정합니다. 이 모듈은 모든 상위 수준의 처리라든가 의사결정을 하는데 기초가 됩니다.

  • 월드 모델 (World Model) 모듈: 주변 환경의 미래 상태를 예측하고 누락된 정보를 채웁니다. 현재와 과거 데이터를 기반으로 미래의 상태와 가능한 시나리오를 예측하는 시뮬레이터 역할을 합니다. 이 모듈은 복잡하고 역동적인 환경을 탐색하는데 필수적인 가설적인 추론과 계획을 실행한다는 관점에서 AI의 핵심이라고 할 수 있습니다.

  • 비용 (Cost) 모듈:주어진 상태 또는 작업과 연관된, 사전에 정의된 ‘비용’의 관점에서 작업의 잠재적인 결과를 평가합니다. 여기에는 두 개의 하위 모듈이 있습니다:

    • 내재적 비용 (Intrinsic Cost): 즉각적인 불편함, 위험 등을 계산하도록 설정되어 있는 모듈

    • 비평자 (Critic): 훈련을 통해 변경이 가능하고, 현재의 행동을 기반으로 미래의 비용을 추정하는 모듈

  • 행위자 (Actor) 모듈:아키텍처의 다른 모듈이 제공하는 예측값이나 평가를 가지고 특정한 작업을 결정, 제안합니다. 최적 제어 이론 (Optimal Control Theory)과 비슷한 방법으로 예측 비용을 최소화하는 작업 순서를 만듭니다.

  • 단기 기억 (Short-term Memory) 모듈:시스템과 환경 간의 즉각적인 상호 작용 이력을 추적합니다. 전체적인 세계의 상태 (World State), 실행한 행위 및 관련된 비용에 대한 최근 데이터를 저장하여, 시스템이 실시간 의사 결정에 이 정보를 참조할 수 있도록 합니다.

JEPA는 무엇이고 어떻게 작동하는가?

JEPA (Joint Embedding Predictive Architecture)는, 사람이 하는 것처럼 세상을 이해하고 상호작용할 수 있는 AI를 개발하는데 있어서 아주 중요한 핵심입니다 - 말하자면, 위에서 설명한 여러 가지 모듈들, 즉 구성요소들을 집약해서 구현한 개념이라고 할 수 있을 것 같습니다. JEPA는 어떤 예측을 하기 위해 꼭 필요한 필수적인 정보들은 유지하면서도 관련없는 세부 정보들은 무시하고, 불확실성을 잘 처리할 수 있도록 해 줍니다.

JEPA는 이렇게 작동합니다:

  • 입력 (Inputs): JEPA는 서로 관련있는 입력 쌍을 받습니다. 예를 들어 비디오라면 순차 프레임 (x는 현재의 프레임, y는 다음 프레임이라든가)을 받는 거죠.

  • 인코더 (Encoders):xy 쌍의 입력을 받으면, 인코더는 입력값의 필수적인 특징만 포착을 하고, 관련이 없는 세부 사항은 생략해서 추상적 표현 (Abstract Representation; 각각 sxsy)로 변환합니다.

  • 예측 (Predictor) 모듈: 현재 프레임을 추상적으로 표현한 sx를 기반으로 다음 프레임의 추상적 표현 sy를 예측하도록 트레이닝됩니다.

말 그대로 인코딩한 ‘임베딩 (Embedding; 위에서는 ‘추상적 표현’이죠)’을 결합 (Joint)해서 예측 (Predictive) 모듈을 트레이닝하는 아키텍처 (Architecture)죠.

이렇게 입력을 변환하고 예측 모듈을 트레이닝하는 과정에 ‘불확실성 (Uncertainty)’이 있을 수밖에 없는데요. JEPA는 두 가지 방법으로 이 불확실성을 처리합니다:

  • 인코딩하는 단계에서, 인코더가 관련이 없는 정보를 삭제합니다. 예를 들어서, 입력 데이터의 어떤 Feature가 너무 불확실하거나 노이즈가 끼어 있다면, 이를 입력값의 추상적 표현 (Abstract Representation)에 포함하지 않습니다.

  • 인코딩을 한 후 잠재 변수 (Latent Variable; z)를 활용합니다. 잠재 변수 zsy에는 있지만 sx에서는 관찰할 수 없는 요소를 말합니다. z는 미리 정의된 값의 집합 내에서 여러가지 값을 가질 수 있는데요, 이 각각의 값은 x에서는 관찰할 수 없지만 미래의 상태 y에 나타날 수 있는 가설적인 시나리오나 상태를 나타냅니다. z값을 변경해 가면서, 보이지 않는 요소의 작은 변화가 이후의 상태에 어떤 영향을 미칠 수 있는지 예측 모델이 시뮬레이션할 수 있습니다.

재미있는 건, 여러 개의 JEPA를 다단계로 (multistep) 또는 반복 (recurrent)되도록 결합하거나, 계층적인 JEPA (Hierarchical JEPA)로 쌓아올려서 여러 단계의 추상화 수준, 여러 개의 타임 스케일에서 예측을 하도록 할 수도 있다는 겁니다.

JEPA를 활용해서 어떤 걸 만들 수 있나?

JEPA 아키텍처를 활용해서, 얀 르쿤과 메타 AI의 연구원들들이 몇 개의 특화된 모델에 대한 논문을 발표했는데요. 어떤 것들일까요?

I-JEPA : 이미지 처리를 위한 JEPA

2023년 6월 발표된 I-JEPA (Image-based JEPA)는 JEPA 아키텍처를 기반으로 한 최초의 모델입니다.

I-JEPA는 이미지 처리를 목적으로 설계된 ‘비 생성형 (Non-Generative)’, ‘자기지도 학습’ 프레임웍이고, 이미지의 일부분을 가리고 그 부분이 어떤 모습인지 예측하도록 훈련하는 방식입니다:

  • 마스킹 (Masking): 먼저, 이미지를 아주 많은 수의 패치로 분할하고, 이 패치 중 ‘타겟 블럭’이라고 부르는 일부 패치를 마스킹 - 가리는 거죠 - 해서 모델이 이 패치들에 대한 정보를 알 수 없게 해 놓습니다.

  • 컨텍스트 샘플링 (Context Sampling): 다시 이 이미지의 일부 - 이건 ‘컨텍스트 블럭’이라고 불러줍시다 - 는 마스킹하지 않고 내버려둡니다. 이 컨텍스트 블럭을 사용해서 컨텍스트 인코더가 이미지가 어떻게 시각적으로 구성돼 있는지 나름대로 이해할 수 있게 됩니다.

  • 예측 (Prediction): 자, 이제 예측 모델이 컨텍스트 블럭의 정보를 가지고 배운 내용을 가지고 마스킹된 부분 (타겟 블럭이라고 했죠)이 어떻게 생겼는지 예측을 해 봅니다.

  • 반복 (Iteration): 위의 작업을 반복해서 하면서 모델 파라미터를 계속 업데이트합니다. 이 과정에서 마스킹된 실제 패치 그림하고 예측한 패치 그림의 간극 (Gap)이 줄어들겠죠.

위 설명 보시고 짐작하신 분도 있으실 텐데, 구성 요소의 관점에서 I-JEPA는 세 부분으로 이루어져 있고, 이 각각이 모두 ‘비전 트랜스포머 (ViT; Vision Transformer)’입니다:

  • 컨텍스트 인코더 (Context Encoder): 위에서 ‘컨텍스트 블럭’이라고 한, 이미지의 가려놓지 않은 부분을 처리합니다.

  • 예측 모듈 (Predictor): 컨텍스트 인코더의 출력을 가지고 과연 이미지의 마스킹된, 가려진 부분이 어떻게 생긴 걸까 예측하고, 그 결과를 가지고 반복적으로 학습합니다.

  • 타겟 인코더 (Target Encoder): 마스킹된 타겟 블럭을 가지고, 모델이 학습하고 예측하는데 사용하는 ‘추상적 표현 (Abstract Representation; Embedding)’을 생성합니다. (표현이 좀 추상적이네요 ㅎㅎ)

I-JEPA는 궁극적으로는 마스킹된 이미지의 추상적 표현 (Representation)을 정확하게 예측하도록 예측 모듈 (Predictor)을 트레이닝하는 겁니다. 그 과정에서 마스킹되지 않은 부분을 활용하는 거구요. 이렇게 해서 명시적으로 표기된 레이블이 없이도 모델이 성공적으로 학습하게 하는 ‘자기지도 학습’이 되는 거죠.

MC-JEPA : 멀티태스킹을 할 수 있는 JEPA

MC-JEPA (Motion-Content JEPA)는 인코더 하나를 가지고 ‘동적’인 요소 (Motion; 움직임)과 ‘정적’인' 세부 정보 (내용; 컨텐츠)를 동시에 해석하게끔 설계된 또 하나의 JEPA 기반 모델입니다. MC-JEPA는 I-JEPA가 나온지 한 달만인 2023년 7월에 나왔습니다.

MC-JEPA는 자율 주행, 영상 감시 (Video Surveillance) 등 실제 어플리케이션에서 사용할 만한, 더 강력하고 안정적인 성능을 보여주는 모델입니다.

V-JEPA : 비디오 처리를 위한 JEPA

이미지 다음은 어쩌면 당연히 ‘동영상’이죠? V-JEPA (Video-JEPA)는 동영상 컨텐츠를 AI가 더 잘 이해할 수 있게 하는 JEPA 입니다.

V-JEPA에는 두 개의 주요 요소가 있습니다:

  • 인코더 (Encoder): 입력된 비디오 프레임을 고차원 공간에 변환해서 투사합니다. 인코더는 비디오에 있는 핵심적인, 필수적인 시각적 특징들을 포착합니다.

  • 예측자 (Predictor): 비디오에 있는 한 부분의 인코딩된 특징을 가지고 다른 부분의 특징을 예측합니다. 비디오 내의 시간적 및 공간적 변환을 학습한 결과에 따라 예측을 하는 거니까, 시간의 흐름에 따른 움직임과 변화를 이해할 수 있습니다.

V-JEPA는 시각적인 세계, 사물을 명시적으로 드러나는 ‘주석’같은 정보가 없어도 관찰을 통해서 학습하고 예측하는 사람처럼, 비슷한 방식으로 비디오를 학습할 수 있도록 설계한 겁니다. 이렇게 ‘비지도’ 방식으로 비디오를 학습한 다음 다양한 다운스트림 태스크로 연결할 수 있을 테니까, 다이나믹하게 변화하는 시각적 자료를 이해하고 처리하는 작업에 있어서 아주 강력한 도구라고 할 수 있겠죠.

JEPA의 확장 가능성

2024년 3월에 발표된 최신 논문, 'Learning and Leveraging World Models in Visual Representation Learning’에서는, ‘이미지 월드 모델 (IWM; Image World Models)’이라는 개념을 소개하면서 ‘마스킹’이 아니라 더 다양하고 광범위한 이미지 손상 (색상이 흔들린다든가, 흐린 부분이 있다든가 하는 것들이죠)에도 잘 대응할 수 있도록 JEPA 아키텍처를 ‘일반화’, ‘확장’할 수있는 방법을 탐색하고 있습니다.의 확장 가능성

이 연구에서는 ‘두 가지 유형의 월드 모델’을 살펴보는데요:

  • 불변 모델 (Invariant Models): 시나리오가 달라지더라도, 변하지 않고 안정적인, 즉 ‘불변의 특징’을 인식하고 유지하는 월드 모델입니다.

  • 등변량 모델 (Equivariant Models): 입력 데이터가 변할 때 따라오는 그 관계와 변환 내용을 보존하는 월드 모델입니다.

이 연구는 이런 월드 모델을 활용해서 AI가 시각적인 변화가 있을 때 더 잘 적응하고 더 정확하게 예측할 수 있다는 사실을 발견한 연구입니다. 이런 접근 방식은 기존의 AI에 대한 접근 방식과는 다르게, 직접적인 감독이나 지도가 없이도 머신러닝 모델의 효율성을 높일 수 있는 새로운 아이디어라고 할 수 있겠습니다.

보너스 자료

오리지날 모델

얀 르쿤 강연

JEPA에서 영감을 받은 모델

JEPA의 개념에서 영감을 받은 모델들도 많이 있어서, 손에 잡히는대로 한 번 정리해 봤습니다. 아래에 어플리케이션 영역별로 분류되어 있습니다:

오디오와 스피치 영역
비전 (Visual)과 공간 (Spatial) 데이터 영역
  • S-JEA: 스택형 조인트 임베딩 아키텍처에서 계층적 의미 표현을 통해 시각적 표현 학습을 향상시킵니다.

  • DMT-JEPA: 분류, 객체 감지 및 세그먼테이션에 적용할 수 있는 Local Semantic Understanding(로컬 의미 이해)에 중점을 둔 이미지 모델링을 목표로 합니다.

  • JEP-KD: 시각적 음성 인식 모델을 오디오 기능에 맞춰 조정하여 음성 인식 성능을 향상시킵니다.

  • Point-JEPA: JEPA를 포인트 클라우드 데이터에 적용, 공간 데이터셋의 효율성과 표현 학습을 향상시킵니다.

  • Signal-JEPA: EEG 신호 처리를 위해서 뇌파 분석 시의 Cross-Dataset Transfer 및 분류 성능을 개선합니다.

그래프와 동적인 데이터를 다루는 영역
  • Graph-JEPA: 서브그래프 표현을 위해 쌍곡선 좌표 예측을 사용하는 최초의 그래프용 JEPA입니다.

  • ST-JEMA: 높은 수준의 의미론적 표현에 초점을 맞춰, fMRI 데이터에서 동적 기능적 연결성을 더 잘 학습하도록 합니다.

시계열 데이터 및 원격 센싱 영역
  • LaT-PFN: 시계열 예측과 JEPA를 결합하여, 강력한 ICL (In-Context Learning)을 지원합니다.

  • Time-Series JEPA: 센서 데이터의 시공간적 상관관계를 통해 제한된 용량의 네트워크에서 원격 제어를 최적화합니다.

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

Avatar

or to participate

Keep Reading