• Turing Post Korea
  • Posts
  • Topic #4: 얀 르쿤의 최애? 역작? JEPA (Joint Embedding Predictive Architecture)란 무엇인가?

Topic #4: 얀 르쿤의 최애? 역작? JEPA (Joint Embedding Predictive Architecture)란 무엇인가?

말하기 전에 '생각'할 줄 아는 AI로의 한 걸음, JEPA. 그리고 JEPA 기반 모델들

글을 시작하며

지금 AI 업계에서 가장 ‘잘 나간다’, ‘성능이 좋다’고 인식이 되고 있는 아키텍처라고 하면 아무래도 트랜스포머 (Transformer)라든가 자기회귀형 생성형 아키텍처 (Autoregressive Generative Architecture; LLM 같은 것들) 등이겠죠. 이전에 학습한 적이 없는 종류의 데이터에 대해서도 적응 (‘일반화’를 이렇게 표현했습니다) 한다거나, 모델이 확장하면서 성능이 갑자기 좋아진다거나 새로운 능력을 보여준다거나 하는 것까지 포함한다면, 말 그대로 깜짝 놀랄만하다고 해도 부족할 정도죠. 그렇지만 또 한 편으로는, ‘사람이나 동물은 수백만개의 데이터로 학습하지 않고서도 뭔가에 대해서 맞는 결론을 내리거나, 아니면 ‘말하기’, ‘독해하기’ 같은 새로운 스킬을 학습할 수 있는데…’ 하는 생각을 해 보면, 여전히 현재의 AI는 ‘학습’에 있어서 사람이나 동물에 비교해서는 꽤 큰 제약사항이 있다고도 볼 수 있을 겁니다. 다섯 살짜리 어린이 수준의 퍼즐을 까마귀도 풀 수 있고, 범고래는 무리를 지어서 잔인하지만 정교한 사냥을 하고, 코끼리도 어떤 일을 할 때 협동을 한다고 하니까요.

모라벡의 역설 (Moravec’s Paradox)이라는게 있습니다. 사람과 컴퓨터 간의 능력을 비교할 때, 복잡한 수학적 연산이나 대규모 데이터 처리 등 인간에게는 어려운 작업은 컴퓨터는 쉽게 처리할 수 있는 반면, 인간은 너무 자연스럽게 할 수 있는 지각이나 감각 처리는 기계가 잘 하기 어렵다는 겁니다. 이런 역설을 생각해 본다면, 어쩌면 단순하게 모델을 계속해서 키우고 더 많은 데이터를 사용해서 트레이닝하는 것이, 실제 유의미한 결과를 만들어 낼 해결책이 아닐 수도 있는 거죠. 꽤 많은 AI 연구자들이 “이런 접근 방식으로는 AI 모델이 새로운 수준의 추론을 하거나 ‘월드 모델’ - AI 에이전트가 주변 환경에 대해서 학습하고 이해하는데 사용하는 지각과 인식의 구조 - 을 구성하도록 해서, 지금과 ‘질적으로’ 다른 결과를 만들어낼 수는 없을 거다”라고 이야기합니다. 그렇다면, AI가 ‘인간 수준’의 지능에 도달할 수 있기를 원한다면, 무언가 다른 방법을 모색할 수 밖에 없습니다. 여기, 딥러닝의 3대 구루 중 한 명인 얀 르쿤은, 바로 ‘JEPA (Joint Embedding Predictive Architecture)가 그 첫걸음이라고 이야기합니다.

이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:

(참고) 얀 르쿤이 직접 이 글에 대해서 “JEPA에 대해 설명한 아주 훌륭한 글이다”라고 X (전 트위터)에 포스팅을 해 주었는데요. 같은 포스팅에서 “JEPA는 트랜스포머가 아니라 ‘자기회귀형 생성 모델 (Autoregressive Generative Model)’의 대안이다”라고 명확히 설명도 해 주었습니다. (밑의 글에서 보시면, JEPA는 트랜스포머 모듈을 사용합니다.)

자, 이제 본격적으로 시작해 볼까요?

뉴스레터 가입하시고 계속 읽으세요

This content is free, but you must be subscribed to Turing Post Korea to continue reading.

Already a subscriber?Sign In.Not now

Reply

or to participate.