- Turing Post Korea
- Posts
- Topic #4: 얀 르쿤의 최애? 역작? JEPA (Joint Embedding Predictive Architecture)란 무엇인가?
Topic #4: 얀 르쿤의 최애? 역작? JEPA (Joint Embedding Predictive Architecture)란 무엇인가?
말하기 전에 '생각'할 줄 아는 AI로의 한 걸음, JEPA. 그리고 JEPA 기반 모델들
글을 시작하며
지금 AI 업계에서 가장 ‘잘 나간다’, ‘성능이 좋다’고 인식이 되고 있는 아키텍처라고 하면 아무래도 트랜스포머 (Transformer)라든가 자기회귀형 생성형 아키텍처 (Autoregressive Generative Architecture; LLM 같은 것들) 등이겠죠. 이전에 학습한 적이 없는 종류의 데이터에 대해서도 적응 (‘일반화’를 이렇게 표현했습니다) 한다거나, 모델이 확장하면서 성능이 갑자기 좋아진다거나 새로운 능력을 보여준다거나 하는 것까지 포함한다면, 말 그대로 깜짝 놀랄만하다고 해도 부족할 정도죠. 그렇지만 또 한 편으로는, ‘사람이나 동물은 수백만개의 데이터로 학습하지 않고서도 뭔가에 대해서 맞는 결론을 내리거나, 아니면 ‘말하기’, ‘독해하기’ 같은 새로운 스킬을 학습할 수 있는데…’ 하는 생각을 해 보면, 여전히 현재의 AI는 ‘학습’에 있어서 사람이나 동물에 비교해서는 꽤 큰 제약사항이 있다고도 볼 수 있을 겁니다. 다섯 살짜리 어린이 수준의 퍼즐을 까마귀도 풀 수 있고, 범고래는 무리를 지어서 잔인하지만 정교한 사냥을 하고, 코끼리도 어떤 일을 할 때 협동을 한다고 하니까요.
모라벡의 역설 (Moravec’s Paradox)이라는게 있습니다. 사람과 컴퓨터 간의 능력을 비교할 때, 복잡한 수학적 연산이나 대규모 데이터 처리 등 인간에게는 어려운 작업은 컴퓨터는 쉽게 처리할 수 있는 반면, 인간은 너무 자연스럽게 할 수 있는 지각이나 감각 처리는 기계가 잘 하기 어렵다는 겁니다. 이런 역설을 생각해 본다면, 어쩌면 단순하게 모델을 계속해서 키우고 더 많은 데이터를 사용해서 트레이닝하는 것이, 실제 유의미한 결과를 만들어 낼 해결책이 아닐 수도 있는 거죠. 꽤 많은 AI 연구자들이 “이런 접근 방식으로는 AI 모델이 새로운 수준의 추론을 하거나 ‘월드 모델’ - AI 에이전트가 주변 환경에 대해서 학습하고 이해하는데 사용하는 지각과 인식의 구조 - 을 구성하도록 해서, 지금과 ‘질적으로’ 다른 결과를 만들어낼 수는 없을 거다”라고 이야기합니다. 그렇다면, AI가 ‘인간 수준’의 지능에 도달할 수 있기를 원한다면, 무언가 다른 방법을 모색할 수 밖에 없습니다. 여기, 딥러닝의 3대 구루 중 한 명인 얀 르쿤은, 바로 ‘JEPA (Joint Embedding Predictive Architecture)가 그 첫걸음이라고 이야기합니다.
이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:
(참고) 얀 르쿤이 직접 이 글에 대해서 “JEPA에 대해 설명한 아주 훌륭한 글이다”라고 X (전 트위터)에 포스팅을 해 주었는데요. 같은 포스팅에서 “JEPA는 트랜스포머가 아니라 ‘자기회귀형 생성 모델 (Autoregressive Generative Model)’의 대안이다”라고 명확히 설명도 해 주었습니다. (밑의 글에서 보시면, JEPA는 트랜스포머 모듈을 사용합니다.)
자, 이제 본격적으로 시작해 볼까요?
Reply