Turing Post Korea
Posts
Topic #8: 이 친구, 쏴라있네! 오래된 친구의 새로운 변신, xLSTM

Topic #8: 이 친구, 쏴라있네! 오래된 친구의 새로운 변신, xLSTM

LSTM과 xLSTM에 대해서 알아봅시다 - 어떤 것이 나아졌을까요?

Ksenia Se & Ben Eum
August 16, 2024

*튜링 포스트 코리아가 공식적으로 런칭하기 전의 마지막 AI 101이 바로 이번 ‘xLSTM’ 관련 글입니다. 이번 글까지는 일반 구독자, 프리미엄 구독자분들 모두에게 동시에 공개되고, 다음 AI 101/201 시리즈부터는 프리미엄 구독자분들께서는 즉시 읽으실 수 있고, 일반 구독자분들께는 조금 기다리시면 - 일주일입니다 ^.^; - 전문을 읽으실 수 있습니다. 감사합니다!

TL:DR

지난 몇 년, LSTM이라는 오래된 도구가 신흥 강자 ‘트랜스포머’에게 밀려나는 듯했지만, 최근에 다시 ‘xLSTM이라는 강력한 업그레이드’로 돌아왔습니다.
이 xLSTM은 마치 오래된 스마트폰이 최신 기능을 탑재하고 재출시된 것처럼, 기존 LSTM의 장점은 그대로 유지하면서 지수 게이팅과 매트릭스 구조의 새로운 메모리 시스템으로 무장했습니다.
이제 AI 세계에서 트랜스포머와 xLSTM이 함께 서로 보완하면서 더 나은 미래를 만들어가지 않을까요?

글을 시작하며

챗GPT와 트랜스포머 기반의 거대언어모델이 엄청난 성공을 거두면서, 아마도 지난 몇 년간 AI 영역에서 - 특히 NLP 영역이겠죠 - RNN (Recurrent Neural Network; 순환신경망)을 비롯한 다른 딥러닝 분야의 연구 자원이 대부분 트랜스포머 기반의 모델 연구 쪽으로 이동했을 겁니다. 그 정도로 LLM의 성과와 상업적인 잠재력이 엄청나 보였다는 것이고, 결과적으로 연구의 우선순위, 언론의 보도나 시장 트렌드에 큰 변화가 있었다는 뜻이겠죠. 어쨌든 ‘상대적’으로 RNN, 컴퓨터 비전, 강화 학습 등 다른 분야에 대한 주목도가 줄어든 것은 확실하지 않나 싶습니다.

역설적으로 그렇기 때문에, 새롭게 나온, ‘확장된 LSTM (xLSTM)’을 소개하는 논문을 머신러닝 커뮤니티에서 더 반갑게 받아들였을 수 있겠습니다. 멀리 갔다가 오랜만에 돌아온 친구라고나 할까요?

딥러닝의 선구자 중 하나이자 LSTM 원저자 중 한 명이기도 한 셉 호크라이터 (Sepp Hochreiter)는 xLSTM이 시계열 예측 (Time-Series Prediction)에서 탁월한 성능을 발휘한다고 합니다. 흥분되지 않으세요? 시계열 예측이야말로 여러가지 이유로 정말 신의 영역이 아닌가 했는데 말이죠. 한 번, LSTM에 대해서 간단히 다시 되짚어보고, 새롭게 등장한 xLSTM은 어떤 친구인지 알아보죠!

이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:

LSTM, 쏴라있네! - 현재의 응용 사례들
LSTM 이야기
xLSTM의 등장: LSTM의 단점을 극복하다
맺으며: xLSTM, 시퀀스 모델링의 미래
보너스 자료

뉴스레터 가입하시고 계속 읽으세요

This content is free, but you must be subscribed to Turing Post Korea to continue reading.

Already a subscriber?Sign in.Not now

Reply

or to participate.