Turing Post Korea
Posts
xLSTM 모델 10選

xLSTM 모델 10選

Ben Eum & Ksenia Se
November 16, 2024

현재 AI 기술 분야 전체를 통틀어서 가장 큰 주목을 받고 있는 모델이라고 하면, 단연 트랜스포머(Transformer) 구조겠죠. 최신 대형 AI 모델들의 근간이 되는 이 트랜스포머는 많은 연구자들의 관심을 한 몸에 받고 있습니다. 그렇지만, 트랜스포머가 잘 다루지 못하는 몇몇 특정 분야에서 트랜스포머보다 오히려 더 뛰어난 성능을 보이는 다른 AI 모델들이 있다는 것도 잊지 말아야 할 겁니다.

오늘은 그런 AI 모델들 중에서도 xLSTM (Extended Long Short-Term Memory) 모델에 대해 이야기해 보려고 합니다. xLSTM은 기존의 LSTM을 발전시킨 형태의 신경망으로, 텍스트나 시계열 데이터와 같은 순차적인 정보를 처리하고 예측하는 데 특히 장점을 보입니다.

xLSTM의 가장 큰 특징은 '메모리 셀'과 '게이트' 구조에 있습니다. 이 독특한 구조 덕분에 xLSTM은:

중요한 정보를 오랫동안 기억할 수 있고
불필요한 정보는 적절히 걸러낼 수 있으며
시간의 흐름에 따른 패턴을 효과적으로 학습할 수 있습니다

이런 장점들 덕분에 xLSTM은 여러 가지 애플리케이션에서 상당히 쓸모있는 모델로 여겨지고 있습니다:

스마트폰의 ‘텍스트 예측’ 기능
내비게이션 앱의 ‘교통량 예측’ 기능
음악 생성 및 추천 시스템

xLSTM은 아직 트랜스포머가 주도하는 AI Scene의 그림자 안에 있다고 봐야겠지만, 그래도 자신만의 고유한 가치를 꾸준히 입증하고 있는 AI 모델이라고 할 수 있습니다.

오늘은 특정한 작업을 잘 수행하도록 여러가지 방법으로 개선한 10가지 xLSTM 모델 소개할까 합니다:

가장 기본적인 xLSTM은 LSTM 신경망을 기반으로 해서 ‘메모리 셀’과 ‘게이팅’ 기술을 더해서 구축된 모델입니다. 이 모델은 대규모의 작업에서 트랜스포머의 성능과 비슷하거나 더 뛰어난 성능을 보여주는 것으로 알려져 있습니다. —> [더 보기]

튜링 포스트 코리아의 ‘Topic #8: 이 친구, 쏴라있네! 오래된 친구의 새로운 변신, xLSTM’ 편에서 LSTM의 기원과 원리, 그리고 xLSTM의 설계와 작동 방법에 대해 알아본 적이 있습니다.
Bio-xLSTM 모델은 생물학, 화학 분야에 더 쓸모가 있도록 튜닝한 모델로, DNA, 단백질 구조, 화학 데이터 등을 처리하는데 유용합니다. ICL (In-Context Learning)을 지원하는 이 모델을 활용하면 단백질 구조의 탐색, 분자 구조 연구 등을 수행할 수 있습니다. —> [더 보기]
LRAM (Large Recurrent Action Model)은 xLSTM을 기반으로 해서 실시간으로 트랜스포머보다 더 빠르게 작동하고 더 긴 시퀀스를 잘 처리하게끔 만든 모델인데, 이런 특성이 로보틱스 영역에 적합한 중요한 특성이라고 합니다. —> [더 보기]
xLSTM-Mixer는 Time Sequence 데이터를 비롯한 다양한 데이터를 결합해서 신뢰할 만한 예측 결과를 만들어냅니다. 복잡한 데이터 다이나믹을 다룰 수 있는 모델인 만큼, 장기적인 예측에서 특히 뛰어나다고 합니다. —> [더 보기]
AxLSTM (Audio xLSTM)은 레이블이 없는 데이터에서 마스킹된 스펙트로그램 패치로부터 오디오 특성을 학습하도록 설계되었는데, 유사한 트랜스포머 기반 모델들보다 최대 45% 적은 매개변수를 사용하면서도 최대 20% 더 나은 성능을 보여줍니다. —> [더 보기]
xLSTMTime은 장기적인 시계열 예측(LTSF) 작업을 염두에 두고 특별히 설계된 모델로, 그 성능은 이 분야에서 트랜스포머의 강력한 대안이 될 수 있을 정도라고 합니다. —> [더 보기]
ViL (Vision-LSTM)은 시각적 작업을 위해서 xLSTM을 개조한 모델입니다. 여러 개의 xLSTM 블록을 쌓아 위에서 아래로, 그리고 아래에서 위로 번갈아가면서 시각적 패치를 처리하는 ViL은, 컴퓨터 비전 영역에서 트랜스포머의 훌륭한 대안이 될 수 있습니다. —> [더 보기]
UVixLSTM은 CNN(합성곱 신경망)과 Vision-xLSTM 블록을 결합해서 이미지 패치의 ‘전역적 관계’와 ‘시간적 관계’를 모두 포착합니다. 이 모델은 의료 영상 세그먼테이션 등에 유용하게 활용할 수 있고, 컴퓨팅 자원이 적은 환경엣도 높은 세그먼테이션 정확도를 보여줍니다. Synapse 의료 영상 데이터셋에서 최고 수준의 모델보다도 더 좋은 성능을 보여준다고 합니다. —> [더 보기]
xLSTM-UNet은 다양한 생체의학 세그먼테이션 작업을 위한 또 다른 선택지입니다. 장거리 의존성을 포착하는 Vision-LSTM을 사용하는 UNet 스타일의 모델로, 최고 수준의 CNN, 트랜스포머, 맘바 모델들을 능가하는 ‘포괄적인 솔루션’의 역할을 해 줍니다. —> [더 보기]
Seg-LSTM 아키텍처는 이미지 세그먼테이션 작업에서 Vision-LSTM의 성능을 테스트하기 위한 주 목적으로 만들어졌는데, 따라서 모델의 어떤 영역이 향후 개선 대상인지를 제시해 줍니다. —> [더 보기]

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.