*튜링 포스트 코리아가 공식적으로 런칭하기 전의 마지막 AI 101이 바로 이번 ‘xLSTM’ 관련 글입니다. 이번 글까지는 일반 구독자, 프리미엄 구독자분들 모두에게 동시에 공개되고, 다음 AI 101/201 시리즈부터는 프리미엄 구독자분들께서는 즉시 읽으실 수 있고, 일반 구독자분들께는 조금 기다리시면 - 일주일입니다 ^.^; - 전문을 읽으실 수 있습니다. 감사합니다!

TL:DR

  • 지난 몇 년, LSTM이라는 오래된 도구가 신흥 강자 ‘트랜스포머’에게 밀려나는 듯했지만, 최근에 다시 ‘xLSTM이라는 강력한 업그레이드’로 돌아왔습니다.

  • 이 xLSTM은 마치 오래된 스마트폰이 최신 기능을 탑재하고 재출시된 것처럼, 기존 LSTM의 장점은 그대로 유지하면서 지수 게이팅과 매트릭스 구조의 새로운 메모리 시스템으로 무장했습니다.

  • 이제 AI 세계에서 트랜스포머와 xLSTM이 함께 서로 보완하면서 더 나은 미래를 만들어가지 않을까요?

글을 시작하며

챗GPT와 트랜스포머 기반의 거대언어모델이 엄청난 성공을 거두면서, 아마도 지난 몇 년간 AI 영역에서 - 특히 NLP 영역이겠죠 - RNN (Recurrent Neural Network; 순환신경망)을 비롯한 다른 딥러닝 분야의 연구 자원이 대부분 트랜스포머 기반의 모델 연구 쪽으로 이동했을 겁니다. 그 정도로 LLM의 성과와 상업적인 잠재력이 엄청나 보였다는 것이고, 결과적으로 연구의 우선순위, 언론의 보도나 시장 트렌드에 큰 변화가 있었다는 뜻이겠죠. 어쨌든 ‘상대적’으로 RNN, 컴퓨터 비전, 강화 학습 등 다른 분야에 대한 주목도가 줄어든 것은 확실하지 않나 싶습니다.

역설적으로 그렇기 때문에, 새롭게 나온, ‘확장된 LSTM (xLSTM)’을 소개하는 논문을 머신러닝 커뮤니티에서 더 반갑게 받아들였을 수 있겠습니다. 멀리 갔다가 오랜만에 돌아온 친구라고나 할까요?

딥러닝의 선구자 중 하나이자 LSTM 원저자 중 한 명이기도 한 셉 호크라이터 (Sepp Hochreiter)는 xLSTM이 시계열 예측 (Time-Series Prediction)에서 탁월한 성능을 발휘한다고 합니다. 흥분되지 않으세요? 시계열 예측이야말로 여러가지 이유로 정말 신의 영역이 아닌가 했는데 말이죠. 한 번, LSTM에 대해서 간단히 다시 되짚어보고, 새롭게 등장한 xLSTM은 어떤 친구인지 알아보죠!

이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:

LSTM, 쏴라있네! - 현재의 응용 사례들

현실을 냉정하게 바라본다면, 사실 LSTM은 여전히 살아있습니다 ㅎㅎ. 다소 사람들의 관심 밖으로 밀려났을지는 모르지만 여전히 많이 사용되고 있는데, 아래 예시와 같이 다양한 영역에서 LSTM이 훌륭하게 역할을 하고 있습니다:

  • 내비게이션 앱의 ‘교통량 예측’ 기능: 구글 지도나 웨이즈 (Waze) 같은 앱은 LSTM을 사용해서 교통 패턴을 예측합니다. 이런 모델은 과거의 교통량 데이터, 현재 상황, 날씨나 지역의 특별한 이벤트 같은 요소들까지 취합,분석해서 교통 혼잡을 예측하고 실시간으로 가장 빠른 경로를 제안해 줍니다.

  • ‘음악 추천 및 플레이리스트 작성’ 기능: 스포티파이 같은 음악 스트리밍 서비스는 LSTM으로 청취 기록을 분석하고 개인화된 재생 목록을 만듧니다. LSTM은 사용자가 즐겨 듣는 음악 종류의 패턴을 이해해서 사용자가 좋아할 만한 노래를 예측할 수 있고, 심지어는 시간 축을 기준으로 사용자 취향의 변화도 고려할 수 있습니다.

  • 스마트폰에서 쓰는 ‘텍스트 완성’ 기능: 스마트폰에서 메시지를 입력할 때 LSTM은 사용자가 작성하고 있는 텍스트의 맥락을 바탕으로 다음에 입력할 가능성이 높은 단어를 예측합니다.

LSTM 이야기

1990년대 초의 연구자들은 RNN에 열광했었습니다. 순차 데이터를 처리하게 만들어진 이 네트워크는 음성 인식이나 시계열 예측같은 작업에 유용했지만, 반면에 ‘경사 소실 (Vanishing Gradient; 순환 신경망의 역전파 과정에서 입력층으로 갈수록 기울기가 점점 작아지는 현상. 이 때문에 시계열 또는 순차 데이터의 장기 의존 관계를 학습하기가 어려워짐)’이라는 중대한 문제가 있었습니다.

‘경사 소실 (Vanishing Gradient; 기울기 소실)’ 문제가 무엇인가?

오늘 일어난 일을 기억하면서 동시에 며칠 전에 있었던 몇 가지 사건을 기억해 내려고 노력한다고 생각해 보세요 - 이게 RNN이 입력 데이터로부터 학습하는 과정에서 가중치 (Weight)를 업데이트하는 과정과 비슷합니다. RNN에서는 BPTT (Backpropagation through Time)를 활용해서 예측 오류값을 기반으로 계속해서 가중치를 조정하게 됩니다. 이 때, 오류 신호가 시계열의 여러 단계를 거쳐 역전파되기 때문에 그 과정에서 네트워크의 가중치가 거의 변하지 않을 정도로 작아질 수 있습니다. 이걸 ‘경사 소실’이라고 부르는데, 이건 네트워크가 장기 의존 관계를 학습하는데 어려움을 겪으면서 이전 시계열 단계의 중요한 정보를 잊어버리는 것을 뜻합니다. 인간에게는 큰 문제가 아닐 수도 있지만, RNN에게는 큰 문제예요.

독일의 두 연구자, 유르겐 슈미트후버 (Jürgen Schmidhuber)와 그의 박사과정 학생 셉 호크라이터(Sepp Hochreiter)가 이에 대한 해결책을 찾는 과정에서 1997년에 개발한 아키텍처가 바로 LSTM(Long Short-Term Memory)이라는, 일종의 개선된 RNN 아키텍처입니다. LSTM은 장기간에 걸쳐 정보를 유지할 수 있는, 즉 장기 의존 관계를 학습할 수 있는 메모리 셀로 설계되었습니다. 이 메모리 셀은 세 개의 게이트로 제어되는데:

  • 입력 게이트 (Input Gate)

  • 망각 게이트 (Forget Gate)

  • 출력 게이트 (Output Gate)

너무 구체적으로 살펴보고 이해하려고 하는 것보다는, ‘이 게이트들이 정보의 흐름을 조절해서 네트워크가 중요한 정보를 더 오래 보관하고 더 이상 필요하지 않은 정보는 잊어버릴 수 있도록 한다’고 생각하시면 될 것 같습니다.

이 두 사람이 한 연구내용에 대한 초기의 반응은 사실 미적지근했다고 합니다. 그렇지만, 유르겐 슈미트후버는 이에 대한 연구를 포기하지 않았고, 몇 명의 연구자도 계속 두 사람이 쌓아놓은 LSTM의 기초 위에 새로운 작업을 더해갔다고 해요. 그 결과 2000년에 펠릭스 거스 (Felix Gers), 유르겐 슈미트후버, 그리고 프레드 커민스 (Fred Cummins)가 게이트들이 셀 상태 (Cell State)에 직접 접근할 수 있는 ‘핍홀 연결 (Peephole Connection)’이라는 메커니즘을 도입했고, 이 결과 LSTM이 이벤트의 정확한 타이밍을 학습해서 성능을 향상시킬 수 있었습니다.

LSTM의 유명세와 성공

Bidirectional LSTM (BiLSTM) (2005): 알렉스 그레이브스 (Alex Graves)와 유르겐 슈미트후버가 2005년에 서로 반대 방향(전진 및 후진)으로 작동하는 두 개의 LSTM 레이어로 구성된 BiLSTM (양방향 LSTM)을 소개했습니다. 이 아키텍처는 과거와 미래의 컨텍스트를 모두 캡처해서 음성 인식, 기계 번역 같은 작업의 성능을 향상시킵니다.

2010년대 딥러닝이 떠오르면서 계속해서 혁신이 이어지는데, 바로 여러 개의 LSTM 레이어를 쌓아서 계층적인 특성을 학습할 수 있는 심층 LSTM 네트워크를 만들기 시작한 것입니다. 이렇게 LSTM이 더욱 강력해지면서 기계 번역에서 음성 인식에 이르기까지 다양한 어플리케이션에서 뛰어난 성능을 발휘하게 되었습니다.

2014년에는 일리야 수츠케버 (Ilya Sutskever; 얼마 전 오픈AI에서 나와 SSI를 설립했죠), 오리올 비니알스 (Oriol Vinyals), Quoc V. Le (이건 차마 발음이….^.^; doc2vec을 개발한 사람이죠)가 Seq2seq 모델을 통해서 기계 번역 작업에 LSTM이 널리 쓰이게 되는 계기를 만들었습니다. Seq2seq 모델은 시퀀스의 인코딩과 디코딩 모두에 LSTM을 사용해서 번역 품질을 크게 향상시켰습니다.

2015년에는 드미트리 바다나우 (Dzmitry Bahdanau), 조경현 교수 (뉴욕대 계시죠), 요슈아 벤지오 (Yoshua Bengio; 딥러닝 3대 구루 중 한 분으로 불리죠)가 바로 그 ‘어텐션 메커니즘 (Attention Mechanism)’을 소개했습니다 - 이 연구 덕분에 LSTM이 입력 시퀀스의 특정한 부분에 맥락에 맞게 집중을 해서, 번역이나 요약 등의 작업에서 성능이 한층 더 향상되었습니다.

딥러닝에서 ‘어텐션’은 모델의 전체 입력 시퀀스를 한꺼번에 처리하되, 신경망이 입력 데이터의 특정한 부분에 집중하도록 해 주는 메커니즘입니다. 쓸데없는 요소는 무시하고, 대신 특정한 요소에만 선택적으로 집중하는 인간의 능력을 모방했다고나 할까요?

어텐션은 그 구현 방식에 따라서 여러 가지가 있는데, 위에 언급한 세 사람이 쓴 논문의 어텐션은 ‘바다나우 어텐션’이라고 부릅니다.

자, 그리고 나서 2017년, 바스와니 (Vaswani) 등의 저자가 “Attention is All You Need.”라는 논문을 통해서 트랜스포머 모델을 소개한 이후로 많은 것이 바뀐 이후로 현재까지 쭈욱 - 어찌보면 - 트랜스포머의 전성시대가 계속되고 있는 거죠. 도대체 어떤 점 때문에 이런 엄청난 변화 - 어텐션 기반 메커니즘으로의 전환 - 가 일어난 걸까요?

LSTM의 한계, 그리고 트랜스포머 등장 이후의 명암

LSTM은 자연어 처리(NLP) 분야에서 높은 성능을 보이면서 다양한 성공사례를 만들어 냈습니다. 앞서 살펴본 것처럼, 이전의 RNN과 비교했을 때 장기 의존 관계 (Long-term Dependency)도 잘 잡아내고 경사 소실 (Vanishing Gradient) 문제도 해결하는 등 상당한 개선이 있었지만, 그럼에도 불구하고 LSTM이 가진 한계 때문에 점차 트랜스포머에 그 자리를 내주게 되었다고 합니다.

그 첫번째 한계는, 바로 LSTM이 병렬 처리 (Parallelization)가 어렵다는 겁니다. LSTM이 가진 ‘순차적’ 처리 특성 상 각 단계의 작업이 이전 단계에 의존할 수 밖에 없고, 따라서 병렬 처리를 지원하는 최신 하드웨어에서도 데이터를 효율적으로 처리할 수가 없는 거죠. 결국 트레이닝 시간이 길어지고 계산 비용이 높아지니, 속도와 효율성이 중요한 시대에 살아남기 힘들어질 수 밖에 없는 겁니다.

게다가 LSTM은 아주 아주 긴 시퀀스를 처리하는데는 문제가 있습니다. 긴 시퀀스에 걸쳐서 정보를 기억하도록 설계되긴 했지만, 역시 그 길이가 엄청나게 길어진다면 효율성은 떨어지게 되어 있습니다. 특히 긴 형식의 텍스트나 복잡한 시간적 패턴 등 광범위한 입력 데이터의 맥락을 이해해야 하는 작업에서는 문제가 되겠죠.

트랜스포머 아키텍처는 이런 한계를 해결해 주는 아키텍처고, 효율성, 확장성, 뛰어난 성능을 앞세워 이 분야의 사실상 표준으로 자리를 잡고 그 활용규모 면에서 LSTM을 훌쩍 뛰어넘게 된 겁니다.

xLSTM의 등장: LSTM의 단점을 극복하다

앞에서 ‘미적지근한 초기 반응에도 불구하고 유르겐 슈미트후버가 포기하지 않고 연구를 계속했다’고 했었는데요. “포기는 배추를 셀 때나 쓰는 것이다”가 LSTM 연구자들의 모토인가봅니다 ㅎㅎ. 슈미트후버의 박사 과정 학생이고 LSTM을 같이 연구했던 셉 호크라이터 린츠 공과대학 (LIT) AI 연구소 책임자이면서 IARAI (고등 인공지능 연구소)의 창립 이사가 되었고, LSTM에 대한 연구로 2021년 IEEE CIS ‘Neural Networks Pioneer Prize’ - 번역하면 ‘신경망 개척자상’ 정도 될까요? - 를 수상했습니다. 계속해서 연구를 한 셉은 바로 얼마 전인 2024년 5월, 오스트리아 린츠의 다른 8명의 연구자들과 함께 ‘Extended Long Short-Term Memory: xLSTM’을 발표했습니다.

이 연구자들은 스스로에게 “LSTM을 수십억 개의 파라미터로 확장하고, 최신 LLM 기술을 활용하면서도 LSTM의 한계를 회피할 수 있는 연구는 가능성이 없을까?”라는 질문을 던졌다고 합니다. 그리고 트랜스포머가 강력하긴 하지만 LSTM처럼 시퀀스 길이에 따른 선형적인 확장성은 부족하다고 주장했습니다.

xLSTM의 아키텍처

연구자들은 기존 LSTM의 구조를 바탕으로 해서 두 가지의 중요한 변화를 주었습니다:

  • 지수 게이팅 (Exponential Gating): 원래 LSTM에서 사용했던 시그모이드 게이팅 (Sigmoid Gating)은 게이트값이 0이나 1에 가까울 때 메모리를 효과적으로 업데이트하지 못합니다. xLSTM은 입력 게이트와 망각 게이트에 시그모이드 게이팅 대신 지수 게이팅을 사용해서 메모리를 미세하게 잘 업데이트할 수 있도록 합니다.

  • 새로운 메모리 구조: xLSTM은 두 가지 방식으로 메모리 구조를 개선합니다:

    • sLSTM (Scalar LSTM): 메모리 혼합 (Memory Mixing; 입력 게이트와 망각 게이트를 기반으로 필요없는 정보를 제거하고 새로운 정보를 넣는 것) 방식을 새롭게 개선해서, 더 정확하게 데이터를 저장하고 처리할 수 있도록 합니다.

    • mLSTM (Matrix LSTM): 메모리 셀을 매트릭스 구조로 변환해서, 네트워크의 병렬 연산 처리 능력을 향상시킴으로써 처리 속도를 크게 높여줍니다.

mLSTM의 매트릭스 구조는 메모리 용량을 확장할 수 있을 뿐만 아니라 정보 검색 및 저장의 효율성도 향상시켜 주기 때문에, 복잡한 데이터 구조나 장기 의존성이 큰 작업을 더 잘 처리할 수 있게 해줍니다.

이런 기능, 구조의 변화가 아래 그림과 같이 xLSTM 블록에 통합됩니다. xLSTM 블록은 Residual Block 구조로, 이 블록들을 계층적으로 번갈아가면서 쌓아서 최종적인 xLSTM 아키텍처를 구축합니다. sLSTM 블록은 트랜스포머와 유사한 Post Up-Projection 구조, mLSTM 블록은 상태 공간 모델 (SSM)과 유사한 Pre Up-Projection 구조입니다. 

Image Credit: The official paper

xLSTM 평가

연구자들이 평가한 것을 보면, xLSTM은 상당히 우수한 성능을 보여줍니다. 실제 시나리오에 초점을 맞춰 SlimPajama와 PALOMA 데이터셋으로 한 테스트가 있는데요. SlimPajama는 Perplexity (PPL; 모델 간의 성능 비교를 목적으로 하지 않고, 테스트 데이터에 대해서 모델 내에서 스스로의 성능을 수치화해서 결과를 빠르게 내놓는 방법. 점수가 낮을수록 좋음) 등과 같은 성능 지표에 초점을 맞춰서 xLSTM, RWKV, Llama 같은 모델을 비교할 수 있는 플랫폼을 제공하는데, 대규모 환경에서 모델 아키텍처 간 성능의 차이를 보여줍니다. PALOMA 데이터셋을 가지고는 인터넷 속어를 이해한다든가 복잡한 추론을 하는 것에 이르기까지 다양한 NLP 작업의 성능을 테스트할 수 있는데, 언어적인 다양성을 처리할 때 xLSTM 같은 모델이 어떻게 작동하는지 보여줬을 뿐 아니라 Perplexity도 낮아서 xLSTM이 다양한 언어를 관리하는데 장점이 있다는 걸 알 수 있습니다.

이런 테스트를 통해서 xLSTM이 실제 환경 시나리오에서 가지는 적응력과 잠재력을 확인할 수 있습니다.

모든 실험은 Python 1.3.11, PyTorch 2.2.0.2, NVIDA A100 GPU와 CUDA 12.1.3 기준으로 진행되었습니다.

다양한 영역의 응용 가능성

연구자들의 평가에 따르면, xLSTM은 최소한 트랜스포머나 SSM (상태 공간 모델; Mamba에 대한 튜링포스트 코리아 글 참조하시면 좋습니다) 등 최신 기술과 동등한 성능을 보인다고 합니다. xLSTM이 가진 확장성을 볼 때, 앞으로 주요한 언어 모델들과 효과적으로 경쟁할 만한 것으로 보이고, 강화 학습, 시계열 예측, 물리 시스템 모델링 등 다양한 분야에 영향을 미칠 잠재력이 있지 않나 생각됩니다.

맺으며: xLSTM, 시퀀스 모델링의 미래

xLSTM은 이전 모델의 한계를 해결하고 시퀀스 모델링의 새로운 표준을 제시하는, LSTM 아키텍처 발전도상의 중요한 이정표라고 할 수 있고, 시계열 데이터와 관련된 복잡한 문제를 처리할 수 있는 완전히 새로운 가능성을 보여줍니다.

xLSTM이 LSTM 아키텍처를 기반으로 상당한 혁신을 이루면서 수십억개 파라미터를 충분히 다룰 수 있는 확장성을 확보해서, 트랜스포머 같은 최신 모델과 경쟁할 수 있는 상태에 다다르긴 했지만, 그렇다고 xLSTM이 병렬 처리라든가 Attention 기반의 작업에 뛰어난 트랜스포머를 그대로 대체할 가능성은 낮아 보입니다. 대신 xLSTM의 메모리 효율성과 긴 시퀀스를 잘 다루는 장점을 기반으로 트랜스포머 계열의 모델을 보완하는 방향으로 이어질 수 있을 것 같습니다 - xLSTM이 세상의 패턴을 이해하고 예측하는 우리의 능력을 보완해주는 ‘AI 툴박스’에 있는 하나의 도구로 자리매김하길 바래봅니다.

보너스 자료

읽어볼 만한 글:

구현 관련:

관련 연구 논문:

프리미엄 구독을 해 주시면 튜링 포스트 코리아 제작에 큰 도움이 됩니다.

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

Avatar

or to participate

Keep Reading