- Turing Post Korea
- Posts
- Topic #39: '액체 신경망 모델', 트랜스포머를 넘을 수 있을까? 최신의 LFM, Hyena Edge를 알아봅시다
Topic #39: '액체 신경망 모델', 트랜스포머를 넘을 수 있을까? 최신의 LFM, Hyena Edge를 알아봅시다
'큰 게 좋다'는 트랜스포머의 공식을 깨고, 실제 하드웨어에서 효율적으로 작동하게끔 최적화된, Liquid AI의 최신 아키텍처

글을 시작하며
지금 다양한 파운데이션 모델의 기반 아키텍처인 ‘트랜스포머’를 대체하겠다는 목표로, 또는 그와 무관하게라도 차세대의 AI 모델 아키텍처를 만들어보겠다는 기업, 스타트업들이 많죠. 바로 며칠 전 메타에서 오픈소스로 공개한 V-JEPA2도 그럼 움직임 중의 하나로 볼 수 있을 것 같구요:
트랜스포머와 차별화된 아키텍처를 만들겠다는 회사들 중 ‘Liquid AI’라는 보스턴 소재의 AI 스타트업이 있습니다. 2023년에 MIT 연구진이 나와서 설립한 회사로, ‘액체 신경망 (Liquid Neural Network, LNN)’이라는 이름의 아키텍처를 개발합니다.
이 회사의 핵심 제품인 LFM (Liquid Foundation Model)은 텍스트, 오디오, 이미지, 비디오 같은 다양한 순차 데이터를 적은 컴퓨팅 자원과 메모리만 가지고도 효율적으로 처리하고, 적응력도 높다고 알려져 있는데요. 더구나 실시간으로 데이터가 변화해도 유연하게 대응할 수 있고, 추론 단계에서도 계속해서 학습을 할 수 있어서, 기존 트랜스포머 기반의 AI 모델보다 나은 면이 있다고 평가를 받고 있기도 합니다.
Liquid AI가 최근 ‘Hyena Edge’라는 이름으로 최신 아키텍처 제품군을 공개했습니다.
제 생각에는, 이제부터는 이런 Liquid AI의 새로운 접근법과 아키텍처에 대해서 한 번 알아둘 때인 것 같습니다. 분명히 트랜스포머가 AI 발전을 지금까지 주도해 온 것이 사실이고, 앞으로도 그 흐름이 유지되기는 할 거라고 봅니다. 이 트랜스포머의 핵심에 바로 ‘어텐션 메커니즘’이 있죠. 어텐션 메커니즘은 모델의 서로 다른 부분을 연결해 주는 역할을 하면서, AI 분야 최근 몇 년간의 획기적 발전을 이끈 그 중심에 있었습니다.
하지만, 저희 튜링 포스트에서도 여러 차례 언급했다시피, ‘어텐션’은 확장성이 아무래도 떨어집니다. 시퀀스가 길어지면 모델은 느려지고, 메모리 사용량도 늘어나고, 따라서 연산 비용도 급격하게 증가하죠. 이런 특성 때문에, 아주 긴 텍스트, 음악 등 대규모의 데이터셋을 다루는 데는 제약이 생길 수 밖에 없습니다. 이 장벽을 넘어선다면, 아마 데이터 센터부터 스마트폰에 이르기까지 어떤 곳에서든 긴 시퀀스를 빠르게, 효율적으로 처리할 수 있는 모델을 만들 수 있을 겁니다.
만약, 어텐션 자체를 없애고, ‘시간의 흐름에 따라 변화하는 신호’처럼 시퀀스를 처리하게 설계된 시스템이 있다면 어떨까요? 어쩌면 더 안정적이고, 더 빠르고, 더 문맥을 잘 이해할 수 있는 시스템이 되지 않을까요?
이게 바로 Liquid AI의 연구팀이 목표로 하고 있는 겁니다.
오늘 에피소드에서는, Liquid AI의 첫 번째 LFM (Liquid Foundation Model)을 살펴볼까 합니다. 이 모델은 ‘어텐션’을 넘어서는 다이나믹한 기법으로 설계되어 있어서 연속적인 입력을 처리하는, 장문의 데이터를 다루는 새로운 가능성을 보여줍니다. 그리고, 어텐션을 ‘빠른 컨볼루션(Convolution)’과 ‘게이팅(Gating)’으로 대체한 실험적인 아키텍처 Hyena, 이걸 경량 디바이스에서도 잘 동작하게끔 최적화한 버전인 Hyena Edge도 간단히 살펴볼 예정입니다. Hyena Edge는 스마트폰처럼 작은 장치에서도 품질이나 문맥의 이해도를 낮추지 않고 작동하게 설계되었다고 해요.
Liquid AI의 역사, 그리고 그들이 어떻게 자기들만의 관점을 가지고 ‘지능이 있는 기계’를 만들고 있는지, 그리고 트랜스포머를 뛰어넘을 가능성이 어느 정도인지 함께 생각해 보겠습니다. 그리고 정말 그런 가능성이 있어 보인다면, 왜 아직 LFM이 널리 쓰이지 않고 있을지도 의견을 나눠 보겠습니다.
오늘 에피소드에서는, 아래와 같은 내용을 다룹니다:
모든 것의 시작: LNN (Liquid Neural Networks, 액체 신경망)
Liquid AI는, 2022년 MIT에서 진행된 연구, 그리고 이를 둘러싼 관련 학계의 협업으로부터 탄생한 스타트업입니다. Ramin Hasani, Mathias Lechner, Alexander Amini, Daniela Rus 이 네 명의 공동 창업자는, 기존의 접근 방식을 넘어선 새로운 세대의 파운데이션 모델을 처음부터 다시 설계하자는 취지에서 Liquid AI를 설립했습니다.

Liquid AI의 창업자들. 왼쪽부터 Mathias, Alexander, Daniela, Ramin. Image Credit: TFN
물론 그 근간이 된 연구는 MIT CSAIL에서 Ramin Hasan가 박사 과정 중에 이끌었던 연구팀에서부터 시작되었다고 합니다. 이 연구팀에서 2016년부터 2020년까지 LNN (Liquid Neural Networks)을 개발했는데, 이후에 Liquid AI의 공동 창업자로 조인한 연구자들, 그리고 다른 중요 인물들도 함께 하게 되었습니다.
LNN은 ‘사람의 두뇌가 정보를 처리하는 방식’에서 영감을 받았다고 하는데요, 단순히 모델 사이즈를 키우는 접근으로는 충분하지 않다는 주장과 함께 기존 AI의 한계를 뛰어넘으려고 했다고 해요. 그리고 ‘학습이 끝난 이후’에도 변화에 적응할 수 있는 시스템은 어떻게 만들어야 할까라는 주제에 집중했다고 합니다.
이런 과정을 통해서 탄생한 LNN은 몇 가지 측면에서 스스로의 가능성을 증명했는데요:
LNN은, 충분한 데이터가 주어진다면 어떤 패턴이든 모델링할 수 있는 Universal Approximator로 판명되었습니다.
영상, 오디오, 장문의 대화 등 ‘시간에 의존하는’ 시퀀스 데이터를 효율적으로 처리할 수 있었습니다.
모델의 판단 근거를 이해할 수 있을 만큼 해석 가능성(Interpretability)이 높았습니다.
인과관계(Causality)를 더 자연스럽게 처리해서, 기존 모델보다 원인과 결과 간의 연결을 잘 다뤘습니다.
이 연구는 이후에 신경 미분 방정식 (Neural Differential Equations), 그래프 신경망 (Graph Neural Networks), 실제 하드웨어에서 동작할 수 있게끔 AI 아키텍처를 확장(Scaling)하는 연구 등으로 이어졌습니다.
물론 2021~2022년 AI 업계는 다른 무엇보다도 트랜스포머의 스케일링에 열중하고 있었죠. 하지만, 모두 알고는 있습니다 - 트랜스포머는 너무 경직되어 있고, 메모리를 많이 사용하고, 유연하지 않다는 걸요.
Liquid AI 팀은 단순히 GPU를 더 많이 사서 쌓아올리는 방식이 아니라, 새롭게 설계된 원칙을 바탕에 두고 스케일에 상관없이 유연하고, 효율적이고, 강력한 모델을 만들겠다는 목표를 가지고 2022년 마침내 회사를 차리게 됩니다.
LFM (Liquid Foundation Model)이란 무엇인가?
사실, AI 모델 패밀리를 출시하는 일은 아주 어려운 일이죠 - 연구, 학습, 평가, 파인튜닝, 인프라 구축, 배포의 전 과정을 포함한, 아주 대규모의 작업이 필요합니다.
Liquid AI는 첫 번째 LFM (Liquid Foundation Model)을 출시할 때까지 약 2년의 시간을 들인 후 2024년 9월에 공개했습니다.
LFM은 기존의 파운데이션 모델 작동 방식을 근본적인 수준에서 다시 설계하는 걸 목표로 했습니다. 이 모델은, LNN, 신호 처리, 미분 방정식, 하드웨어 효율의 설계 등 다양한 요소에서 얻은 통찰과 그 결과를 결합해서 만들어진 결과물입니다. 트랜스포머 구조를 수정한 게 아니라 처음부터, 구조부터 다시 설계를 했습니다. 그리고 그 핵심은, ‘어텐션’ 메커니즘에 의존하지 않고 시퀀스를 효율적으로 모델링하는 방법을 찾아내는 것이었습니다. 현재 LFM은 1B, 3B, 40B, 그리고 가장 최근에 공개된 7B, 네 가지의 크기로 제공됩니다.
LFM의 내부에는 다음과 같은 구성요소들이 통합되어 있습니다:
멀리 떨어져 있는 패턴까지도 포착하는 ‘Long Convolution’
수천 개 스텝 동안 정보를 안정적으로 유지하는 Gating Function
연속적 상태공간 (State-Space) 동역학
이 구성요소들을 합쳐서 ‘Linear Input-Varying Systems’, LIVs라는 용어로 부르는데, 전통적인 셀프 어텐션 (Self-Attention) 대신 사용되거나, 또는 셀프 어텐션과 함께 여러 개의 층에 적용되기도 합니다. 이 구성요소를 활용해서 LFM이 텍스트, 오디오, 비디오, 센서 데이터, 다양한 시계열 데이터 등을 하나의 연속된 신호로 처리할 수 있고, 마치 액체가 그릇의 형태에 따라 모양을 바꾸듯이 실시간으로 적응형 연산을 할 수 있다고 합니다.
자, 그럼 이제 이런 워크플로우가 학습 과정에서 어떻게 작동하는지, 그리고 어떻게 해서 다양한 데이터 타입과 다양한 사이즈의 디바이스에서도 매끄럽게 잘 확장될 수 있는 건지 살펴보죠.
LFM이 특별한 이유는 뭔가?
공통의 구조와 구성요소를 포함하는 ‘모듈형 아키텍처’
LFM은 연산의 단위 (Computational Unit)를 계층의 깊이(Depth)를 기준으로 그룹화해서 구성합니다. 보통의 트랜스포머가 어텐션과 FFN에 있는 계층 하나씩을 연산해서 처리한다면, LFN은 여러 개의 계층을 묶어서 연산 단위로 삼는다는 걸로 이해하면 좋겠습니다.

각 그룹의 내부에서는 일부의 Weight를 재사용해서 불필요한 연산을 줄여 효율을 높이고, 그룹 간에는 Featurizer Interconnection이라는 걸 통해서 Feature가 흐를 수 있게 만들어어서 내부 연결성을 높입니다. 이런 방식으로 LFM 아키텍처는 모듈형 구조로 더 컴팩트하게 되고, 다양한 작업, 하드웨어 환경 등에 맞춰 쉽게 조정할 수 있다고 합니다.

Image Credit: Liquid Foundation Models 블로그
Built-in Featurization (내장형의 Feature 추출 기능)
LFM은 입력을 처리하기 전에 먼저 텍스트, 오디오, 비디오 등 어떤 형태의 입력이든 간에 ‘구조화된 Feature’를 추출합니다. 구조화된 Feature의 예시는 아래를 참조하시구요:

이 Feature들이 일종의 ‘제어 신호’로 작용해서 각각의 유닛이 어떻게 동작할지 조절을 합니다. 이 결과로, 바로 ‘모델 자체가 입력값의 성격에 따라 스스로 조정’됩니다 - 예를 들어서, 문단 단위의 텍스트냐, 시간 흐름이 있는 시계열 데이터냐에 따라서 처리 방식을 다르게 적용하게 됩니다.

이중 모드로 정보 혼합 (Dual-Mode Information Mixing)
각각의 LFM 유닛은, 두 가지 핵심적인 방식으로 정보를 처리합니다:
Token-mixing
문장 속의 단어들이나 토큰들을 개별적으로 다루는 게 아니라, 시퀀스 내 위치한 토큰 간의 관계를 다양하게 이해하도록 하는 - 어떤 관계에 있고 어떤 영향을 주고받는지 등 - 방법입니다.Channel-mixing
입력값이 모델에 들어갈 때는 그 자체만 들어가는게 아니라, 다양한 특성값 (Feature)로 변환해서 입력되죠. 예를 들어, 단어가 입력된다고 하면, 그 단어의 문법적 역할, 어조, 시제, 위치 인코딩, 의미 벡터 등 수많은 피처가 있을 텐데요. Channel-mixing은 이 Feature들 사이에서 어떤 조합이 더 중요한지, 어떤 의미를 갖는지를 이해하게끔 섞어주는 방식입니다.
이 두 가지의 혼합 방식이 함께 작동하면서, 시간, 구조, 의미 전반에 걸쳐서 계층적이면서도 맥락에 맞는 이해를 할 수 있게끔 하는 거고, 그 과정도 아주 효율적으로 진행됩니다.
그리고, 놓치지 말아야 할 LFM의 신박한 접근방식 중 하나가, 정보가 흐르는 과정에서 점점 메모리를 압축한다는 점입니다. 트랜스포머처럼, 토큰이 하나씩 추가될 때마다 메모리 사용량이 늘어나는 방식이 아니라는 거죠. 덕분에, LFM은 최대 100만 토큰까지도 메모리가 폭증하거나 속도가 떨어지는 일 없이 입력값을 처리할 수 있습니다. 메모리의 사용량은 최소한의 수준으로 유지하면서, 입력에서 중요한 부분을 더 잘 ‘기억’할 수 있습니다.
따라서, LFM의 경우 실행할 때 필요한 메모리 요구조건이 훨씬 적습니다. 예를 들어서, LFM-3B는 단 16GB의 메모리만 있으면 되지만, 메타의 비슷한 사이즈 모델은 48GB가 필요합니다. 그래서, LFM은 스마트폰처럼 메모리가 제한된 엣지 장치에서도 활용하기 적합합니다.

Image Credit: Liquid Foundation Models 블로그
한 번, Liquid AI의 Head of Post-Training으로 일하고 있는 Maxime Labonne에게 ‘LFM의 핵심적인 특징이 무엇이냐’고 직접 물어봤습니다:
“LFM의 가장 중요한 특징은 ‘메모리 효율성’과 ‘추론 속도’예요. 물론 이런 성능을 갖추면서도 모델의 품질은 유지하죠.
트랜스포머는 이미 수년 동안 사용되면서 아주 많이 최적화되어 있어요. 그래서 새로운 아키텍처들이 논문 상으로는 기본형의 트랜스포머보다 좋아 보일 수 있지만, FlashAttention 같은 최신 기술이 적용된 현대적인 트랜스포머와 비교하면 실제 성능에서 밀리는 경우가 꽤 많습니다.
그렇지만 우리 LFM은 실제 하드웨어에서 벤치마킹을 거쳤고, 이런 한계를 극복한 사례로 평가받고 있습니다. LFM은 더 빠르고 메모리를 효율적으로 사용하면서 추론(Reasoning)을 잘 수행할 수 있다는 점에서 의미가 있다고 할 수 있습니다.”
LFM의 성능과 장점
Liquid AI는 LFM 패밀리가 각각 모델 크기별로 최고 수준(SOTA)의 성능을 달성했다고 주장하고 있습니다:
LFM-1B
1B 파라미터급 모델 중에 다양한 언어 벤치마크에서 가장 높은 점수를 기록, 동일한 크기의 다른 모든 모델을 능가했습니다.LFM-3B
3B 모델 중 1위를 차지했을 뿐 아니라, 이전 세대의 7B~13B 모델 일부보다 더 나은 성능을 보여줬습니다. 또 마이크로소프트의 Phi-3.5 모델과 비슷한 성능을 내면서도 파라미터 수는 약 18% 더 적습니다. LFM-3B는 모바일이나 엣지 디바이스에 최적화된 모델로, 효율성 면에서도 강점을 보여줍니다.

Image Credit: Liquid Foundation Models 블로그
LFM-40B (MoE)
이 모델은 총 400억 개의 파라미터를 갖고 있지만, MoE(Mixture of Experts) 구조 덕분에 추론 시에는 그 중에 120억 개만 활성화됩니다. 이렇게 Sparsity를 활용해서 성능은 유지하면서도 처리량은 더 높이고 배포 비용은 낮출 수 있습니다. 예를 들어서, MMLU 학술 벤치마크(5-shot)에서 LFM-40B는 약 78.8점을 기록했는데, 이건 Meta의 Llama 3.1(70B) 같은 훨씬 더 큰 모델들과 맞먹거나 그 이상의 수치입니다. 결국, 단순히 모델 크기를 키우는 방식이 아니라, MoE와 LIV 유닛 같이 아키텍처 설계를 변경하는 방식으로도 그 이상의 성능을 낼 수 있다는 것을 보여줍니다.LFM-7B
이 모델은 다국어를 위한 최적화가 되어 있어서, 영어, 아랍어, 일본어로 ‘자연스럽게 사고하고 대화’하는 데 강점을 가집니다. 비즈니스 대화, 복잡한 지시 따르기, 실제 상황에 가까운 채팅에서 LFM-7B는 모든 7B~8B 모델을 앞서는 성능을 보여 줍니다. 그리고 스페인어, 프랑스어, 독일어, 중국어, 한국어 등 기타 다양한 언어도 높은 품질로 지원합니다.

Image Credit: Liquid Foundation Models 블로그
위에서 보여드린 벤치마크 결과들을 보면, Liquid AI의 주장이 헛된 것만은 아니네요 - 다시 말해서, 새로운 아키텍처적 아이디어만으로도 단순한 모델 크기 경쟁과는 다른 관점에서 도전자가 될 수 있다는 게 입증된 셈입니다.
LFM은 비교적 적은 파라미터 수로도 강력한 성능을 보여주며, ‘클수록 좋다’는 기존의 트랜스포머 중심적 사고방식에 도전장을 내밀고 있습니다.
정리를 한 번 해 보면, LFM이 제공하는 중요한 이점은 다음과 같습니다:
입력을 처리할 때, 연산 유닛 내부와 외부를 효율적으로 흘러다니면서 (Flow) 처리합니다.
메모리 사용량이 크게 증가하지 않아서, 긴 대화에서도 빠르고 안정적으로 작동합니다.
기존의 대형 모델에 비해서 응답 지연이 적고, 하드웨어 요구사항도 낮습니다.
NVIDIA GPU, 스마트폰의 Qualcomm 칩, Cerebras의 Wafer-Scale 엔진 등 어떤 환경에도 모델이 대응할 수 있습니다.
메모리, 연산 성능, 에너지 사용량에 맞춰서 아키텍처를 자동으로 최적화할 수 있습니다.
이렇게, LFM이 보여주는 높은 적응성(Adaptability)이 바로 ‘엔터프라이즈급 서버에서부터 모바일 디바이스까지 다양한 환경에서 LFM이 매력이 있는 이유’입니다.
왜 LFM이 광범위하게 사용되지 않을까?
그런데, 그런 좋은 LFM이 왜 널리 사용되지 않고 있는 걸까요? 거기에는 또 그럴 만한 이유들이 몇 가지 있습니다:
누가 뭐래도, 트랜스포머가 먼저 대중과 산업의 어마어마한 관심을 받았습니다. 현재 대부분의 라이브러리, 하드웨어, 데이터셋, 벤치마크, 파인튜닝 기법 등이 트랜스포머에 맞춰서 최적화돼 있기 때문에, 개발자 입장에서는 트랜스포머를 쓰는 게 훨씬 편리합니다.
혁신적인 기술의 채택은 언제나 혁신 그 자체보다 느리게 따라옵니다. 새로운 아키텍처가 실제 환경에서 자리잡고 사용되기까지는 보통 최소 몇 년이 걸립니다. LFM은 셀프 어텐션 대신 동역학 시스템(Dynamical Systems), 신호 처리(Signal Processing), 적응형 연산자(Adaptive Operators) 같은 전혀 다른 수학적 기반을 활용하기 때문에, 이걸 잘 다루려면 완전히 새로운 방식, 학습의 과정이 필요하겠죠. 생태계를 처음부터 구축하는 데는 시간이 걸릴 수 밖에 없습니다.
Liquid AI는 아직 LFM을 완전한 오픈소스로 공개하지 않았습니다. 현재 Liquid Playground, Lambda Labs, Perplexity Labs를 통해서 API로는 접근할 수 있지만, LLaMA나 Mistral처럼 모델을 자유롭게 다운로드해서 파인튜닝하는 건 불가능합니다.
세 번째 문제는 곧 해결될 거라고 합니다. 앞으로 몇 달 안에 Liquid AI가 최신 모델인 Hyena Edge를 포함해서 LFM을 오픈소스로 공개할 예정이라고 하니까요. 만약 그렇게 된다면, LLaMA가 공개되면서 나타난 파급력처럼, 또 한 번의 ‘Hyena Moment’를 볼 수 있을까요? ‘하이에나’라는 이름이 ‘라마를 먹어버리겠다, 집어삼켜버리겠다’는 의미로 만들어진 건 아닐까 생각도 해 보게 되네요.
자, 그럼 Hyena Edge는 어떤 것이고 뭐가 새롭고 특별한지 한 번 살펴보시죠.
Hyena Operator, Hyena Edge는 무엇인가?
Hyena Edge는 지난 4월 25일 공개된 Liquid AI의 최신 LFM입니다. 스마트폰, 노트북 등 경량 기기에서도 효율적으로 실행할 수 있는 모델이구요, 컨볼루션(Convolution) 기반의 멀티 하이브리드 아키텍처를 중심으로 만들어졌다고 합니다. 삼성 갤럭시 S24 Ultra 등 스마트폰에서도 직접 구동할 수 있을 만큼 가벼운 모델이고, 기존 트랜스포머++ 대비 최대 30% 이상 빠른 속도, 낮은 메모리 사용량, 높은 전력 효율성을 자랑합니다.
Hyena의 핵심에는 두 가지 중요한 구성 요소가 있는데요:
Long Convolutions: 입력 시퀀스 전체에 걸쳐서 정보를 혼합해 줍니다
Gating Mechanisms: 입력값에 따라 어떤 정보를 유지하고 버릴지를 결정합니다.
이 두 개의 구성요소를 활용하는 과정에 모델 전체에서 반복적으로 적용되어서, 긴 시퀀스에서도 복잡한 패턴과 관계를 효과적으로 포착할 수 있게 해 줍니다.
Hyena가 특별한 건, 그 메모리를 처리하는 방식, 그리고 패턴을 인식하는 방식입니다. Convolution 층은 입력 신호를 어떻게 혼합하고 유지할지를 결정하는 특수한 필터를 사용합니다. 그런데 이 필터는 고정된 것이 아니라, 작은 신경망이 학습을 통해서 다이나믹하게 생성하는 것이구요. 그 덕분에 모델은 작업에 따라 느리게 변화하는 트렌드, 급격한 전환, 미세한 신호 차이 등 다양한 패턴에 적응하면서 작동할 수 있게 되는 겁니다.
결과적으로, Hyena는 어텐션 레이어를 대체하면서도 긴 시퀀스를 효율적으로 처리할 수 있는 모델의 성능을 확보할 수 있게 되고, 특히 시퀀스 길이가 길어질수록 들어가는 시간과 메모리의 비용을 크게 줄일 수 있다는 장점이 있습니다.

Image Credit: Hyena Hierarchy: Towards Larger Convolutional Language Models
Hyena Edge는 ‘Convolutional Multi-Hybrid’ 모델로, 하나의 연산자(Operator)에만 의존하지 않고, Hyena 스타일의 구성요소, 그리고 트랜스포머의 요소를 포함한 여러 종류의 연산 방식을 조합했다는 뜻입니다. 이런 하이브리드 구조는 ‘의도적으로 설계’된 것인데, 각 계층이 가장 잘 작동하는 세팅에서 최적의 성능을 낼 수 있도록 해줍니다. 이렇게 해서, GPU 같은 최신 하드웨어를 최대한 활용하면서도, 효율성과 성능 사이에서 균형을 맞추는 것을 목표로 합니다.
Hyena Edge의 설계, 그리고 STAR의 역할
또 하나 흥미로운 점은, Hyena Edge가 Liquid AI의 아키텍처 설계 자동화 시스템인 STAR (Synthesis of Tailored Architectures)를 이용해서 설계됐다는 사실입니다.
STAR는 일종의 “신경망 설계용 스마트 건축가”라고 볼 수 있는데, 시간이 지나면서 모델의 구조를 진화시키는 역할을 한다고 합니다. 진화론에서의 ‘자연 선택’ 기제처럼, STAR는 어텐션, Convolution, Recurrence 같은 다양한 구성요소들을 조합해서 수백가지 아키텍처를 탐색합니다. 이 구성요소들은 전체적으로 LIVs (Linear Input-Varying Systems)라고 불립니다.
각각 모델의 설계는 숫자 형태의 “유전체(Genome)”로 인코딩되고, STAR는 성능이 뛰어난 모델을 선택해서 이들을 재조합하고 수정하면서 세대를 거듭해 설계를 발전시켜 나갑니다. 궁극적인 목표는 물론 속도, 메모리 효율성 같은 특정한 성능 목표를 충족하는 최적의 모델을 찾는 것이구요.

Image Credit: STAR: Synthesis of Tailored Architectures 오리지널 논문
Hyena Edge의 경우에는, STAR가 24세대에 걸친 진화를 통해서 속도, 메모리, 성능 간 균형이 가장 잘 맞는 구조를 찾아낸 거라고 해요. 이 구조는 엣지 디바이스에 배포하기에 최적화된 형태로 되어 있습니다.
STAR의 설계 과정에서는 세 가지 종류의 Hyena 변형 모델을 실험했습니다:
Hyena (full): 내부 연산과 Gating 메커니즘 모두에 Convolution을 사용하는 형태
Hyena-X: 내부 Convolution을 제외한 구조
Hyena-Y: Gating Feature Group에서 Convolution을 제거한 구조
이 중에서 Hyena-Y가 속도, 품질, 메모리 사용량 사이에서 가장 좋은 밸런스를 보여줬기 때문에, 최종적인 Hyena Edge 모델에서는 전체 어텐션 블락 중 3분의 2를 Hyena-Y Convolution으로 교체했다고 합니다.
Hyena Edge는 단순한 모델 이상의 의미가 있는데, 바로 STAR 시스템이 실제로 현실적인 배포가 가능한 모델을 설계할 수 있다는 것을 증명하는 사례이기 때문이죠.
Hyena Edge의 성능
하이브리드 방식의 설계 덕분에, Hyena Edge는 경량 모델 수준의 속도를 달성하면서도 훨씬 큰 모델에 가까운 지능을 보여주고 있습니다. 실제 삼성 S24 Ultra에서 테스트한 결과가 아래와 같습니다:
트랜스포머 기반의 상위 모델들보다 최대 30% 낮은 지연 시간을 기록했습니다. 특히 256 토큰 이상에서 Setup(Prefill)과 Reply(Decode) 단계 모두 더 빠르게 작동했습니다.
Wikitext, Lambada, Hellaswag, Winogrande, Piqa, Arc-easy, Arc-challenge 같은 다양한 벤치마크에서 GQA-Transformer++ 베이스라인 모델을 모두 능가했고, 더 낮은 Perplexity와 더 높은 정확도를 달성했습니다.
짧은 프롬프트는 물론, 긴 대화에서도 더 안정적이고 유연하게 대응했습니다.
어텐션의 이차적 메모리 사용 부담이 없고, 효율적인 Convolution 구조와 연산자 통합, 최적화된 실행 경로 덕분에 모든 시퀀스 길이에서 더 적은 메모리를 사용했습니다.
결론적으로, Hyena Edge가 엣지 환경에서도 실질적인 성능과 효율성 모두를 갖춘 모델임을 보여준다고 하겠습니다.

Image Credit: Hyena Edge blog post
Hybrid Edge와 트랜스포머의 스케일링 방식 차이에 대해서, Liquid AI의 Head of Post-Training인 Maxime Labonne는 이렇게 설명하고 있습니다:
“네, 분명히 아키텍처마다 스케일링 방식이 다릅니다. 저희가 발표한 MAD 논문에서는 Hyena 기반의 하이브리드 모델들이 트랜스포머보다 더 나은 스케일링 특성을 나타낸다는 점을 보여줬습니다. 동일한 연산 자원을 사용할 경우에 더 낮은 Perplexity를 보여주거나, 동일한 Perplexity를 더 낮은 연산 자원으로 구현할 수 있다는 결과를 보여주고 있으니까요.”
실제로 동일한 연산량을 투입할 경우에, 하이브리드 모델들이 트랜스포머보다 더 나은 성능을 내는 경향이 있습니다. 트랜스포머는 모델의 사이즈를 키우면 키울수록 성능이 좋아지는 반면에, 하이브리드 모델은 소형 모델을 더 오래, 더 많은 데이터로 학습할수록 더 큰 이점을 얻는 것으로 보입니다.
더불어, 하이브리드 모델은 더 적은 메모리로도 트랜스포머와 동등하거나 그 이상의 성능을 낼 수 있습니다. 이런 경향은 Hyena뿐만 아니라 Mamba 같은 다른 아키텍처에서도 일관되고 강한 상관관계를 보입니다.

Image Credit: “Mechanistic Design and Scaling of Hybrid Architectures” 오리지널 논문
한 가지 포인트 더. 트랜스포머가 주목받게 된 이유들 중 하나는, ICL (In-Context Learning)이나 다단계 추론 (Multi-Step Reasoning) 같은, 소위 ‘Emergent Behavior’가 모델의 사이즈가 커지면서 자연스럽게 나타난다는 점일 텐데요. 즉, 모델이 그런 능력을 명시적으로 학습하지 않았지만, 규모가 커질수록 자연스럽게, 갑작스럽게 생겨나는 현상이죠.
그렇다면, Hyena Edge에서도 이런 Emergent Behavior를 기대할 수 있을까요?
“우리는 Hyena Edge에서 Emergent Behavior를 기대하지는 않습니다. Hyena Edge의 핵심 목표는 트랜스포머보다 훨씬 효율적으로 하드웨어를 사용하면서도 동등한 품질, 또는 그 이상의 품질의 답변을 만들어내는 모델을 만드는 것입니다. 우리는 항상 최고의 성능을 목표로 합니다.”
Maxime이 이야기하듯이, Hyena Edge는 뭘 만들고 싶은지, 어떤 목표를 추구할 것인지 명확히 정하고 설계된 모델입니다. 이런 구체적이고 명료한 개발 방향성 자체가 Hyena Edge의 장점이라고 할 수도 있을 듯 합니다.
맺으며
Liquid AI의 LFM, 특히 최신의 LFM인 Hyena Edge는 모델의 아키텍처를 근본적으로 다시 생각했을 때 어떤 결과가 나올 수 있는지를 보여주는 훌륭한 실제 사례입니다. 단순히 모델 크기를 키우는 대신, 더 효율적이고, 더 유연하며, 실제 하드웨어 — 특히 엣지 디바이스 — 에서 잘 작동하는 모델을 만드는 데 집중한 결과라고 하겠습니다.
물론 Liquid AI의 여정은 아직은 초기 단계입니다. 생태계 전반이 트랜스포머 중심으로 구성돼 있고, 새로운 아키텍처가 자리를 잡기까지는 더 많은 시간이 필요합니다. 하지만 LFM은 트랜스포머 외에도 우리가 주목할 만한 다른 길도 있다는 걸 분명히 보여줍니다. 메모리나 연산의 부담이 훨씬 적어도 충분히 강력한 성능을 낼 수 있는 방향 말이죠.
Hyena Edge가 널리 채택될지는 아직 미지수지만, 단순한 스케일의 확장이 아닌, 더 똑똑하고 전략적인 설계로의 전환이라는 큰 흐름을, 적어도 그런 흐름에 대한 고민이 필요하고 가능하다는 점을 시사하고 있다고 하겠습니다.
Liquid AI가 이 모델들을 오픈소스로 공개하는 날이 기대됩니다.
보너스: 참고자료
Liquid Foundation Models: Our First Series of Generative AI Models (블로그 포스트)
From Liquid Neural Networks to Liquid Foundation Models (블로그 포스트)
Introducing LFM-7B: Setting New Standards for Efficient Language Models (블로그 포스트)
Hyena Hierarchy: Towards Larger Convolutional Language Models
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale (논문)
PyTorch implementation of the Hyena-Y model by Kye Gomez (깃헙)
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply