Turing Post Korea
Posts
🌁FOD#103: 놓치지 마세요 - 1년 후에 다시 찾아보게 될 논문, 구글의 'ATLAS'

🌁FOD#103: 놓치지 마세요 - 1년 후에 다시 찾아보게 될 논문, 구글의 'ATLAS'

'AI의 기억'의 한계를 극복하기 위한 구글의 메모리 아키텍처 'ATLAS' + 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
June 12, 2025

AI 모델과 관련 인프라스트럭쳐, 그리고 AI 기반의 어플리케이션의 Landscape는 계속해서 빠르게 변화하고 있습니다 - 정말 정신이 없을 정도죠.

거의 격주마다, ‘우리가 차세대의 트랜스포머 킬러 (Transformer-Killer)다’라고 주장하는 새로운 모델, 아니면 ‘대형의 모델들도 어려워하는 Long-Context 문제를 우리는 이러이러하게 해결한다’고 약속하는, 새롭고 더 효율적인 아키텍처에 대한 소식이 계속 들려옵니다.

이런 것들 대부분은 물론 소리없이 사라지기도 하지만, 가끔은 ‘단순한 개선’을 넘어선 ‘근본적인 변화’를 만들어낼 걸로 보이는 그런 연구 논문들이 나타나기도 합니다.

지난 5월 29일 arXiv에 조용히 올라온, 그리고 마이크로소프트 Build, 구글 I/O 등의 거대한 행사에 묻힌, huggingface/papers에서 추천 수가 겨우 18개에 불과한 논문, 바로 구글 리서치에서 쓴 "Atlas: Learning to Optimally Memorize the Context at Test Time"이 바로 그런 연구 논문 중 하나일지도 모르겠습니다. 사실, 구글의 연구가 처음에는 주목받지 못하고 간과되는 건, 이번이 처음은 아니죠.

모두 아시다시피, ‘트랜스포머’ 아키텍처는 엄청난 성과를 보여주는 놀라운 아키텍처지만, 기본적으로 ‘모든 토큰 쌍 (Token Pair)을 살펴보는 어텐션 메커니즘의 속성 때문에, 그 훈련 비용이 사이즈와 함께 기하급수적으로 증가합니다. 물론, RetNet, RWKV, Mamba, 심지어 구글이 자체적으로 만든 Titans 같은 많은 대안들이 상태공간 기법 등의 다양한 방법으로 이 문제를 해결하고자 시도하고 있습니다. 이런 대안들은 더 빠르게 더 적은 비용으로 처리를 하게 해 주기는 하지만, ‘정말 긴 시퀀스에서 정보를 진정으로 이해하고 기억하는데 있어서는 여전히 많은 모델들이 벽에 부딪히고’ 있는 것도 사실입니다.

그렇다면, ‘Atlas 논문’이 제안하는 건 뭘까요?

살짝 기술적으로 이해를 해 보자면, 제가 보기에는, 핵심적인 아이디어는 모델의 메모리를 단순히 정보를 집어넣는 수동적 저장소로 보기보다는 특히 추론 과정에서 능동적으로 최적화를 실행하는 구성 요소로 보고 다루는 겁니다. 다시 말해서, ‘메모리가 마지막에 본 토큰에만 반응하는게 아니라, 메모리가 최근 토큰들의 윈도우를 되돌아보면서 뭐가 중요한지, 어떻게 보관할지를 스스로 지능적으로 결정하는 방법’을 제안하고 있어요.

Image Credit: “Atlas: Learning to Optimally Memorize the Context at Test Time” 논문

여기서 ‘오메가 규칙’이라는 게 등장합니다. 오메가 규칙이 뭘까요?

대부분의 순환 신경망 모델은 ‘현재의 입력’을 바탕으로 해서 메모리를 업데이트하는데, 오메가 규칙은, “잠깐만, 최근 'c'개의 토큰들(예를 들어 최근 50개)을 살펴보고 이것들을 모두 함께 활용해서 메모리 상태를 최적화하자"고 하는 겁니다. 이렇게 해서, 모델이 단순히 ‘고립된 사실들’이 아닌 ‘맥락’을 기억하는 법을 배울 수 있다는 겁니다 - 즉, 마지막에 일어난 독립적인 일 뿐 아니라 최근의 더 넓은 경험을 바탕으로 이해를 업데이트하는 개념이죠.

논문을 보면, 이런 접근법이 특히 BABILong 같이 ‘아주 긴 문서에 흩어져 있는 사실을 바탕으로 언어 모델이 얼마나 장기 추론이나 정보 검색을 잘 하는지 평가하는 테스트’에서 실제로 좋은 성과를 보여주는데, 무려 1천만 토큰까지 이어지는 시퀀스에서 강력한 성능을 보여준다고 해요.

Image Credit: “Atlas: Learning to Optimally Memorize the Context at Test Time” 논문

그런데, Atlas가 이런 하나의 핵심 아이디어로만 구성된 건 아닙니다 - 여러 개의 보완적인 도구 셋을 소개하고 있어요:

메모리 용량의 향상

Atlas는 키(Key)와 쿼리(Query)에 다항식 및 지수 특성 매핑을 적용해서, ‘운용할 수 있는’ 메모리의 용량을 증가시킵니다. 말이 좀 어려운데, 실제 메모리 저장소는 원래 크기 그대로 유지하면서, 정보를 찾고 비교할 때만 키와 쿼리를 더 복잡한 형태(다항식, 지수 등)로 임시 변환합니다. 마치 서랍장 개수는 그대로 두고 물건을 찾을 때만 더 정교한 인덱스 시스템을 사용하는 것처럼, 핵심적인 모델의 파라미터를 늘리지 않고도 더 많은 패턴을 구별하고 기억할 수 있게 만들어 줍니다.

이 접근법은 PolySketchFormer와 Hopfield 네트워크 확장을 포함한 이전 여러 가지 연구의 아이디어를 기반으로 만들어졌다고 하구요.
더 효과적인 메모리의 조정

메모리를 업데이트할 때, 기본적인 경사하강법을 사용하는 대신, Atlas는 2차 정보를 활용하는 Muon 최적화기를 통합합니다. 이것도 조금 풀어서 말씀드리자면, 기본적 경사하강법으로 단순히 새 정보를 더하거나 평균내는게 아니라, Muon이라는 고급 최적화기를 사용해서 "어떻게 하면 이 메모리가 가장 유용하게 쓰일까?"라는 최적화 문제를 실시간으로 푸는 겁니다 - 마치 산을 오를 때, ‘발 밑의 기울기’만 보는게 아니라 ‘주변 지형의 곡률’까지 파악하면 더 나은 최적 경로를 찾을 수 있는, 즉 1차 정보(기울기)와 2차 정보(곡률)를 모두 활용해서 메모리가 더 안정적이고 효과적으로 중요한 맥락을 기억하도록 해 주는 기법입니다.

이 기법을 사용하면, 메모리 모듈을 더 효과적으로 업데이트해서 일반적인 최적화에 따르는 함정을 피하는 데 도움이 됩니다. 이 아이디어는 훈련 중에 더 고급의 최적화기를 사용하는 것과 비슷하지만, 여기서는 ‘추론 과정에서의 메모리 메커니즘’에 적용하는 거죠.
트랜스포머 아키텍처의 재검토

더불어, 이 논문에서는 ‘고정된 어텐션’을 ‘오메가 규칙으로 관리하는 학습 가능한 메모리 모듈’로 대체해서 트랜스포머 아키텍처를 확장한 DeepTransformers와 DoT(Deep Omega Transformers)를 제안합니다. 이런 새로운 모델들을 오히려 ‘오리지널 트랜스포머의 일반화된 형태’로 바라본다면, 가장 기본적인 어텐션은 더 넓은 메모리 구성 방식의 한 가지 경우라고 해석할 수도 있을 겁니다.

이 논문은 상당히 ‘밀도가 높은’ 논문입니다. 연관 메모리 (Associative Memory) 이론, 최적화, 아키텍처 설계 등 다양한 영역에서 여러 가지의 새로운 실마리를 잘 엮어낸, 일종의 ‘작품’이라고 생가합니다. 전통적인 RNN 아키텍처의 ‘온라인 업데이트’ 특성, 즉 토큰이 하나씩 들어올 때마다 미리 정해진 규칙으로 순차적으로 메모리를 업데이트하는 방식에 의문을 제기해 왔던 여러 가지 연구의 계보를 따르고 있기도 합니다 - 즉, 나중에 들어온 맥락이 이전 정보의 중요도를 바꿀 수 있음에도 불구하고, 이미 업데이트된 메모리를 되돌아 재조정할 수 없다는 근본적인 한계에 도전한다는 것이죠.

‘온라인’ 방식과 ‘Atlas’ 방식의 차이

Atlas를 비롯한 최근의 연구들은, 이렇게 ‘순서대로 차례차례 처리’하는 기법을 포기하고, 대신 일정한 범위의 토큰들을 함께 보면서 "어떻게 기억하는 게 가장 유용할까?"라는 최적화 문제로 메모리 업데이트를 재정의하고 있는데, 이건 일기를 시간순으로 나열하는 것에서 하루를 돌아보며 핵심 순간들 중심으로 정리하는 것으로 패러다임이 바뀐 것과 같다고 볼 수 있습니다. Titans (역시 구글에서 나온), TTT (Test-Time Training) 같은 논문들도, 다이나믹하게 추론 시점에서 적응한다는 비슷한 주제를 탐구한 바 있구요.

물론, Atlas가 최종적인 답이 아닐 확률이 크죠. 진짜 시험대는, 이런 아이디어들이 얼마나 잘 스케일링되는지, 다른 사람들이 얼마나 쉽게 구현하고 발전시킬 수 있는지, 그리고 더 광범위한 작업에서도 높은 성능이 유지되는지 등이 관건이 될 겁니다 - 많은 애플리케이션들은 여전히 짧은 맥락의 윈도우 안에서도 큰 문제없이 작동하고 있으니까요.

그렇지만, 분명 Atlas가 제시하는 방향은 의미가 있습니다.

기존의 패러다임을 단순히 확장하는 것이 아니라, 더 똑똑한 시스템을 구축한다는 철학이니까요. 특히 방대한 정보를 다루어야 할 때 내부 메모리를 관리하고 최적화하는 방법을 능동적으로 학습하는 모델, 멋지지 않나요? 이 방향의 진정한 발전이 계속된다면, ‘다이나믹하게 맥락을 인식하면서 지속적으로 최적화하는 메모리’는 대규모의 데이터셋을 단순히 ‘처리’하는게 아니라 ‘제대로 이해하고 활용’하는 AI를 향한 중요한 한 걸음이 될 겁니다.

이제, 단순하게, 그리고 기계적으로 어텐션을 확장하는 시대는 지나고 있습니다. AI가 어떻게 학습하고, 기억하고, 추론해야 하는지에 대해 더 집중해서 세밀하게 탐구하는 시대가 오고 있습니다.

맥락을 최적화해 가면서 기억한다는 것, 이에 대한 깊은 초기의 탐구의 결과로서 Atlas는, 이 긴 이야기의 서문을 여는, 매력적인 한 챕터가 될 겁니다.

트위터 라이브러리 (Twitter Library) 🐦

MCP가 에이전트, 그리고 에이전트가 사용해야 할 외부 도구 간의 연결 방식을 바꿔놓았죠. 지금 이 시간에도 수없이 많은 MCP 서버들이 생겨나고 있습니다.

많은 MCP 서버들 중에서, 한 번 살펴볼 만한 멋진 MCP 서버 12개를 선정해 봤는데요, 함께 살펴보시죠:

멋진 MCP 서버 12가지

turingpost.co.kr/p/mcp-servers-12

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 코리아팀이 읽고 있는 것들

From Typewriters to Transformers: AI is Just the Next Tools Abstraction by Steven Sinofsky

이 글은, 우리가 타자기에서 워드프로세서로, 계산기에서 엑셀로 넘어갔던 것처럼, 지금은 AI라는 새로운 ‘도구’로 넘어가는 과정에 있다고 설명합니다. 처음에는 이런 새로운 도구들이 낯설고, 사람들이 "기초를 잊게 만든다"거나 "신뢰하기 어렵다"며 걱정하지만, 시간이 지나면 더 빠르고 편리해지면서 우리 일에 꼭 필요한 도구가 된다는 겁니다. AI도 마찬가지로, 지금은 혼란스럽고 불안하게 느껴질 수 있지만 결국 일하는 방식 자체를 바꾸는 중요한 변화라는 걸 강조하고 있네요.

Trends – Artificial Intelligence by legendary Mary Meeker (분명 볼 만한 가치가 있는 보고서이긴 하지만, 340 페이지의 길이가 무섭네요 - 그래프가 많기는 합니다)

이 글은 너무나도 유명한 투자자인 메리 미커가 "AI는 지금까지 나왔던 기술 중 가장 빠르게 퍼지고 있다"고 말한 내용을 소개합니다. 인터넷, 스마트폰보다도 훨씬 빠르게 사람들이 AI를 쓰기 시작했는데, 그 배경에는 전 세계 사람들이 인터넷을 쓰고 있고, 데이터도 많이 쌓였고, 챗GPT 같은 똑똑한 AI가 등장했기 때문이죠. 지금은 스타트업이나 빅테크들이 AI에 엄청난 돈을 투자하고 있고, 미국과 중국이 AI를 통해 누가 더 우위를 점할 것인지 가지고 경쟁 중이죠. 그래서 AI는 단순한 기술이 아니라, 앞으로 어떤 나라가 더 번영하게 될지를 좌우할 만큼 중요한 변화라고 강조하고 있습니다.

금주의 주목할 만한 업계 동향 📰

허깅페이스, 팔과 다리를 얻다

허깅페이스가 두 가지의 오픈소스 휴머노이드 로봇을 출시했습니다 – 66개 자유도를 가진 실물 크기의 이족보행 로봇 HopeJR($3000부터 시작), 그리고 대화 기능을 갖춘 데스크톱 컴패니언 Reachy Mini($300부터 시작)가 그 두 가지인데요.

Pollen Robotics를 인수한 후에 제작된 이 로봇들은, 저렴한 가격으로 많은 사람들이 로봇을 사용할 수 있게끔 하는 걸 목표로 한다고 합니다.

Meet HopeJr, a full humanoid robot lowering the barrier to entry!
Capable of walking, manipulating many objects, open-source and costs under $3000 🤯
Designed by @therobotstudio and @huggingface 👇
— Remi Cadene (@RemiCadene)
9:07 AM • May 29, 2025

앤쓰로픽, LLM의 내부 회로 추적용 도구를 오픈소스로 공개

Claude의 개발사인 앤쓰로픽은, Decode Research와 협업해서 ‘LLM의 내부 추론 경로를 드러내는 귀속 그래프를 생성’하는 오픈소스 라이브러리를 출시했습니다. 이 그래프들은 Gemma-2-2b와 Llama-3.2-1b 같은 모델들을 지원하고, Neuronpedia의 인터랙티브 프론트엔드를 통해서 볼 수 있습니다. 이 도구들을 통해서 사용자들은 특성 값을 수정하고, 가설을 테스트하고, 회로를 추적할 수 있습니다.

앤쓰로픽은 이런 작업을 통해서 다국어 및 추론 작업에서 일어나는 모델의 행동에 대한 해석 가능성 연구와 이해를 가속화하는 것이 목표라고 이야기하네요.

텔레그램 + xAI, 결이 딱 맞는 협업

천생연분의 거래라고 해야 할까요? 논란에 끊이지 않는 두 명의 인물 - 파벨 두로프, 그리고 일론 머스크 - 이 xAI의 챗봇 Grok을 텔레그램 앱에 직접 임베딩하는 계약을 체결했습니다. 텔레그램은 플랫폼을 통해서 판매되는 Grok 구독 수익의 50%도 가져갑니다. 이 파트너십으로 TON이 18.5% 급등했지만, 신기하게도 발표 몇 시간 전에 뛰어올랐습니다. 시장의 미래를 보는 투시력이라도 있는 건가요?

메타와 Anduril, 함께 무장하다

메타, 그리고 방산기술 기업 Anduril이 힘을 합쳐 혼합 현실 (Mixed Reality)을 전장에 도입합니다. 이제 게임용 헤드셋을 넘어서 전투용 테크노맨서 장비에 가까운 걸 함께 만들겠다는 것이겠죠. 이 두 회사의 XR 기반 통합 솔루션은 군인들의 인지 능력을 향상시키고 Anduril의 Lattice AI 시스템과 직접 연결될 거라고 하는데요, 민간 자금과 상용 기술을 바탕으로 구축한 이 파트너십을 통해서 펜타곤이 수십억 달러를 절약할 수 있을 거라고 주장합니다.

오큘러스를 창업한 이후 메타에 조인했다가 해고된 Anduril의 창업자 팔머 러키가 꾸는 ‘차세대 전투원’의 꿈을 증강 현실을 기반으로 만들어갈 이 파트너십 - 전쟁도 메타버스에서만 할 수는 없을까요?

Anduril 창업자 팔머 러키 (좌), 메타의 마크 저커버그. Image Credit: Anduril

미스트랄, 에이전트들에게 ‘액션!’ 슬레이트를 치다

프랑스의 대표 AI 스타트업 미스트랄 AI가 Agents API를 출시했습니다 – 이건 AI가 수동적인 기록자의 역할을 넘어서 능동적으로 문제를 해결하는 할 수 있도록 해 주는 툴킷입니다. 코드 실행, 웹 검색 등을 위한 내장 커넥터와 오케스트레이션 기능, 영속적 메모리를 갖춘 이 API는 본격적인 엔터프라이즈급 워크플로우를 위해서 구축된 것이라고 합니다. 미국과 중국의 스타트업이 치고 나가는 가운데, 미스트랄도 실행하는 자율 어시스턴트 생태계를 조용히 구축하고 있네요.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

Adaptive reasoning model ARM (복단대학교와 오하이오주립대)은 작업의 난이도에 따라서 네 가지 추론 형식 (직접 답변, 짧은 CoT, 코드, 긴 CoT) 중에서 하나를 다이나믹하게 선택하는 모델입니다. Format Collapse를 방지하는 GRPO 변형 형태 Ada-GRPO로 훈련된 ARM은, 정확도를 유지하면서 토큰 사용량을 평균 ~30%, 최대 70%까지 줄여줍니다. 약 2배 정도 훈련 속도가 향상되며, 적응형, 명령 유도형, 합의 유도형 추론 모드를 지원합니다.
TabSTAR (Technion-IIT)는 고정되지 않은 텍스트 인코더와 목표 인식 (Target-Aware) 토큰을 사용해서, 의미적으로 정렬된, 그리고 작업별로 특화된 임베딩을 생성하는 테이블 파운데이션 모델입니다. TabSTAR는 데이터셋 별 파라미터 없이 분류와 회귀를 지원하고, (당연하게도) 텍스트 테이블 데이터셋에서 뛰어난 성능을 보여줍니다. 50개의 데이터셋으로 수행한 평가에서, 분류 작업에서는 GBDT와 다른 TFM들을 능가하며, 최대 0.874의 정규화된 AUROC를 달성했습니다. 350개 데이터셋에 걸친 사전 훈련으로 스케일링 법칙을 보여주었고, 더 많은 데이터를 사용하면 성능이 더 좋아집니다. TabSTAR는 단일 A40 GPU에서 48시간 이내에 훈련할 수 있습니다.
rStar-Coder (마이크로소프트 리서치 아시아)는 41만 8천개의 Competitive-Level 프로그래밍 문제와 58만개의 긴 추론 솔루션으로 구성된 데이터셋으로, 모두 다양한 테스트 케이스를 통해서 검증되었습니다. 3만 7천 7백개의 전문가 문제를 선별하고 38만개의 새로운 문제를 합성했는데, 3단계 테스트 입력 생성 방법과 출력이 정확하도록 보장하기 위해서 상호 검증을 해서, 레이블링 정확도가 96.8%에 달합니다. rStar-Coder로 훈련된 모델들은 QWQ-32B를 능가하고, 7B 모델이 LiveCodeBench에서 57.3%, USACO 2025에서 16.15%를 기록하면서 훨씬 큰 모델들의 성능을 뛰어넘었습니다.

추론 (Reasoning) 및 Inference 최적화

WebDancer는 브라우징, 샘플링, 파인튜닝, 강화학습의 구조화된 훈련 파이프라인을 사용해서 연구 작업을 효율적으로 해결하는 엔드 투 엔드 에이전트 정보 탐색 에이전트를 구축하게 해 줍니다. —> [논문 보기]
Universal Reasoner는 고정된 LLM에 플러그 앤 플레이의 추론 모듈을 추가해서 재훈련이 없이도 핵심 기능을 손상시키지 않으면서 추론을 조합해서 할 수 있도록 합니다.
—> [논문 보기]
PATS는 작업의 난이도에 따라서 ‘단계(Step)’ 수준에서 LLM 추론 전략을 다이나믹하게 조정, 속도와 정확성을 모두 최적화합니다. —> [논문 보기]
R2R는 발산하는 추론 토큰만 대형 모델로 라우팅하고 나머지는 소형 모델이 처리하도록 해서 정확성의 손실을 최소화하면서도 속도 향상을 할 수 있게 해 줍니다. —> [논문 보기]

트레이닝 전략 및 강화학습

Advancing Multimodal Reasoning via RL with Cold Start는 지도 파인튜닝과 강화학습을 결합해서 멀티모달 추론 성능을 향상시켜 주는데, 수학/시각 벤치마크에서 각각 독립적으로 파인튜닝만 하거나 강화학습만 한 경우 대비 좋은 성능을 보여줍니다. —> [논문 보기]
Surrogate Signals from Format and Length는 정답이 필요 없이 ‘형식’과 ‘응답 길이’를 대리 보상 (Proxy Rewards)으로 사용해서 수학용 LLM을 훈련시켜, 훈련의 효율성을 개선합니다. —> [논문 보기]
The Entropy Mechanism of RL for Reasoning LLMs는 LLM 강화학습에서 엔트로피 붕괴를 분석하고 훈련 중의 탐색 결과를 보존하는 기법을 제안해서 성능을 향상시켜 줍니다. —> [논문 보기]
Enigmata는 검증 가능한 퍼즐 작업을 사용해서 LLM의 논리적 추론 능력을 향상시키는 합성 퍼즐 벤치마크, 그리고 강화학습 훈련 스위트를 제공합니다. —> [논문 보기]

적응(Adaptation) 및 파인튜닝 기법

GraLoRA PEFT에서 과적합을 방지하고 표준 LoRA보다 성능을 개선하는 세분화된 저랭크 적응 구조를 도입합니다. —> [논문 보기]
introduces a granular low-rank adaptation structure that prevents overfitting in PEFT and improves performance over standard LoRA →read the paper
How Does Alignment Enhance LLMs' Multilingual Capabilities? 정렬 후 다국어 LLM의 뉴런 수준 변화를 분석하여 자발적 교차 언어 적응에 대한 통찰을 제공합니다. —> [논문 보기]
analyzes neuron-level changes in multilingual LLMs after alignment, offering insights into spontaneous cross-lingual adaptation →read the paper

어플리케이션 및 시스템

Paper2Poster는 최소한의 비용을 들여서 논문을 구조화된 레이아웃으로 압축하는 멀티 에이전트 시스템을 사용, 학술 포스터 제작을 자동화합니다. —> [논문 보기]
ZeroGUI는 VLM을 사용해서 작업을 생성하고 결과를 평가함으로써, 사람의 입력 없이 GUI 에이전트를 온라인으로 훈련시켜 스스로 완결적으로 작동하는 GUI 자동화를 가능하게 해 줍니다. —> [논문 보기]
Discrete Markov Bridge는 새로운 행렬/점수 학습 조합을 통해서 이산 데이터 표현을 학습, 텍스트 및 이미지 벤치마크에서 베이스라인을 넘어서는 성능을 보여줍니다.
—> [논문 보기]
Are Reasoning Models More Prone to Hallucination?은 다양한 훈련 방법이 LLM의 환각에 미치는 영향을 탐구하고 모델의 불확실성을 사실성 (Factuality) 오류와 연결해서 이해할 수 있도록 해 줍니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.