Turing Post Korea
Posts
🌁FOD#108: 2025년 상반기, AI의 발전 방향을 가리키는 연구 8選

🌁FOD#108: 2025년 상반기, AI의 발전 방향을 가리키는 연구 8選

당신이 AI 연구자나 엔지니어가 아니라도 알아둘 만한, 급격하게 빨라지고 있는 AI의 발전 방향

Ksenia Se & Ben Eum
July 09, 2025

지난 주 말씀드린 것처럼, 튜링 포스트는 일년의 절반이 지난 시점, 7월을 맞아 살짝 슬로우하게 움직이는 모드로 지난 반 년간을 뒤돌아보고 하반기를 계획하고 있습니다.

이번 주에는, 그 동안 FOD에서 언급해 왔던 수많은 ‘주목할 만한 연구들’ 중에 변화하는 AI의 발전 방향을 잘 보여주는 핵심적인 연구 8가지를 다시 한 번 여러분들과 돌아보겠습니다.

다시 한 번 언급하고 기억할 만한, 2025년 상반기 핵심 연구 - 1부

다시 말씀드리자면 입이 아플 정도입니다만 (^.^;), 2025년 AI의 발전 속도는 정말 놀라울 정도입니다. 새로운 연구, 새로운 돌파구(Breakthrough)가 우리들이 따라잡기도 전에 매주 쏟아지고 있죠. 그렇기 때문에야말로, 지금 어떤 변화가 실제로 이 거대한 분야를 바꿔가고 있는지, 한 걸음 물러서서 살펴보고 기억하는게 중요하다고 생각합니다.

올해의 절반이 지난 지금, AI에서 중요한 핵심 역량이 뭔지를 재정의한다거나, 새로운 연구 방향을 열거나, 앞으로 중요해질 기술 스택을 재편할 가능성을 보여주는 논문들이 많이 등장했는데요.

여기에 그 중 일부를 모은 큐레이션 리스트, 1부를 먼저 소개합니다 - AI로 뭔가를 직접 만들고 있다면 당연히 관심이 많으실 거라고 보지만, 개발자가 아니라도 ‘AI 기술이 어떤 문제를 해결하기 위한 방향으로 연구되고 있구나’하는 감을 잡으시기에 도움이 되리라 생각합니다.

1️⃣ Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought (Meta-CoT)

이 논문은 Meta-CoT라는 새로운 프레임웍을 소개하는데요. 이 프레임웍은, 거대 언어 모델(LLM)이 스스로 진행하는 추론 과정을 되돌아보면서 생각을 할 수 있게끔 설계된 겁니다. 심층적이고, 느린 사고를 뜻하는 말이죠? ’System 2’ 사고 방식에서 영감을 받아서, 복잡한 문제에 대해서는 여러 번 생각하고 검토하는 과정을 거칠 수 있도록 하자는 아이디어죠.

이 연구는 SynthLabs.ai, 스탠퍼드, UC 버클리의 연구진이 공동으로 진행했는데, 추론 과정을 마르코프 결정 과정(MDP)이라는 탐색 문제로 모델링합니다. 그리고, 프로세스 기반 보상 모델과 메타 강화학습(meta-RL)을 통해서 모델을 훈련합니다.

결과를 보면, 강화학습 기반으로 훈련한 모델이, 기존의 지시 기반(Instruction-Tuned) 모델보다 더 뛰어난 성능을 보였습니다 - 이게 바로 2025년 AI 연구의 전반에서 나타나는 거대한 흐름, 즉, 조금 느리지만 검증할 수 있는 추론, 그리고 강화학습의 중요성 확대라는 흐름과도 일치하죠.

결국, 이 연구는 우리가 2025년 들어서 엄청나게 자주 언급해 온 주제, ‘이제 좀 느리더라도 확실한 추론이 중요하다’는, AI 기술 혁신의 방향을 잘 보여주는 사례입니다.

2️⃣ New Methods for Boosting Reasoning in Small and Large Models from Microsoft Research

이 연구는, 현재 AI 분야에서 가장 중요한 과제 중 하나인, 언어 모델의 진짜 ‘사고 능력’, 즉 ‘사람처럼 논리적이고 체계적으로 추론하는 능력’을 키우는 문제를 다루는데요. 거대 언어 모델 뿐 아니라 소형 언어 모델에도 해당되는 주제로, 최근의 핵심적 연구 성과들을 아래와 같이 정리하고 있습니다:

🧠 rStar-Math

1.5억~7억 개 정도 파라미터 규모가 되는 소형 언어 모델도 심도있게 추론을 할 수 있게끔 설계된 시스템인데, 아래의 기술들이 핵심입니다:

몬테카를로 트리 탐색(MCTS)
체스나 바둑에서 전략을 세울 때 쓰는 방식인데, AI가 다양한 ‘추론의 경로’를 탐색하게끔 해 줍니다.
프로세스 중심의 피드백 (Process-level Supervision): 단순하게 정답이 아니라, ‘어떻게 생각했는가’에 기준을 두고 지도하고 피드백을 주는 방식입니다.
반복적 자기개선 (Iterative Self-improvement): 모델이 스스로의 오류를 학습하면서, 점점 더 나은 추론 경로를 찾을 수 있도록 합니다.

Image Credit: New Methods for Boost Reasoning in Small and Large Models

🧠 Logic-RL 프레임웍

Logic-RL은, AI가 단순히 정답만 맞히는 게 아니라, 정답에 이르는 과정까지 정확해야만 보상을 받는 아주 엄격한 훈련 방식입니다. 기존의 많은 AI 모델은 정답만 맞히면 성공으로 간주되니까, 가끔은 우연히 맞히거나, 엉뚱한 방식으로 답을 내도 그냥 넘어가곤 했겠죠. 하지만 Logic-RL에서는 ‘왜 그렇게 생각했는지’, ‘어떤 논리적 흐름으로 답을 도출했는지’까지 꼼꼼히 따져봅니다.

이 방식은 AI가 제대로 사고하는 습관을 들이게 만드는 훈련법이라고 볼 수 있습니다. 추론 과정이 엉성하면 보상을 못 받고, 논리적으로 타당한 과정을 거쳐야만 긍정적인 피드백을 받으니까, 결국 모델이 점점 더 사람처럼 논리적이고 신뢰할 수 있는 방식으로 문제를 해결하게 된다는 거죠. AI의 ‘추론 신뢰성’을 높이는 데 아주 중요한 접근입니다.

🧠 LIPS

LIPS는, AI가 어려운 수학 문제, 특히 ‘항상 어떤 수가 더 크거나 작다’는 불평등 증명(Inequality Proof) 문제를 잘 풀 수 있게 설계한 시스템입니다. 보통 언어 모델은 경험, 패턴을 바탕으로 답을 예측하는 건 잘 하지만, 수학처럼 정확한 논리와 증명이 필요한 분야에서는 한계가 있었죠. 그래서 LIPS는 두 가지 능력을 결합합니다: 하나는 사람처럼 직관적으로 문제를 이해하는 언어 모델의 능력, 다른 하나는 논리적 규칙을 따라 정확하게 계산하는 기호 기반의 추론 능력입니다.

이 두 가지를 합치면, AI는 먼저 문제를 전체적으로 파악하고(‘어떤 방식으로 접근할지’), 그 다음에 수학적으로 옳은 방식으로 한 단계씩 논리적으로 풀어갑니다. 예를 들어서, 언어 모델이 “이 문제는 이런 유형이야”라고 감을 잡고, 기호 논리가 “그러면 이렇게 증명해야 해”라고 정확하게 따져보는 식입니다. 이렇게 해서, LIPS는 단순히 정답을 맞히는 게 아니라, 왜 그 정답이 맞는지를 설명할 수 있는 AI로 나아가고 있습니다.

🧠 Chain-of-Reasoning (CoR)

Chain-of-Reasoning(C0R)은 AI가 자연어(글), 코드(프로그래밍), 수학(기호 논리)처럼 서로 다른 방식의 문제 해결 능력을 하나로 연결해서 사용하는 기술입니다. 우리가 사는 실제 세상의 문제는, 꽤 여러 영역을 걸쳐 있는 경우가 많잖아요. 예를 들어서, ‘누구의 급여가 더 높은지’를 자연어로 설명하고, 중간에 계산은 코드로 실행하고, 마지막에는 수학적 논리로 결론을 내리는 식이죠. 기존의 AI는 이걸 각각 따로따로 처리했지만, CoR은 이 전 과정을 한 줄기 흐름처럼 자연스럽게 이어서 처리할 수 있게 해줍니다.

이 방식의 가장 큰 장점은, AI가 문제를 더 넓게, 더 깊게 이해할 수 있게 만든다는 겁니다. 어떤 문제가 글로 설명돼 있든, 수식으로 표현돼 있든, 아니면 프로그램처럼 쓰여 있든, CoR은 그걸 구분하지 않고 필요할 때마다 자연스럽게 언어, 코드, 수학 사이를 넘나들면서 사고합니다. 그래서 CoR을 쓴 AI는 복잡 다단한 문제도 사람처럼 단계적으로 추론하고, 더 정확하고 일관된 답을 낼 수 있게 됩니다.

위에 소개된 모든 연구들은, ’AI의 추론 능력이 어떻게 진화하고 있는지’ 이해하는 데 꼭 참고할 만한 가치가 있는 자료들입니다. AI는 이제 단순하게 정보를 생성하는게 아니라, 어찌보면 '생각하는 존재'로 진화하는 단계에 접어들었나 하는 느낌이 들기도 하네요.

3️⃣ SFT Memorizes, RL Generalizes: A Comparative Study of Foundational Model Post-training

이 논문에 주목해야 하는 이유는, 파운데이션 모델이 텍스트와 이미지 추론 과제를 어떻게 일반화(Generalization)하는지에 대해서 지금까지 중 가장 명확하고도 포괄적인, 실증적인 분석을 담고 있기 때문인데요. 홍콩대, UC 버클리, 구글 딥마인드, NYU, 앨버타대 연구진이 SFT(Supervised Fine-Tuning, 지도학습 기반 파인튜닝)과 RL(강화학습)을 비교 분석했는데, 그 결과 RL이 훈련 과정에 없던 새로운 데이터(Out-of-Distribution)에 더 잘 일반화될 뿐 아니라, 시각적인 인식 능력까지도 더 많이 향상시킨다는 사실을 보여줬습니다. 반면에, SFT는 주로 훈련 데이터 자체를 ‘암기’하도록 하는 경향이 강했습니다.

이 연구를 통해서, 강화학습 중심의 접근 방식이 좀 더 유연하고 강건한 범용 AI 모델을 만드는 데 핵심적이라는 것을 다시 한 번 확인할 수 있습니다. 새로운 과제에 적응할 수 있는 AI를 만들기 위해서는, 단순히 데이터를 주입하는 방식에서 벗어나서, 스스로 사고하고 조정할 수 있도록 설계된 학습 방식, 즉 RL 중심의 학습이 필수적이라는 흐름이 명확해지는 것 아닐까 싶습니다 - 강화학습보다 더 합리적이고 우수한 결과를 만들어내는 뭔가가 등장하지 않는다면요.

4️⃣ The GAN is Dead; Long Live the GAN! A Modern GAN Baseline

개인적으로 아주 인상적이라고 생각한 논문인데요. 브라운대와 코넬대 연구진이, 많은 사람들이 가지고 있는 일종의 통념, ‘GAN은 학습이 어렵다’는 생각에 도전장을 던집니다. 연구진이 새로운 대안으로 제안한 건 R3GAN이라는 모델인데, GAN 훈련의 불안정성을 해결하기 위해서 정규화된 상대적 손실 함수(Regularized Relativistic Loss)라는 개념을 도입했고, 이 덕분에 훈련이 훨씬 더 안정적이고 수렴 가능해졌다고 합니다.

이 방식의 큰 장점은, 이제 복잡한 휴리스틱(경험적 조정 기법)에 의존할 필요 없이, 최신의 신경망 아키텍처도 GAN에 자유롭게 활용할 수 있게 되었다는 점입니다. 즉, R3GAN은 기존의 GAN 훈련 방식에서 문제가 되었던 여러 불안정 요소들을 해결하면서, 더 실용적이고 범용적인 GAN 개발을 할 수 있게 해 주는 중요한 진전이라고 볼 수 있습니다.

5️⃣ Transformers without Normalization

지금 대부분 AI 모델의 근간이라고 할 수 있는 트랜스포머(Transformers). 2025년에는 이 트랜스포머 아키텍처에도 변화가 일어나고 있습니다. FAIR(메타 AI 연구소), NYU(뉴욕대학교), MIT, 프린스턴대학교의 연구진이 발표한 이 논문에서는, 안정적이고 강력한 트랜스포머를 학습시키기 위해서 ‘정규화(Normalization)’가 반드시 필요한 것은 아니다라고 주장합니다 - 정규화는 신경망이 안정적으로 학습되도록, 각 층의 출력 값을 일정한 범위로 조정해주는 기술이죠

메타(Meta)는 Dynamic Tanh(DyT)라는 새로운 기법을 제안하는데요. 이 함수는 아주 단순하고 계산 효율이 뛰어나면서도, 기존의 정규화 계층이 수행하던 기능을 흉내냅니다.

DyT는 최소한 기존의 정규화 계층만큼 잘 작동하고, 어떤 경우에는 그보다 더 좋은 성능을 보이기도 합니다.
추가적인 계산이 필요없기 때문에 연산 자원이 절약됩니다.
하이퍼파라미터나 모델 설정을 복잡하게 조정할 필요가 적어져서, 튜닝의 부담이 줄어듭니다.
이미지 처리, 자연어 처리, 지도 학습(Supervised Learning), 심지어 자기지도학습(Self-Supervised Learning)까지 다양한 학습 세팅에서 모두 효과적으로 작동합니다.

즉, DyT는 정규화 없이도 안정적인 학습을 가능하게 하는 새로운 방식으로, 트랜스포머의 효율성과 범용성을 더욱 높여줄 수 있는 유망한 대안으로 떠오르고 있습니다.

Image Credit: Transformers without Normalization 오리지널 논문

6️⃣ Inside-Out: Hidden Factual Knowledge in LLMs

LLM은 우리가 질문했을 때 대답하는 내용보다 실제 내부적으로 더 많은 사실을 알고 있을까요? 테크니온(Technion)과 구글 리서치 연구진은 이 ‘안다(Knowing)’는 게 뭘 의미하는 건지 명확하게 정의하고, 실제로 그런 현상이 존재하는지 - 내부적으로 더 많은 사실을 알고 있는지 - 를 분석했습니다.

결과적으로, LLM은 대답하는 것보다 실제로 최대 40% 더 많은 정보를 알고 있는 경우가 많다는 것을 발견했습니다. 하지만 그 정보를 입 밖으로 끌어내는 것, 즉 모델이 알고 있는 내용을 실제 답변에 반영하게 만드는 일은 생각보다 훨씬 어렵고 섬세한 작업이라는 점도 함께 드러났습니다. 재미있는 논문이죠?

7️⃣ Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

누가 뭐래도 DeepSeek 모델은 올해 AI 영역에서 가장 주목받고 있는 모델 중 하나죠. DeepSeek의 논문은, AI 분야의 최신 트렌드를 따라잡고 싶다면 한 번 꼭 읽어봐야 할 필독 자료라고 할 수 있구요. 특히 이 연구는, 하드웨어와 모델을 함께 설계(Co-design)해서 초대형 LLM을 얼마나 효율적으로 확장할 수 있는지를 다루고 있거든요. 중요한 병목 지점인 메모리, 연산 효율, 네트워크 대역폭 문제를 해결하는 방법을 집중적으로 탐구합니다 - GPU 공급이 문제인 상태ㅇ서 고육지책으로 고안한 방법이라고 할 수도 있겠지만, ‘제약 조건’이 없는 사람은 없잖아요?

DeepSeek에서 모델을 만들면서 고안한 새로운 기법들에 대해서는 이미 보신 분들도 많긴 하겠지만, 어쨌든 논문에서 다루고 있는 것들은 이런 것들입니다:

Multi-head Latent Attention (MLA)
기존의 어텐션 방식보다 메모리 사용량을 줄이기 위해 고안된 새로운 어텐션 구조죠. 복잡한 입력값을 더 압축하면서 처리해서, 메모리 효율을 크게 높여줍니다.
Mixture of Experts (MoE)
모델의 모든 파라미터를 동시에 사용하지 않고, 입력값에 따라서 일부의 전문가 네트워크만 선택적으로 사용해서, 계산량과 통신량 간의 밸런스를 효과적으로 조절합니다.
FP8 Mixed-Precision Training
기존의 16비트보다 더 낮은 정밀도의 8비트 부동소수점 연산(FP8)을 일부에 적용해서, 메모리와 연산 자원을 절약하면서도 학습 성능을 유지할 수 있게 해 줍다.
Multi-Plane Network Topology
데이터 센터에서의 네트워크 인프라 부하를 줄이기 위한 새로운 연결 구조를 고안해서, 대규모 LLM 훈련에 필요한 인프라 자원의 효율을 극대화합니다.

8️⃣ On the Trustworthiness of Generative Foundation Models – Guideline, Assessment, and Perspective

신뢰성(Trustworthiness). AI 분야에서 끊임없이 논의되는 핵심 주제이면서도, 개인적으로는 - 의식적이든 무의식적이든 - 현장에서는 아주 ‘간과되고 마는’ 분야라고 생각합니다. 이 논문은 생성형 AI 모델을 평가하기 위한 최초의 ‘다이나믹 벤치마킹 플랫폼’을 제안하는데요. 기존처럼 고정된 테스트만 가지고 성능을 평가하는 개념을 넘어서, 언어 모델(LLM), 비전-언어 모델, 텍스트-이미지 생성 모델 등 다양한 형태의 생성형 AI를 대상으로, 진실성(Truthfulness), 안전성(Safety), 공정성(Fairness), 견고성(Robustness) 같은 여러 평가 항목을 다이나믹하게 다룹니다.

특히 이 플랫폼은 기술적 설계 방향과 내용을 현재도 전 세계적으로 논의되는 규제 동향, 그리고 윤리 기준에 잘 맞추는데(정렬; Alignment) 중점을 두고 있습니다. 단순히 AI의 ‘성능’만 보는 게 아니라, 실제 정책과 사회적 요구에 부합하는 방향으로 모델을 설계하고 평가할 수 있는 기반을 마련했다는 점에서 이 논문의 의미는 큽니다. 이 연구는 AI 기술의 개발과 실제 규제・윤리적 실천 사이의 갭(Gap)을 메우고자 하는 중요한 시도로 볼 수 있습니다.

이렇게, 올해 상반기의 주목할 만한 AI 연구 방향을 보여주는 8개의 논문을 한 번 함께 리마인드해 봤는데요.

2025년 초반의 AI 연구는 모델의 ‘사고력’과 ‘신뢰성’을 실제로 구현하고 확장하는 방향으로 빠르게 움직이고 있습니다. LLM과 멀티모달 모델을 대상으로 해서, 단순하게 정답을 예측하는 걸 넘어서 추론 과정의 정확성, 다양한 도메인 간의 일반화 능력, 정교한 메모리·연산 최적화, 그리고 사회적 책임 기준을 충족하는 평가체계까지 포함하는 연구들이 활발하게 진행 중입니다. 특히 강화학습(RL; Reinforcement Learning), 프로세스 기반의 보상, 다이나믹 벤치마크, 하드웨어-모델 공동 설계(Co-design) 같은 접근은, AI가 더 깊이 사고하고, 더 적응력 있게, 그리고 더 신뢰받을 수 있도록 만드는 핵심 기술 축으로 부상하고 있다고 정리해 봅니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.