- Turing Post Korea
- Posts
- Topic #44: 추론 모델, 그냥 진화한 LLM일까? 아니면 완전히 다른 종(種)일까?
Topic #44: 추론 모델, 그냥 진화한 LLM일까? 아니면 완전히 다른 종(種)일까?
추론 모델을 정의하는 정체성은 뭔지, 여기 속하는 모델들이 어떤 것들인지, 앞으로 어떤 진화 방향이 있는지 살펴봅시다.

글을 시작하며
추론 모델(Reasoning Model).
지금 AI 커뮤니티의 논의와 논쟁에서 다른 어떤 것보다도 큰 비중을 차지하고 있다고 해도 과언이 아닙니다. 오픈AI의 o1 모델이 등장하고 그 뒤를 이어서 오픈소스로 공개된 DeepSeek-R1이 나온 이후로, 그 관심은 날이 갈수록 커져만 가고 있죠.
이 ‘추론 모델’이라는 주제는, 생각할 수 있는 모든 관점에서 수많은 논의가 일어나고 있는 걸로 보이는데, 그 자체가 아마도 ‘지금 우리가 진정한 기술적 돌파구와 마주하고 있다’는 걸 의미하는지도 모르겠어요. Nathan Lambert가 본인의 블로그에서 주장했듯이, “올해는 모든 주요 AI 연구소들이 이미 추론 모델을 출시했거나 출시할 예정”인데, 이건 당연하게도 이 추론 모델들이 ‘AI의 최전선에서 가장 어려운 문제들을 이전 세대 모델들보다 훨씬 더 잘 해결할 수 있기 때문’입니다.
그렇습니다. 우리는 이미 추론 모델이라는 것에 대해서 엄청난 정보를 듣고 있고 갖고 있습니다. 매주 수많은 연구 논문들에서 모델의 추론 능력을 향상시키기 위한 다양한 접근법들을 소개하고 있기도 하구요. 하지만, 글쎄요, 정확히 ‘추론 모델이 뭐냐’ 하는 질문을 받았을 때 쉽게 답할 수 있으신가요? 도대체 ‘추론 모델’의 정확한 정의는 뭔가요? 이야기해보고 싶은 건, 과연 추론 모델이라는게 정말 독립된 하나의 범주로 간주되어야 하느냐는 것이기도 합니다.
그래서, 오늘은 정확히 뭐가 추론 모델로 간주되는지, 어떤 모델들이 이 범주에 속하는지, 그리고 이 분야가 앞으로 AI의 새로운 가능성을 열어가기 위해서 어떤 방향으로 발전할 수 있을지를 한 번 들여다보려고 합니다. 그럼 시작해 볼까요?
오늘 에피소드에서는 다음과 같은 내용을 다룹니다:
추론 모델, 왜 논란이 되는가
추론 모델(Reasoning Model)의 등장, 이것만큼 AI 분야에서 활발한 논쟁을 촉발시킨 건 아마 챗GPT가 등장했을 때 외에는 없지 싶습니다.
이렇게 ‘생각하는(Thinking)’ 모델을, 기존의 거대 언어 모델(LLM)과 구별되는 독립된 AI의 범주로 봐야 할까요? 아니면 결국은 똑같은 핵심 기술에 약간의 영리한 추가 기능(Add-ons)을 얹은 것 정도로 해석하면 될까요? 양쪽의 입장을 한 번 살펴보겠습니다.
찬성하는 쪽 - 즉, 독립된 AI의 범주다라는 - 의 주장은 이렇습니다.
추론(Reasoning)에 특화해서 최적화된 모델들은, 기존 LLM 위에 구축된 것이기는 하지만 질적으로 도약한(Qualitative Leap) 모델이고, 아래에서 이야기하는 새로운 개념과 사건들 덕분에 별도 범주로 분류할 만한, 새로운 능력의 시대를 열었다고 봅니다:
성능의 도약(Performance Leaps): 오픈AI의 o1, o3 모델은 20단계의 수학 문제를 해결하거나 복잡한 코드를 생성하는 것 등 ‘길고 어려운 작업’을 할 때 기존의 전통적인 LLM보다 더 뛰어난 성과를 보였습니다.
작은 추론 모델(Small Reasoning Model)이 훨씬 더 큰 LLM보다 추론 벤치마크에서 더 우수한 결과를 보여줍니다.
2024~2025년, 주요 AI 연구소 대부분이 추론 중심의 모델을 출시했습니다.
브랜딩의 변화(Branding Shift): 모델들의 마케팅 컨셉이 명확하게 ‘추론기(Reasoner)’로 잡히고 있고, 단순한 챗봇과는 다르다는 점을 강조합니다.
이런 모델들은 단순히 출력 생성을 위한 목적(Output Generation)이 아니라, 추론(Reasoning), 계획 수립(Planning), 도구 사용(Tool Use)에 초점을 맞춰서 설계되었습니다. 이 모델들이 바로 에이전틱 AI(Agentic AI)의 초기 기반을 형성합니다.
이와 관련해서 다양한, 그리고 심도있는 의견을 내고 있는 네이선 램버트(Nathan Lambert)는, 이런 모델들을 추론 언어 모델(Reasoning Language Model, RLM)이라고 부를 것을 제안하고 있는데요. 이 모델들이 등장하면서 기존의 사전 학습(Pre-Training)과 후속 파인튜닝 체계를 ‘뿌옇게(Muddied)’ 만들었다고 지적합니다 - 전통적인 2단계 학습의 구조가 흔들리게 되었다는 뜻이죠. 또, RLM이 후속 학습(Post-Training)의 판도를 다시 정의하고 있는데, 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)이 모델 능력 향상의 핵심이라고 강조했습니다.
안드레 카파시는 새로운 범주로 구분하는 것에 대해서 명시적으로 찬성하거나 반대한 적은 없지만, RL로 학습된 이 모델들 내부에서 질적으로 다른 무언가가 벌어지고 있다는 점을 강조하곤 합니다 - 2025년 1월 27일 트위터에 올린 글에서 이렇게 말한 적이 있네요:
“이 모델이 CoT(Chain of Thought)에서 사용하는 해결 전략을 보면, 스스로 생각하고 되돌아보면서 진행을 합니다. 이 사고 흐름은 자발적으로 발생(Emergent)하는 건데, 이건 정말 놀라운 일이죠.”
“Reasoning Language Models: A Blueprint” 같은 많은 학술적 연구에서도 ‘추론 모델을 기존 LLM과 분리해서 분류해야 한다’는 입장을 지지하는 걸로 보이는데, 이런 모델들이 ChatGPT의 등장과 같은 수준의 AI에서의 전환점(Transformative Breakthrough)이고, AI를 범용 문제 해결 도구, 더 나아가서 범용 인공지능(AGI: Artificial General Intelligence)로 더 가까이 이끌고 있다고 이야기합니다.
한편, 다른 한쪽에서는 추론 모델을 본질적으로 새로운 것으로 과대평가하는 데 신중한 입장을 유지하고 있습니다. 겉보기에는 새로워 보일지 모르지만, 내부적으로는 여전히 트랜스포머 기반(Transformer-Based)의 언어 모델이고, 트랜스포머와 같이 다음 토큰을 잘 예측하는(Next-Token Prediction Objective)것이 목표인 모델입니다. 성능의 향상은 구조적인 혁신 때문이 아니라, 아래와 같은 방법론 덕분이라는 겁니다:
지도 학습 기반 파인튜닝(Supervised Fine-Tuning)
강화 학습(Reinforcement Learning)
CoT 프롬프팅(Chain-of-Thought Prompting)
더 긴 추론 시간(Longer Inference Run)
정제된 훈련 데이터(Carefully Curated Training Data)
반대파 의견의 핵심 요점들은 이렇습니다:
근본적인 아키텍처가 바뀐 것이 아님(No Architectural Change)
추론 능력은 지도 파인튜닝(Supervised Fine-Tuning, SFT), 보상 기반 파인튜닝(Reinforcement Learning with Human Feedback, RLHF), 강화 파인튜닝(Reinforcement Fine-Tuning, ReFT) 같은 최적화된 훈련 절차, 추론 시점의 보조 장치(Inference-Time Scaffolding) – 예를 들어서, CoT(Chain of Thought)나 다수결(Majority Voting) – 그리고 늘어난 계산 자원(Increased Compute) 덕분이지, 새로운 모델 설계(Model Design) 때문이 아니라는 겁니다: 이 모델들은 여전히 표준적인 자기회귀 언어 모델(Standard Autoregressive LLM)입니다.일반화의 한계가 있음(Limited Generalization)
수학, 코드, 논리 퍼즐에서의 높은 성능이 개방형(Open-Ended), 상식적(Common-Sense), 인과적(Causal) 추론으로 일반화되지는 않습니다. 이 모델들은 현실 세계의 이해가 필요한 작업, 새로운 추상화가 요구되는 상황, 불확실한 상황 하의 추론과 같은 과제에서는 종종, 많이 실패합니다. 예를 들어서, 훌륭한 추론 모델이라 하더라도 ARC 벤치마크, 반사실적 추론(Counterfactual Reasoning), 장기 과제(Long-Horizon Task) 등의 해결에는 여전히 어려움을 겪습니다.브랜딩 대 실질의 문제(Branding vs. Substance)
‘추론기(Reasoner)’ 같은 표현은 모델의 능력을 과장하거나 범용 인공지능(Artificial General Intelligence, AGI)에 대한 과도한 기대를 부추길 위험이 있습니다.제한된, 좁은 영역에서만 훌륭한 성능을 보임(Narrow Domains)
일부의 추론 특화 모델들은 이야기를 만들거나, 개방형 대화를 하거나, 현실 기반의 Q&A 같은 일반적인 언어 작업에서는 높은 성능을 보여주지 못합니다. 이런 특성이 문장의 유창성(Fluency), 창의성(Creativity), 상식(Common Sense)의 저하로 이어질 수 있어서, 이 모델들의 추론 능력이 실제로 얼마나 ‘범용적(General)’인지에 대해서 의문이 제기됩니다.
산타페 연구소의 멜라니 미첼(Melanie Mitchell) 교수는, 추론 모델이 실제 이해(Real Understanding)를 반영하는지, 아니면 단지 모방된 휴리스틱(Mimicked Heuristic)인지에 대해서 의문을 제기하기도 합니다.
“이런 모델들이 수학, 과학, 코딩 벤치마크에서 보여주는 성과는 분명히 인상적입니다. 하지만 모델이 테스트된 문제와 달리, 명확한 정답도 없고 정의된 풀이 과정도 없는 실제 추론 과제에 대해서는, 모델의 전반적인 견고성(Robustness)이 아직 충분히 검증되지 않았습니다.”
그런데, 모든 영역에서 최고의 성능을 보여주는 완전히 새로운 아키텍처로 만들어졌어야만 새로운 유형의 모델로 정의할 수 있는 걸까요?
어쩌면, 기존의 생각처럼 ‘완전히 새로운 기술이나 구조(Architecture)’가 아니라 하더라도, 새로운 개념, 새로운 패러다임, 기존 기술에 대한 새로운 관점만으로도 충분히 새로운 모델 계열 (Family of Models)을 정의하고 정당화할 수 있다는 걸 인정해야 할 때인지도 모릅니다 - 혁신이라는게 꼭 반드시 구조적일 필요는 없으니까요.
저희 튜링 포스트의 관점에서는, 추론 언어 모델(RLM; Reasoning Language Model)을 모델의 하나의 유형(Model Type)으로 보는게 충분히 타당하다고 생각하고, 그렇게 정의하려고 합니다.
아래 트윗에서는 추론 모델을 대형 추론 모델(Large Reasoning Model, LRM)이라고 칭했지만, 이미 다양한 크기의 추론 모델들이 있다는 점을 고려할 때, 전체 그룹을 추론 언어 모델(Reasoning Language Model, RLM)이라고 정의하는 것이 더 적절한 것 같습니다.
12 Foundational AI Model Types
▪️ LLM
▪️ SLM
▪️ VLM
▪️ MLLM
▪️ LAM
▪️ LRM
▪️ MoE
▪️ SSM
▪️ RNN
▪️ CNN
▪️ SAM
▪️ LNNSave the list and check this out for explanations and links to the useful resources: huggingface.co/posts/Kseniase…
— TuringPost (@TheTuringPost)
12:24 PM • Jun 8, 2025
추론 모델은 뭐가 다를까?
만약에 추론 언어 모델(Reasoning Language Model, RLM)의 핵심적인 특징들을 한 문장으로 정리한다면, ‘다단계의 논리적 추론(Multi-Step Logical Reasoning), 복잡한 문제 해결(Complex Problem-Solving), 구조화된 사고(Structured Thinking)에 최적화된 고급 AI 시스템’이라고 하면 되지 싶습니다.
RLM은 추론 시점 스케일링(Test-Time Scaling), 강화 학습 기반의 후속 학습(Reinforcement Learning Post-Training), CoT 추론(Chain-of-Thought Reasoning), 도구 사용(Tool Use), 외부 메모리(External Memory), 강력한 수학 및 코드 처리 능력(Math and Code Capabilities), 그리고 보다 모듈화된 설계(Modular Design) 등의 특징을 나타내는 모델로, 신뢰할 수 있는 의사결정을 지원합니다.
각각의 요소가 어떤 의미를 가지는지 하나씩 한 번 살펴보겠습니다:
🔁 강화 학습 기반 후속 학습 (Post-Training with Reinforcement Learning, RL)
RLM의 등장은, AI 커뮤니티가 강화 학습에 다시금 주목하게 만든 계기가 되었습니다.
이 모델들은 수학 문제, 코딩 과제, 논리 퍼즐 같은 어려운 작업에서 정답을 도출하는 과정과 결과에 대해 보상을 주는 ‘시행착오 기반 학습(Trial and Error Learning)’을 통해서 훈련됩니다. 이건, 기존 LLM에서 주로 사용되는 지도 파인튜닝(Supervised Fine-Tuning, SFT) 방식과는 대조적인 방법이죠.
SFT는 사람 또는 신뢰할 수 있는 모델이 제공한 정답(Ground Truth Output)을 기준으로 토큰 수준의 손실(Token-Level Loss) - 예: 교차 엔트로피, Cross-Entropy - 을 최소화하면서 결정론적이고 통제 가능한 방식으로 바람직한 행동을 흉내내도록 훈련합니다. 반면에, RL은 탐색(Exploration)을 허용하고, 학습 데이터에 존재하지 않더라도 도움이 되는 추론 방식이나 안전성 같은 추상적 목표(Abstract Goal)를 최적화할 수 있게 해 줍니다.
이렇게 검증 가능한 보상을 기반으로 한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR) 전략은, RLM이 유용한 추론 전략을 탐색하면서 능력을 확장하는 데 있어서 가장 강력한 무기입니다.
다양한 강화 학습 알고리즘들이 RLM에 사용되는데요:
PPO (Proximal Policy Optimization; 근접 정책 최적화)
GRPO (Group Relative Policy Optimization; 그룹 상대 정책 최적화)
RAFT 방식의 거절 샘플링(RAFT-Style Rejection Sampling)
다중 계층 GRPO(Multi-Layer GRPO)
EM 정책 그래디언트(EM Policy Gradient)
등입니다.
이런 기법으로 다단계 추론(Multi-Step Reasoning) 작업이 원하는 결과를 만들어내게끔 정렬(Alignment)시키고, 복잡한 작업에서도 신뢰성과 일관성을 높입니다.
이 기법들을 시간에 따른 발전 흐름으로 이해를 해 보면:
PPO와 거절 샘플링(예: RAFT)에서
자기 교정(Self-Correction)이 가능한 GRPO 및 MGRPO(Multy-Layer GRPO)로,
그리고 EM 정책 그래디언트 같은 최신의 프레임웍으로 진화 중입니다.
각 단계의 접근법들은, 구조화된 추론(Structured Reasoning), 중간 단계 검증(Intermediate Verification), 그리고 효율적인 경로 최적화(Efficient Trajectory Optimization)에 중점을 둡니다.
📈 추론 시점 스케일링 (Inference-Time Scaling)
RLM의 기본적인 사고 방식은, ‘먼저 제대로 생각한 뒤, 대답하라(Think Properly, Then Answer)’죠. RLM이 내부적으로 먼저 CoT(Chain-of-Thought) 형태의 추론 경로(Reasoning Trace)를 생성한 다음, 그 내부 연산에 근거해서 최종적인 답을 생성하는 구조를 말합니다.
이렇게 추론(Reasoning) 과정 자체가 추론 시점(Inference Stage)으로 이동했고, 모델은 스스로 생성한 ‘아이디어’(중간 추론 결과)를 활용해서 결과를 도출합니다. 말하자면, 초안 작성이나 계산 메모처럼 중간 단계를 보여주는 방식입니다.
이와는 다르게, 전통적인 LLM은 추론 과정이 내부에 감춰져 있어서 투명성(Transparency)이 부족합니다.
🔁 다중 샘플링 (Multi-Sampling)
RLM은 하나의 답변을 내고 거기서 끝내는게 아닙니다.
여러 개의 CoT(Chain-of-Thought)나 후보 정답을 동시에 샘플링한 뒤에, 다수결(Majority Voting) 또는 보상 모델(Reward Model) 기반으로 최종적인 정답을 선택합니다.
이런 방식은 ‘한 번의 시도로는 부족하다’는 철학에서 출발하는 거고, 여러 해결 경로를 병렬적으로 생성하고 집단적인 결론에 도달하는 게 더 높은 성능과 더 나은 추론 결과로 이어진다고 봅니다.
전통적인 LLM은 정적이고 일회성(One-Shot) 생성 방식에 의존하지만, RLM은 추론 구조를 연쇄(Chains), 트리(Trees), 그래프(Graphs) 형식으로 만들고, 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS), 빔 탐색(Beam Search), 최상위 선택(Best-of-N) 같은 전략들을 사용합니다.
🧠 정책 모델과 가치 모델 (Policy Model & Value Model)
RLM이 추론 경로를 탐색할 때, 서로 다른 역할을 가진 두 모델이 함께 작동합니다:
정책 모델(Policy Model): 다음 추론 단계를 제안하는, 아이디어 생성기(Idea Generator) 역할
가치 모델(Value Model): 특정한 추론 단계나 경로가 얼마나 좋은지를 평가하는 평가자(Evaluator) 역할
이런 분업 구조로, 좀 더 신뢰할 수 있는 다단계 추론 시스템을 만듭니다.

이렇게, 추론 언어 모델의 주요한 특징들을 보면, 단순히 다음 단어를 예측하는 것이 아니라 모델의 추론 성능을 최적화하는 데 초점을 맞추는 요소들이라는 걸 알 수 있습니다. 모델이 추론을 더 잘하게 될수록, 응답마다 생성하는 토큰 수도 더 많아지고, 이게 전략이나 추상화 같은 추론의 구성 요소들을 더 정밀하게 조정하는 데 도움이 됩니다.
각 추론 모델은 저마다의 독특한 요령과 알고리즘을 구현하고 있기 대문에, 특화된 아이디어와 개념들을 더 정밀하게 들여다볼 필요가 있습니다.
‘추론형 모델’로 분류되는 대표 사례들
AI2에서 추론 언어 모델(RLM)을 탐구하고 직접 구축하고 있는 네이선 램버트가 고맙게도 잘 정리된 추론 모델의 목록을 정리해 놓은 게 있습니다.
이 목록을 기반으로, 서로 다른 RLM들이 어떤 다양한 접근 방식을 사용하는지, 이런 모델들을 RLM으로 분류할 수 있는 어떤 핵심 요소가 있는지 살펴봅시다.
Major reasoning models so far with technical reports (focused on those w RL):
2025-01-22 — DeepSeek R1 — arxiv.org/abs/2501.12948
2025-01-22 — Kimi 1.5 — arxiv.org/abs/2501.12599
2025-03-31 — Open-Reasoner-Zero —
2025-04-10 — Seed 1.5-Thinking —— Nathan Lambert (@natolambert)
3:13 AM • Jun 11, 2025
🔹 DeepSeek-R1
DeepSeek-R1은 가장 먼저 공개 문서를 통해서 소개된 추론 모델 중 하나입니다. 이 모델은 다단계 훈련 전략(Multi-Stage Training Strategy)을 채택해서, 본격적인 강화 학습 전에 콜드 스타트 지도 파인튜닝 단계(Cold Start SFT Phase)를 추가하는 방식으로 훈련됩니다.
또, DeepSeek-R1은 대형의 비평가 모델(Critic Model)에 의존하지 않고서도 정책을 효율적으로 훈련하기 위해서, GRPO(Group Relative Policy Optimization)라는 특정한 강화 학습 알고리즘을 사용합니다.
📊 성능 결과:
MATH-500: 97.3%
AIME 2024: 79.8%
Codeforces: 96.3 Percentile
LiveCodeBench: 강력한 CoT(CoT: Chain of Thought) 성능
🔹 Kimi-1.5 (Moonshot AI)
Moonshot AI의 Kimi-1.5는 멀티모달 RLM(Multimodal RLM)이고, 텍스트 및 시각 데이터를 함께 처리할 수 있습니다. 이 모델은 컨텍스트 윈도우를 최대 128,000 토큰까지 확장해서 강화 학습의 스케일을 더 높이는 데 집중하고 있습니다.
Kimi-1.5는 부분 롤아웃(Partial Rollout)을 활용해서, 이전 추론 경로의 많은 부분을 재사용할 수 있습니다.
정책 최적화(Policy Optimization)는 표준적인 PPO(Proximal Policy Optimization)의 대안으로 Online Mirror Descent의 커스텀 버전을 사용해서 안정성을 확보합니다.
Online Mirror Descent는 파라미터를 직접 업데이트하는 대신, 변환된 공간(미러 도메인)에서 최적화를 수행한 뒤에 다시 원래 공간으로 반영하는 알고리즘입니다. 이 방식은 정책이 급격하게 바뀌는 것을 방지하면서도, 더 유연하고 안정적으로 수렴할 수 있게 해 줍니다.
또 다른 흥미로운 기능은 Long2Short Transfer인데요. 긴 CoT 모델에서 짧은 출력이나 소형 모델로 지식을 증류하는 학습 방식입니다.
📊 성능 결과:
AIME: 77.5%
MATH-500: 96.2%
Codeforces: 94 Percentile
MathVista: 74.9%

Image Credit: Kimi-1.5 오리지널 논문
🔹 Open-Reasoner-Zero (ORZ; StepFun)
StepFun이 개발한 Open-Reasoner-Zero (ORZ)는, 표준적인 PPO(Proximal Policy Optimization)와 일반화된 이득 추정(Generalized Advantage Estimation)만으로도 강력한 추론 모델을 훈련할 수 있음을 증명해 주고 있습니다.
이 모델은 전형적인 KL-Divergence Penalty를 제거하고, 단순한 규칙 기반 보상에 따라서 강화 학습을 진행하도록 설계되었습니다. 그 결과, CoT(Chain of Thought) 해답을 더 길고 풍부하게 생성하기 시작했습니다.
📊 성능 결과:
AIME 2025: 36.0%
MATH500: 92.2%
🔹 Seed 1.5-Thinking (ByteDance Seed)
ByteDance Seed의 Seed 1.5-Thinking은 추론 능력을 강화하기 위해서 MoE(Mixture-of-Experts)를 채택한 모델입니다. 이 모델은 총 200B 파라미터 중 약 20B 파라미터만 활성화되는 방식으로 작동하는데, 이런 설계를 통해서 특화된 ‘사고(Thinking)’ 모듈들을 효율적으로 사용하면서, 추론의 다양성을 확보하면서 추론 속도(Inference Speed)도 유지합니다.
훈련은 표준적인 인스트럭션 튜닝과 추론 중심 과제에 대한 반복적 강화 학습으로 구성됩니다.
📊 성능 결과:
AIME 2024: 86.7%
GPQA (과학): 77.3%
🔹 Phi-4-reasoning (마이크로소프트)
마이크로소프트가 개발한 Phi-4-reasoning은 CoT SFT(Chain-of-Thought Supervised Fine-Tuning; CoT 기반 지도 파인튜닝)과 결과 기반의 강화 학습(Outcome-Based Reinforcement Learning)의 짧은 단계를 결합한 모델입니다.
지도 학습에서는 선별된 ‘가르치기 좋은(Teachable)’ 프롬프트와 고품질의 단계별 해설(Step-by-Step Solutions)을 사용합니다.
📊 성능 결과:
Phi-4-reasoning은 모델 크기가 크지 않음에도 불구하고, 상위권 수준의 추론 성능을 달성한 점이 특징입니다. 모델 크기가 14B 파라미터 수준인데도, 아래 그림과 같이 우수한 상위권 성능을 보여줍니다:

Image Credit: Phi-4-reasoning 테크니컬 리포트
🔹 Llama-Nemotron (엔비디아)
엔비디아의 Llama-Nemotron은 추론 속도(Inference Speed)와 메모리 사용량(Memory Use) 최적화에 중점을 둔 모델입니다. 이 모델은 Llama 3 모델을 기반으로 ‘신경망 구조 탐색(Neural Architecture Search)’을 수행, 정확도를 손상시키지 않으면서도 가장 효율적인 네트워크를 자동으로 찾아냅니다.
후속 학습(Post-Training)은 아래와 같이 2단계의 구성으로 진행됩니다:
선별된 추론 데이터에 대한 지도 파인튜닝(Supervised Fine-Tuning, SFT)
대규모 강화 학습(Large-Scale Reinforcement Learning, RL)
특이하게도, Llama-Nemotron은 동적 추론 전환(Dynamic Reasoning Toggle) 기능을 도입했습니다. 즉, 추론 시점(Inference Time)에서 사용자가 빠른 일반 대화 모드(Fast Chat)와
완전한 추론 모드(Full Reasoning Mode) 간에 전환을 할 수 있습니다.
📊 성능 결과:
MATH 500: 97%
AIME 2025: 75.2%
LiveCodeBench: 68.1%
🔹 Qwen 3 (알리바바)
알리바바의 Qwen 3은 빠른 응답과 깊은 추론(Deep Reasoning)을 하나의 모델 내에서 유연하게 처리할 수 있도록 설계된 통합형 모델입니다. 이렇게 하기 위한 조정은 시스템 프롬프트와 쿼리 분석을 통해서 이루어지구요.
Qwen 3은 다국어 모델이고, 총 235B 파라미터 중 약 22B 파라미터가 활성화되는 MoE(Mixture-of-Experts)를 사용합니다.
후속 학습 전략은 다음과 같은 기법을 포함합니다:
CoT(Chain-of-Thought) 데이터에 기반한 지도 파인튜닝(SFT)
강화 학습(Reinforcement Learning)
다양한 추론 스타일과 언어 간의 일관성을 유지하기 위한 새로운 통합 정렬(Unified Alignment) 프로세스
📊 성능 결과:
AIME 2025: 약 81.5%
LiveCodeBench: 70.7%
Codeforces: 약 2056점
🔹 Skywork Open Reasoner 1 (Skywork AI)
Skywork AI의 Open Reasoner 1은 DeepSeek-R1-Distill 모델을 기반으로 하는데, 강화 학습을 더 개선한 후속 파인튜닝 파이프라인(RL Fine-Tuning Pipeline)을 적용했습니다.
핵심적인 알고리즘은 보상 기반 정책 최적화(Reward-Driven Policy Optimization)이고, 이는 PPO(Proximal Policy Optimization)와 유사한 방식으로 작동합니다. 수학 및 코드 과제에서 정답을 보상으로 사용하고, 훈련 중 엔트로피(Entropy)를 모니터링해서 다양한 해법 경로를 탐색하게 합니다.
📊 성능 결과:
AIME 2024: 82.2%
AIME 2025: 73.3%
LiveCodeBench: 63.0%
🔹 Xiaomi MiMo (샤오미)
샤오미의 MiMo는 7B 파라미터 규모의 소형 모델이지만, 사전 훈련과 강화 학습을 엔드-투-엔드 최적화(End-to-End Optimization)해서 강력한 추론 성능을 갖추게 된 RLM입니다.
MiMo 팀은 3단계의 데이터 혼합 전략을 통해서 25조 토큰 규모의 말뭉치를 구축했고, 사전 훈련 단계에서는 다중 토큰 예측(Multi-Token Prediction) 을 목표로 해서 한 번에 여러 개의 토큰을 예측할 수 있도록 했습니다.
강화 학습은 총 13만 개의 수학 및 프로그래밍 문제(Custom Dataset)를 사용하여 진행되고, 보상 구조(Reward Shaping)와 난이도 기반 재샘플링(Difficulty-Driven Resampling)을 포함합니다.
📊 성능 결과:
AIME 2025: 55.4%
LiveCodeBench: 57.8%

Image Credit: MiMo 오리지널 논문
🔹 Magistral (미스트랄 AI)
Magistral은 미스트랄 AI가 개발한 추론 언어 모델로 가장 최근에 등장한 모델 중 하나죠 순수한 강화 학습 접근 방법을 사용해서 주목받고 있습니다.
Mistral은 자체적으로 스케일링할 수 있는 강화 학습 파이프라인을 구축하고, 훈련 전체를 자사의 인프라와 모델만을 활용해서 수행했습니다.
Magistral은 GRPO(Group Relative Policy Optimization) 알고리즘과 비동기 분산형 강화 학습 시스템(Asynchronous, Distributed RL System)을 구현했습니다.
이 시스템에서는:
생성기(Generator)가 끊임없이 출력을 생성하고,
검증기(Verifier)가 즉시 점수를 매기고,
훈련기(Trainer)가 모델을 지속적으로 업데이트하는 방식으로 작동합니다.
Magistral은 텍스트 기반의 강화 학습(RL Training on Text Only) 이후에도 사전 훈련(Pre-Training)에서 습득한 다음과 같은 강점을 유지합니다:
멀티모달 이해 능력(Multimodal Understanding)
인스트럭션을 따르는 능력(Instruction Following)
함수 호출 형식(Function Call Format) 처리 능력
📊 성능 결과(Magistral Small 모델 기준):
AIME 2025: 최고 62.8
GPQA Diamond: 68.8%
LiveCodeBench: 55.8%

Image Credit: Magistral 오리지널 논문
지금부터 알아볼 오픈AI, 앤쓰로픽, 구글 등 대형 AI 기업이 개발한 모델들은, 강력한 추론 능력과 함께 흥미로운 에이전트로서의 특성도 보여주고 있습니다.
🔹 앤쓰로픽 – Claude 4
앤쓰로픽의 Claude 4는 ‘확장된 사고(Extended Thinking)’ 모드를 탑재하고 있는데, CoT (Chain-of-Thought) 단계를 내부적으로 구현하고, 웹 브라우징이나 코드 실행(Code Execution) 같은 외부 도구를 추론 중에 호출할 수 있습니다.
Claude 4는 병렬 추론 경로(Parallel Reasoning Paths)를 동시에 실행하고, 내부 보상 모델(Internal Reward Model)을 사용해서 가장 좋은 답변을 선택합니다. 또, 장기적인 지식 추적을 위한 기억 파일(Memory Files)도 생성할 수 있습니다.
🔹 오픈AI – o1 / o3
오픈AI의 o1은 애초부터 단계별 추론을 염두에 두고 훈련한 모델로, 강화 학습을 활용해서 계획(Planning), 성찰(Reflection), 자기 교정(Self-Correction) 능력을 내재화했습니다.
후속 모델인 o3는 이 CoT 기반 추론을 더욱 강화한 모델입니다. o3는 추론 노력의 수준을 조절할 수 있게끔 해 주는데요. 예를 들어서, o3-pro는 더 많은 연산 능력을 사용해서 다중 추론 경로(Multiple Reasoning Chains)를 병렬 실행하고, 내부 점수화 모델(Internal Scoring Model)로 최적의 답을 선택합니다.
또, 멀티모달 처리와 긴 컨텍스트 윈도우도 지원합니다.
🔹 구글 – Gemini 2.5
구글의 Gemini 2.5는 개발자가 추론의 깊이(Reasoning Depth)를 조절할 수 있는 ‘ThinkingBudget’ 인터페이스를 도입했습니다. 이 모델은 동적으로 CoT를 스케일링할 수 있고, 계획 수립(Native Planning)을 지원해서, 속도, 정확도, 연산 자원 사이의 균형을 맞추는 데 도움을 줍니다.
많은 기업에서 추론 모델을 개선하는 데 집중하고 있는데, 우리는 사용자로서 이 모델들의 취약한 부분에 주목하는 것도 중요하다고 생각합니다. 당연하게도, 추론 모델들도 아직 완벽한 AI 제품은 아니기 때문에죠. 그 중 일부의 한계점을 다음 섹션에서 알아보겠습니다.
한계점: Overthinking(과도한 사고) 및 기타 문제들
추론 언어 모델을 사용하는 개발자, 그리고 사용자들이 겪는 중요한 문제들 중 하나가 바로, ‘과도한 사고(Overthinking)’일 겁니다.
아마 여러분도 이런 상황을 한 번쯤 겪어보셨을 겁니다. 아주 쉬운 작업을 하려고 했는데, GPT-4o 같은 일반적인 거대 언어 모델로 전환하는 것을 깜빡하고, o1이나 o3 같은 추론 모델을 그대로 사용하는 경우요.
그 결과로, 추론 언어 모델이 사실은 단순한 질문인데 지나치게 철저하게 추론을 시작하면서, 필요없는 추론 단계까지 모두 보여주는 상황이 발생하는 거죠.

‘굳이 필요없는’ 추론을 하게 되는 경우.
대형 추론 모델)이 긴 추론 체인을 생성하도록 유도되다 보니, 때로는 같은 내용을 반복하거나, 답변의 정확도 향상에 도움이 되지 않는 불필요한 단계를 만들어내기도 합니다. 이런 현상은 연산 자원을 낭비하게 될 뿐만 아니라 심지어는 정확도를 떨어뜨릴 수도 있습니다.
이런 상황은, 모델이 언제 멈춰야 할지를 스스로 판단하지 못한다는 점을 극명하게 보여주는 사례죠. 아이러니하게도, 이런 순간에는 더 단순한 대형 언어 모델이 더 나은 결과를 줄 수도 있습니다.
또 다른 문제는, 추론 모델(Reasoner)이 생성하는 내부 추론 체인이 사람이 읽기 어려운 형식으로 표현될 수 있다는 점입니다. 가끔은 이게 기호로 된 코드(Symbolic Code)처럼 보이기도 하죠.
이게, 모델이 효율성을 높이기 위해서 스스로 만들어 낸 구조화된 표현 방식일 수도 있지만, 반대로 이런 문제가 자연어 정렬(Natural Language Alignment)을 항상 유지하도록 훈련된 전형적인 LLM에서는 발생하지 않습니다.
하나 더 언급하자면, 추론 언어 모델이 모든 작업에 대해서 적용할 수 있는 범용의 추론기(Universal Reasoner)는 아니라는 점이죠. 추론 언어 모델은 주로 수학, 논리, 코딩 같은 과제에서 뛰어난 성과를 보이지만, 창의적인 작업이나 개방형 문제를 해결하는 데 있어서는 상대적으로 뒤처지는 경우가 많습니다.
그렇다면 논리적으로 이런 질문이 생길 거예요:
이런 문제들을 어떻게 해결할 수 있을까요?
그리고 추론 모델은 앞으로 어떻게 진화할 수 있을까요?
앞으로의 전망
Overthinking을 줄이기
‘Overthinking’, 이 ‘과도한 사고’는 단지 자원을 낭비하는 것에 그치는 게 아닙니다. 추론 모델을 실제 환경, 특히 지연 시간에 민감한 환경(Latency-Sensitive Environments)에 배포해야 한다면 가장 중요하고도 큰 병목(Bottleneck) 중 하나가 되죠.
일부의 모델은 이미 이 문제를 해결하기 위해서 추론 체인의 길이(Reasoning Chain Length)에 제한을 두는 등의 시도를 하고 있습니다. 예를 들어서, Kimi-1.5는 단축 CoT 모드(Short-CoT Mode)를 제공하는데, 이는 단순한 질의에 대해 간결한 추론(Compact Reasoning)을 우선시 합니다.
추론 예산(Reasoning Budget)으로 ‘사고의 깊이’ 조절하기
점점 더 많은 연구에서, 작업(Task)에 따라서 모델이 얼마나 많이 추론에 노력을 들여야 하는지를 정교하게 조정하는 방법(Calibration)에 초점을 맞추고 있습니다.
구글의 Gemini 2.5 모델의 경우, 이걸 위해서 thinkingBudget
파라미터라는 걸 도입했습니다. 이 파라미터는 추론을 위해서 쓸 토큰 예산(Token Budget)을 명시적으로 설정할 수 있는데, 그 값은 0 (사고 흐름 비활성화), 고정된 제한값(Fixed Limit), 또는 -1 (다이나믹하게 확장, Dynamic Scaling) 중 하나로 설정됩니다.
학계에서도 AdaCtrl과 Budget Guidance 같은 연구를 보면 ‘적응형 추론 깊이(Adaptive Reasoning Depth)를 탐색하고 있습니다. 이런 시스템은 먼저 질문의 난이도를 평가하고, 자동으로 추론 경로(Reasoning Path)를 조정하거나, 사용자가 ‘[Easy]’ 또는 ‘[Hard]’ 같은 간단한 태그를 사용해서 제어할 수 있게끔 해 줍니다.
이 분야는 아직은 초기 단계이지만, 그 목표는 분명합니다: 필요할 때는 깊이 있는 추론을 하고, 그렇지 않을 때는 빠르게 반응하는, 더 신뢰할 수 있고 효율적인 모델을 만드는 겁니다.
표준화된 ‘Budget’ 인터페이스 적용
o3, Claude 4, Qwen 3, Llama-Nemotron 같은 일부의 상용 추론 언어 모델들은 ‘가벼운(Light)’ 추론 모드와 ‘깊은(Hard) 추론 모드 사이를 내부적으로 전환하는 것으로 보입니다. 그런데 이런 기능이 사용자가 확인하게끔 되어 있지는 않죠.
그런 관점에서 현재 부족한 점은, 추론 방식의 절충(Tradeoff)을 명확하고 표준화된 인터페이스로
사용자가 직접 관리할 수 있게끔 해 주는 수단을 만들어 주는 것이겠죠.
만약 추론 예산을 제어하는 것이 모델 전반에 걸쳐서 공유되는 공통 인터페이스 – 예: API 파라미터나 사용자 수준의 토글 – 로 구현된다면, 효율성과 제어 수준을 판단해 가면서 결정할 수 있을 겁니다.
모델은 작업의 복잡도에 따라서 자원을 다이나믹하게 할당할 수 있고, 사용자는 지연 시간(Latency), 비용(Cost), 출력 길이(Verbosity)에 대한 스스로의 선호도에 따라 추론 깊이(Reasoning Depth)를 직접 조절할 수 있게 될 겁니다.
추론 능력, 확장(Expanding)할 것인가 심화(Extending)할 것인가
추론 언어 모델 영역에서 던져야 할, 다음의 큰 질문은, 적용 범위를 확장할 것인가(Expand), 아니면 확장하지 않고 심화시킬 것인가(Extend) 하는 것일 겁니다.
‘확장’의 방향(Expansion Path)이란 건, RLM이 적용되는 도메인을 넓히는 것이죠 — 즉, 코드와 수학 중심에서 벗어나서 더 개방형의 추론(Open-Ended Reasoning), 창의적인 문제 해결(Creative Problem-Solving), 그리고 의사결정(Decision-Making) 영역으로 나아가는 방향입니다. 이 경로는 더 다양한 복잡한 작업들을 처리할 수 있는 ‘무겁고 범용 목적에 가까운 모델(Heavier, More General-Purpose Models)’을 지향합니다.
반대로, ‘심화’의 방향(Extension Path)은 RLM이 자신의 강점에 집중하도록 합니다 — 즉, 논리(Logic), 수학(Math), 구조화된 문제 해결(Structured Problem-Solving)입니다.
이 경우의 목표는 범위를 넓히는 것이 아니라, 더 깊이 있는 전문화의 방향입니다.
이런 ‘전문화’는 단점이 아니라 오히려 장점이 될 수 있습니다. 모델마다 잘하는 영역을 맡게 해서, AI 시스템 전체의 효율적인 분업 구조를 만들 수 있기 때문이죠. 만약 어떤 RLM이 특정한 도메인에 특화된 전문가로서의 역할을 정교하게 다듬는다면, 다른 모델들은 창의적 글쓰기, 사회적 추론, 아니면 멀티모달 작업을 위한 방향으로 병렬적으로 진화해 나갈 수 있을 겁니다.
에이전트로의 진화 가능성
추론 모델은 그 자체로 에이전트라고 할 수는 없습니다 - 그렇지만, 거기에 점점 가까워지고 있는 것만은 사실입니다.
에이전틱 시스템은 일반적으로 일곱 가지 핵심 구성 요소를 가지게 되는데요: 프로파일링(Profiling), 지식(Knowledge), 기억(Memory), 추론 및 계획(Reasoning and Planning),
성찰(Reflection), 행동(Actions), 그리고 인간-AI 간의 소통(Human-AI Communication)이 그 일곱 가지 구성 요소예요.
추론 모델을 들여다보면, 이미 강력한 추론 능력을 가지고 있고, 세션 내의 자기 수정(In-Session Self-Correction) 같은 성찰적 행동(Reflection Behaviors)도 점점 보여주기 시작하고 있죠.
Claude 4라든가 o3같은 일부 모델들은 기초적인 기억의 흔적(Memory Traces)이라든가, 연구 환경에서의 도구 사용 같은 원형적인 에이전트의 특성도 보여주고 있습니다.
여기서, 추론 모델과 에이전트의 구성 관련해서, 두 가지 생각해 볼 만한 방향이 나오게 됩니다:
추론 언어 모델을 에이전트의 구성 요소로 활용하기
모듈형 에이전트 시스템 안에서, RLM은 추론 엔진(Reasoning Engine) 역할로 플러그 앤 플레이(Plug-and-Play) 방식으로 통합될 수 있습니다. 물론 주변에 계획(Planning), 기억(Memory), 도구 실행(Tool Execution)을 위한 보완 모듈을 배치해야겠죠.추론 언어 모델을 원형적 에이전트(Proto-Agents)로 발전시키기
다른 방향으로는, 개발자들이 RLM에 지속적인 기억(Memory Persistence), 행동 수행 능력(Action-Taking), 사용자 모델링(User Modeling)을 점진적으로 추가해서, 독립적인 에이전트 시스템으로 진화시키는 방법도 있습니다.
어느 쪽이든, RLM은 에이전트 아키텍처의 추론 코어(Reasoning Core)을 구축하는 데 있어서
아주 강력한 기초를 제공하고, 비록 아직은 에이전트라고 할 수 없을지 모르지만, 그 방향으로 가는 데 반드시 필요한 핵심 구성 요소인 것은 분명합니다.
맺으며
추론 모델(Reasoning Model)은 단순히 새롭게 등장한 마케팅 용어가 아닙니다. 이미 그 이상의 존재감을 드러내면서, 우리가 AI에게 바라는 다음 단계의 구체적인 진화물로서의 모습을 보여주고 있습니다.
개발자와 연구자들에게는, 추론 모델은, 과학적 발견이나 복잡한 소프트웨어 엔지니어링에 꼭 필요한 검증 가능하고 단계적인 문제 해결(Verifiable, Step-by-Step Problem-Solving)을 도와주기 위해서 목적에 맞게 설계된 강력한 새로운 도구입니다.
추론 모델의 부상과 함께, 우리가 AI, 그리고 AI 모델에 대해서 어떻게 생각하고 접근하는지에 대해서 ‘비판적으로 재평가(Critical Re-Evaluation)’를 해 볼 필요가 있습니다.
이제 ‘하나의 모델로 모든 것을 해결(One Model Fits All)’하는 개념에서 더 전문화된 도구 키트(Specialized Toolkit)의 개념으로 옮겨가고 있다고 봅니다.
그런 관점에서, 지금의 핵심 과제는 더 강력한 추론기를 만드는 것이 아니라, 어떤 모델을 언제 써야 하는지를 조율하는 문제(The Challenge of Orchestration)라고 할 수 있습니다: 즉, 빠르고 창의적인 대형 언어 모델을 써야 할지, 또은 신중하게 작동하고 연산 자원을 많이 쓰는 추론 모델을 써야 할지를 아는 것 말이죠.
미래는 이제 단순히 더 강력한 추론 모델을 구축하는 것이 아니라, 언제 '빠르게 사고(Think Fast)'하고, 언제 '천천히 사고(Think Slow)'할지를 판단할 수 있는 지혜(Wisdom)’를 시스템 안에, 그리고 우리 자신 안에 구축하는 일에 달려 있습니다.
다니엘 카너먼(Daniel Kahneman)이 지금 여기에 있었다면, 어떤 이야기를 했을까요? 어쩌면 이 아이러니를 흥미롭게 여겼을지도 모르겠어요. 지난 오랜 기간 동안, 시스템 1(System 1)과 시스템 2 (System 2)라는 용어는 사람의 인지(Human Cognition)를 설명하기 위한 은유적 개념으로 쓰였는데요. 이제는 이 개념들이 AI 워크플로우에서 일어나게 되는 런타임 결정(Runtime Decision)을 의미하는 걸로 바뀌어가고 있으니 말이죠.
보너스: 참고자료
A taxonomy for next-generation reasoning models by Nathan Lambert
Artificial intelligence learns to reason by Melanie Mitchell
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Reasoning Model (deepseek-reasoner) from DeepSeek API docs
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
What Makes a Good Reasoning Chain? Uncovering Structural Patterns in Long Chain-of-Thought Reasoning
Beyond Accuracy: The Role of Calibration in Self-Improving Large Language Models
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply