AI 영역에서 다시 한 번 ‘효율성’을 향한 경쟁이 진행되고 있습니다 - 바로 ‘추론 (Reasoning)’의 효율성인데요.
‘추론 (Reasoning)’은 이제 명실공히 현대적인 LLM이 가져야 할 핵심적인 능력이 됐죠. 그런데, 이런 ‘추론’ 모델들이, 과연 ‘언제 생각을 멈춰야 하는지’ 배울 수도 있을까요?

Overthinking 이슈를 보여주는 자료. 왼쪽 그림에서는, 오른쪽에 위치한 빨간 색의 추론형 모델들이 훨씬 더 많은 토큰을 사용합니다. Image Credit: Tencent AI Lab
생각하는, 즉 추론하는 모델들이 종종 - 상당히 - 지나치게 길게, 또는 지나치게 많이 생각을 하는 ‘Overthinking’ 문제는 이미 잘 알려져 있죠. 또, 단순히 ‘Overthinking’하는 것을 넘어서, 특히 에이전트 환경에서라면 거대 언어모델이 ‘외부 환경하고 상호 작용을 하면서 답을 찾아나가기보다는 내부적인 시뮬레이션을 우선해서 계속 돌리느라 행동을 하지 않는 패턴을 보인다’는 관찰도 있고, 이걸 ‘Reasoning-Action Dilemma’라고 부르기도 합니다 - 즉, 실제 시스템의 반응을 봐 가면서 적응하면 더 좋을 텐데, 예측된 행동에 대해서 복잡한 연쇄 사슬을 구성하는데 더 많은 자원과 시간을 할당하더라 하는 거죠.
이에 대한 대답중 하나로, 지난 주에 Thinkless, AdaptThink, ASRR, Self-Braking Tuning 등 다양한 논문들이 쏟아져 나왔습니다. 이 논문들은 모두 ‘같은 고민의 지점’을 이야기하고 있는데요. 바로:
추론 (Reasonng)은 기본적으로 비용이 많이 드는 능력이다
대부분의 작업에는 사실상 복잡하게 500개 정도까지 토큰을 사용해서 생각을 할 (CoT를 할)필요가 없다
는 겁니다.
위에서 이야기한 논문의 프레임웍들은 추론의 깊이를 전환하거나 중복되는 단계를 억제해서 모델이 스스로 조절을 하도록 가르치는데, 접근 방식은 다양합니다. Thinkless나 AdaptThink는 ‘제어 토큰’과 ‘강화학습’을 함께 활용하는 방향이고, ASRR이나 SBT (Self-Braking Tuning)는 내부적인 피드백 루프로 과도한 사고를 하지는 않는지 판단하고 통제하는 방식이예요. 하지만 목표는 같죠: 정확도를 유지하거나 높이면서, 추론의 ‘효율성’을 극대화하는 겁니다.
그런데, 모두가 ‘효율성’을 기치로 비슷한 성과를 추구하게 되면서, 이런 다양한 논문들이 똑같이 ‘점진주의’의 한계도 드러내게 되는 거 아닌가 하는 생각도 듭니다.

MIT 미디어랩의 니콜라스 네그로폰테가 한 말. Image Credit: QuoteFancy
저 밑바닥을 헤집어 보면, 4개의 논문 모두 같은 목표 (“AI가 불필요하게 오래 생각하지 않게 하자”), 비슷한 방법 (토큰 제한, 적응형 제어, 다이나믹한 사고)을 취하고 있고 그저 기술적 디테일만 약간씩 다를 뿐이니까요. 마치, 교통 체증 문제를 해결하기 위해서 도로를 조금씩 더 넓히거나 신호등 타이밍을 조절하는 것 같은 해결책을 내는 것 같은 느낌이죠.
하지만 결국은, ‘더 큰’, ‘더 근본적인’ 질문을 던져야 할 때가 곧 올 겁니다 - 바로, ‘모델은 왜 이런 방식으로 생각하는 걸까’ 하는 질문이죠. 효율성 관점에서 ‘모델이 몇 단계를 거쳐서 생각해야 할까’가 아니라 ‘왜 그런 단계를 거쳐서 생각하게 되는 걸까’ 하는 질문 말입니다.
앞서 이야기한 4개의 논문을 비롯한 추론의 ‘효율성’을 향한 중간 단계들은, ‘궁극적으로 AI가 스스로의 사고 과정을 관찰하고 조절할 수 있는’, 즉 ‘자기 성찰을 할 수 있는’ 능력을 부여하는 집단적인 흐름의 시작을 의미하는 걸지도 모르겠네요.
트위터 라이브러리 (Twitter Library) 🐦
JEPA (Joint Embedding Predictive Architecture)는 현재 Meta AI에 있는 얀 르쿤이 소개한 AI 모델의 구축 기법이죠.
얀 르쿤이, ‘생성형 모델은 궁극적인 AI의 모델이 아니다’라는 관점을 가지고 계신 건 많이 알고 계실 테고, 그런 관점에서 ‘다음 토큰이나 픽셀을 예측하는게 아니라, 입력값의 누락된 부분이나 입력값이 미래에 가지게 될 일부분의 표현 (Representation)을 예측’하는 접근으로 트랜스포머 기반 아키텍처와 차별화합니다.
궁극적으로는 단순한 저차원의 ‘패턴 매칭’을 넘어서 ‘개념적 이해’를 할 수 있는 모델을 만드는 것이 목표인 이 JEPA 아키텍처는 ‘추상적인 추론’을 할 수 있는 AI를 향해 나아가고 있습니다.
오늘은, JEPA로부터 파생되어 나온 12가지 유형의 기법을 소개합니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
튜링 포스트 코리아팀이 읽고 있는 것들
아마존이 사람 관리자 대신에 스캐너, 카메라, 생체인식 기술 등을 포함한 통합적인 AI 시스템을 활용해서 작업자의 생산성을 실시간으로 모니터링하고 비활동 시간을 기록해서 경고·해고를 자동화한다고 하네요. 이런 감시 도구는 노동자의 행동을 통제할 뿐 아니라, 공포, 고립감을 조성해서 작업자들 간의 신뢰, 연대 형성을 방해한다고 합니다.
또, 아마존은 반 노조적 메시지를 노동자들에게 전송해서 조직화 시도를 방해하기도 하고, 이 과정에서 Amazon Q 같은 예측 시스템도 활용해서 반노조 선전, 위험 분류, 격리 조치까지도 한다고 합니다.
아마존, 알고리즘적인 통제 전략으로 근로자 간의 연대를 방해하고 사실상 노동운동을 무력화하고 있다고 봐야 할 것 같습니다.
AI, 뉴스가 소비되는 방식을 근본적으로 변화시킬 수 있죠. 전통적인 뉴스 미디어의 가치 사슬은 생산, 유통, 소비 이렇게 구성되는데, 그 중에 ‘유통’은 이미 기술의 발전으로 크게 변화했습니다. 그런데 ‘소비’의 측면은 여전히 변화가 별로 없다고 봐도 과언이 아닌데요.
여기서 ‘AI Intimacy Dividend’라는 개념이 등장합니다 - 사람들이 AI와 대화하면서 더 개인적이고도 더 진정성있게 정보를 소비하고, 뉴스나 정보를 더 깊이 이해하려고 하는 경향을 뜻해요. 좀 더 깊이 고민해 봐야겠지만, 이런 방향의 변화는 뉴스를 더 능동적으로 수용하면서 의미를 형성하게끔 할 수 있는 그런 잠재력을 지니고 있습니다. 그런 만큼, 기술적, 윤리적, 사회적 챌린지가 있겠죠? 이에 대해서는 신중한 접근이 필요할 것 같습니다.
OpenAI has an unsubtle communications strategy by Dave Karpf
오픈AI - 이 시대의 AI 스타트업이라고 해도 과언이 아닌 이 회사. 이 글에서는 오픈AI가 ‘진정한 기술 혁신’보다는 ‘미래 지향성’, ‘비전’ 등을 강조하면서 금융 시장에서의 가치를 높이고, 투자자들에게 어필하려는 전략을 취하고 있다고 지적하고 있습니다.
실제의 기술적 진보보다는, 마케팅과 이미지 관리에 중점을 두는 커뮤니케이션 전략이라는 이야기일 텐데요. 글쎄요, 판단은 여러분께 한 번 맡겨보겠습니다.
How Does Claude 4 Think? by Dwarkesh Patel with Sholto Douglas & Trenton Bricken
Sholto Douglas와 Trenton Bricken이 참여한 Dwarkesh의 팟캐스트 에피소드입니다.
이번에 발표된 앤쓰로픽의 Claude 4에 대해서 이야기를 나누는데, 성공적인 강화학습의 적용/확장으로 수학과 프로그래밍 분야에서 전문가 수준의 성능을 달성한 점, 모델의 사고 및 의사결정 과정에 대한 추적 및 역설계 과정, 완전 자율 에이전트 개발 경과와 현재 수준, AGI 도래에 대비한 국가, 사회의 준비 사항 등에 대해서 이야기합니다.
금주의 주목할 만한 업계 동향 📰
마이크로소프트 빌드 2025, 구글 I/O 2025 소식을 제외하면, 금주의 가장 흥미로웠던 소식은 아무래도 구글의 AlphaEvolve, 그리고 오픈AI의 Codex였는
새로 나온, 주목할 만한 연구 논문
‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!
주목할 만한 최신 AI 모델
🌟🌟 BAGEL은 다양하게 교차 배치된 Multimodal 데이터로 훈련한 오픈소스 Foundation 모델로, 추론, 이해 등의 영역에서 동급 모델들을 능가하는 성능을 보여줍니다. → [논문 보기]
🌟 앤쓰로픽의 Claude Opus 4 & Sonnet 4는 병렬적으로 도구를 사용한다거나 로컬 파일로 메모리를 유지하고, SWE-Bench 및 에이전틱 워크플로우를 돌릴 때 최고의 결과를 보여주는 Extended Thinking 모드와 Hybrid 모드를 도입한 새로운 모델입니다. → [더 보기]
🌟 앤쓰로픽의 Claude Code가 IDE 통합 기능, 백그라운드 GitHub 작업 기능, 커스텀 에이전트를 지원하는 SDK와 함께 정식으로 출시되었습니다. 기존 Claude의 능력을 실무 개발에 사용할 수 있는 도구 레벨로 확장합니다. → [더 보기]
🌟 구글의 Gemma 3n은 4B 메모리 Footprint를 가지고 있고, Latency-Quality 간의 트레이드오프를 위한 다이나믹 Submodel을 생성, 로컬 추론용으로 설계한 Mobile-First의 Multimodal 모델입니다. → [더 보기]
마이크로소프트 리서치와 칭화대가 함께 연구한 Reward Reasoning Model은 적응형 Test-Time Computing과 함께 CoT Reward Modeling을 제안, 자체적으로 추론 과정을 진화시켜 더 Alignment가 잘 맞도록 해 줍니다. → [논문 보기]
🌟 R3: Robust Rubric-Agnostic Reward Models는 고정된 Rubric 없이 해석 가능하고 일반화할 수 있는 Reward Modeling을 도입, Alignment의 유연성과 투명성을 개선해 줍니다. → [논문 보기]
🌟 Neurosymbolic Diffusion Models는 Discrete Diffusion을 활용, Dependency를 모델링해서 심볼릭 추론의 정확도를 향상시키고, 보정과 일반화가 더 잘 되게끔 해 줍니다. → [논문 보기]
🌟 Datadog의 Toto는 Observability 지표를 사용한 시계열 예측을 하기 위해 만들어진, 1억 5천 1백만 개의 파라미터를 가진 Decoder 전용 Foundation 모델입니다. → [논문 보기]
추론 (Reasoning) 효율성 개선 및 최적화
🌟 Soft Thinking은 연속 공간에서 훈련이 없이도 Soft Token을 생성하는 방법으로, 추상적인 추론을 모방하고 LLM의 정확도와 효율성을 개선하는 모습을 보여줍니다. → [논문 보기]
🌟 Reasoning Path Compression은 재훈련을 하지 않고 의미론적인 추론의 Trace를 압축, 정확도를 유지하면서도 추론 처리량을 향상시켜주는 기법입니다. → [논문 보기]
🌟 General-Reasoner는 대규모의 데이터셋과 생성 모델을 기반으로 답변을 검증해서, 다양한 도메인에서 거대 언어 모델의 추론 성능을 강화해 줍니다. 이 결과는 기존의 방법을 능가하는 성능을 보여준다고 합니다. → [논문 보기]
멀티모달 및 다양한 도구를 활용한 추론 (Reasoning)
사후훈련 통제 및 튜닝 전략
자율형 에이전트 및 과학적 연구과정 자동화
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!



