또 한 번의 ‘모델 전쟁’의 서막?
지난 주의 모델 출시 소식들만 놓고 보면, 보통이라면 2~3개월치 나올 뉴스거리가 한꺼번에 나온 느낌이라고나 할까요?
(사람) 슈퍼모델들이 지난 주 미스 유니버스 대회에서 빛나던 바로 그 때, 수많은 AI 연구소들도 마치 미스 유니버스 후보들이 경쟁하듯이 ‘슈퍼 모델’들을 줄줄이 내놨습니다.

미스 유니버스 2025. Image Credit: 로이터 통신
우연일까요? 글쎄요, 어쨌든 두 세계 모두 ‘슈퍼 모델 전쟁’이 벌어진 건 맞는 것 같습니다.
이번 FOD에서는, 지난 주 나온 중요한 모델들이 어떤 건지, 각각 어떤 강점을 가지고 있는지, 그리고 어떤 상황에서 어떤 모델을 선택하면 좋을지 한 번 같이 살펴보겠습니다.
먼저, 요즘 AI 판의 분위기를 제대로 주도하고 있는 ‘오픈소스’ 계열의 모델부터 보죠.
Olmo 3: 오픈소스 최초로 ‘트레이닝 전 과정’을 스토리보드처럼 완전히 공개
AI2는 지금까지 대형 연구소들이 끝내 하지 않던 일을 해냈습니다: 단순히 모델의 가중치만 공개한 것이 아니라, 전체의 훈련 흐름 — 데이터, 코드, 체크포인트, 평가 파이프라인까지 — 전부 공개했습니다. 프리트레이닝부터 강화학습, 포스트트레이닝 체크포인트까지 모든 단계가 다 공개되어 있어요! 정말, 박수를 받을 만 합니다.
왜 이런 움직임이 중요할까요?
Olmo 3는 추론 능력이 어떻게 어떤 단계를 거치면서 생겨나는지 그 과정을 그대로 볼 수 있다는 점이 가장 큰 특징입니다.
훈련의 모든 단계 — 중간 학습 체크포인트, 강화학습 단계, 후처리·포스트트레이닝 단계 — 까지 모두 공개되어 있어서, 원하는 지점에서 모델을 그대로 가져와(포크) 직접 실험하거나 이어서 훈련시킬 수 있습니다.
특히 32B Think 버전은 수학, 코드, 추론 같은 ‘하드 리즈닝(Hard Reasoning)’ 영역에서 Qwen 등의 상위급 오픈 모델들과 견줘도 충분히 경쟁력 있는 성능을 보여줍니다.
이렇게 보면, Olmo 3는 단순히 “모델을 공개합니다”가 아니라, “직접 강화학습 기반의 추론 모델을 만들고 싶다면 이 흐름을 그대로 따라해 보세요”라는 초대장에 가깝습니다.
Fara-7B: 온디바이스 웹 에이전트용 LLM
수많은 연구소들이 LLM 리더보드에서 상위를 차지하기 위해서 힘겨루기를 하는 동안, 마이크로소프트에서는 조용히 Fara-7B를 공개했습니다 - 이 7B 오픈 웨이트 모델은, 웹 브라우저를 사람처럼 조작합니다.
이 모델은:
DOM 트리를 읽는게 아니라, 스크린샷을 그대로 봅니다.
클릭, 스크롤, 키 입력, 그리고 web-search나 visit_url 같은 매크로 액션까지 예측합니다.
Magentic-One 기반의 멀티에이전트 시스템이 만든 약 15만개의 합성 Trajectory를 증류(Distill)해서 하나의 컴팩트한 모델로 만들었습니다.
벤치마크 결과를 살펴보면:
WebVoyager에서 73.5%로 동급의 7B CUA 모델들을 앞섭니다.
DeepShop과 Online-Mind2Web에서도 우수한 성능을 보입니다.
WebTailBench(티켓 예매, 구직 신청, 가격 비교 같은 ‘진짜 생활형’ 작업)에서 38.4% 수준의 성능을 달성합니다.
Computer-Use 에이전트, 이렇게 더 이상 ’클라우드에서 실험하는 기술’이 아니라, ‘내 노트북에서 조용히 치과 예약도 해주는 모델’로 진화하고 있네요.
P1: 오픈소스의, 물리학을 이해하는 슈퍼모델
P1은, 실제의 물리 올림피아드 문제에서 톱티어 모델과 어깨를 나란히 하는 최초의 오픈 모델입니다.
IPhO 2025에서 금메달급 성능을 냈고, 보다 엄밀한 검증 가능한 물리 문제들로 강화학습을 했습니다.
이 모델이 잘하는 영역은 아주 분명합니다. 올림피아드 수준의 물리·수학·코딩 문제를 안정적으로 풀어내고, 숫자 하나만 틀려도 바로 오류가 나는 과학 계산에서도 믿을 만한 결과를 제공합니다. 내부 추론 과정을 감사·검증해야 하는 에이전트 시스템의 ‘신뢰 가능한 두뇌’ 역할도 충분히 수행할 수 있습니다. 보통 오픈 모델을 만든 사람들이 “이 모델은 물리를 잘합니다”라고 말하면 정말 그런지 꼼꼼히 의심해 보게 되지만, 이번 모델은 그런 의심을 굳이 할 필요가 없을 만큼 성능이 확실하게 드러납니다.
Nemotron Elastic: 하나의 설계 철학으로 다양한 크기를 가진 추론 모델 제품군을 만들다
엔비디아는 ‘마트료시카 인형’ 구조에서 착안한 Matryoshka 아이디어를 Mamba–Transformer 혼합 아키텍처에 적용했습니다. 큰 모델 안에 더 작은 모델들이 자연스럽게 포함되도록 학습하는 방식인데, 이 덕분에 12B 모델을 한 번만 훈련해도 같은 웨이트에서 9B와 6B 모델을 추가 훈련을 하지 않고 바로 꺼내 쓸 수 있습니다. 즉, 처음부터 “잘라도 성능이 유지되는 구조”로 학습시키기 때문에, 전체 모델을 쓰고 싶을 때는 12B로, 더 가볍게 돌리고 싶으면 9B나 6B로 그대로 내려서 사용할 수 있는 일종의 ‘중첩 모델’ 패밀리가 자동으로 만들어지는 셈입니다.
이런 방식은, 당연하게도 모델을 각각 따로 학습시키는 것보다 훈련 비용이 한 단계 낮아지고, 배포할 때 메모리 비용이 일정해지고, 크기가 달라도 수학·코드 추론 성능을 고르게 유지할 수 있다는 장점이 있습니다.
결과적으로 아주 간단히 말하자면, ‘노트북에서부터 서버 클러스터까지’ 하나의 추론 계열을 그대로 넣어서 쓸 수 있는 접근 방식인 거죠.
MiMo-Embodied: 로봇과 자동차를 모두 다루는 하나의 모델
샤오미의 MiMo-Embodied는 로봇 임베디드 벤치마크와 자율주행 벤치마크 둘 다에서 SOTA를 찍은 첫 오픈 모델입니다.
이 모델이 보여주는 기능들은 꽤 폭이 넓습니다. 로봇이 주변 물체를 어떻게 사용할 수 있는지(어포던스)를 파악하고 그에 맞춰 태스크를 계획하는 능력부터, 자율주행에서 필요한 장면 이해·상황 예측·주행 계획까지 모두 다룹니다. 또 3D 환경, 영상, 언어를 오가면서 공간적 정보를 통합적으로 이해하는 추론 능력도 갖추고 있습니다.
이런 흐름이 의미하는 바는 분명합니다. 지금까지는 로봇용 모델, 자율주행용 모델, 비전·언어 모델을 따로 개발해 왔다면, 이제는 이 모든 것을 하나의 공유된 ‘Embodied Backbone’ — 현실 세계를 이해하고 행동할 줄 아는 공통 기반 — 으로 통합하려는 조짐이 나타나고 있다는 겁니다. 기술의 방향 자체가 바뀌는 이런 순간, 꽤 흥미롭습니다.
자, 그럼 이제 대형 연구소들 차례로 넘어가 볼까요?
Claude Opus 4.5: 긴 작업도 너끈히 버티면서 해내는, 강력한 일꾼
Opus 4.5는 실제 업무 환경에서 바로 쓸 수 있도록, 툴 사용·긴 컨텍스트 처리·스프레드시트 작업 같은 상황에 맞춰 튜닝된 모델입니다.
이번 업데이트로 적은 토큰으로도 더 높은 SWE-Bench 성능을 내고, Claude Code 생태계에서는 멀티에이전트 오케스트레이션 능력이 강화됐습니다. 또, 프롬프트 인젝션 공격에도 더 강해졌습니다.
그래서 몇 시간 동안 오피스 스타일의 작업을 수행하는 에이전트를 만든다면, Opus 4.5는 그 요구를 충분히 만족시킬 만큼 경쟁력 있는 모델입니다.
Opus 4.5에 대한 첫인상 몇 개를 뽑아보면 이렇네요:
GPT-5.1-Codex-Max — 장기적인 코딩 작업용으로 적합한 두뇌
Codex-Max는 오픈AI가 새로 공개한 ‘에이전트형 코딩 모델’로, 대규모의 복잡한 소프트웨어 개발이라든가 유지보수 작업에 최적화돼 있습니다.
이 모델의 핵심 능력은 컴팩션(Compaction)인데, 여러 컨텍스트 창을 하나의 긴 맥락처럼 넘나들면서 수백만 토큰 규모의 작업도 흐름을 잘 유지한 채 처리합니다.
이 모델이 특히 잘 맞는 영역은 명확합니다. 레포 전체를 오랫동안 분석하고 수정하는 장기 에이전트 작업에 적합하고, 기존 모델들이 중간에 맥락을 잃기 쉬웠던 대규모 리팩토링에서도 안정적인 성능을 보여줍니다. 또 코딩·리서치·테스트·문서 작업이 섞여 있는 실제 엔지니어링 워크플로우에서도 유용하게 쓸 수 있습니다.
Claude Opus 4.5보다 먼저 출시되었지만, 상대적으로 덜 주목받았다는 점이 조금 아쉬울 정도네요.
Google stack: Gemini 3, Antigravity, Nano Banana Pro
Gemini 3는 구글의 새로운 플래그십 모델입니다.
아주 인상적인 모델이고, Pro도 강력하지만, Deep Think 모드가 진짜 포인트인 것 같습니다. 더 높은 GPQA와 ARC-AGI-2 성능, 더 긴 추론 체인, 더 탄탄한 도구 사용 능력까지 강화되어 있습니다.
Gemini 3를 사용하면 좋은 상황은:
난해한 자료를 함께 공부할 ‘스터디 파트너’가 필요할 때
길고 복잡한 에이전트 워크플로우가 필요한 프로젝트
텍스트·이미지·비디오가 섞인 멀티모달 문제 해결
Nano Banana Pro는 이미지 모델의 업그레이드인데, 드디어 이미지 속 텍스트를 진짜 ‘1급 시민’으로 다루는 모델입니다 - 제대로 텍스트 처리를 원하는 대로 해 준다는 이야기죠.
포스터, UI 목업, 패키지 디자인, 브랜드 일관성 있는 비주얼 제작 등, “이 개념을 시각적으로 잘 설명해 달라”는 식의 니즈가 있을 때 적합합니다.
Google Antigravity도 아주 많은 관심을 받고 있죠. 이건 모델은 아니지만, 에이전트 시대의 IDE란 어떤 것일까 하는 질문에 대한 현재 기준 구글의 답이 아닐까 싶습니다.
Google Antigravity는 개발자를 위한 코드 에디터 기능과 더불어서, 브라우저나 터미널 등에서 여러 AI 에이전트가 동시에 작업하는 상황을 한눈에 지휘할 수 있는 관리 기능을 제공합니다. 무엇보다 가장 혁신적인 점은 AI의 작업 과정을 낱낱이 기록하는 '아티팩트(Artifact)' 기능입니다. 기존 도구들이 단순히 결과 코드(Diff)만 보여줘서 AI가 어떤 과정을 거쳤는지 알기 어려웠던 반면, 안티그래비티는 AI가 수립한 계획부터 실제 참조한 화면, 실행한 명령어 기록까지 모든 작업 로그를 투명하게 남겨줍니다. 덕분에 개발자는 결과물뿐만 아니라 과정까지 완벽하게 검증할 수 있죠. 이 기능이 기대만큼 작동한다면 '커서(Cursor)' 같은 기존 인기 도구들을 강력하게 위협할 게임 체인저가 될 것입니다.
다만 출시 직후 바로 몇 가지 한계에 부딪혀서, 구글 팀이 거의 밤을 새 가면서 개선 중입니다.
Grok 4.1: 개성과 두뇌를 함께 끌어올린 모델
Grok 4.1은 감정 지능(EQ)과 추론의 안정성을 동시에 강화했습니다.
EQ-Bench 점수 상승, 창작·글쓰기 능력 개선, 정보성 프롬프트에서 낮은 환각률을 보여줍니다.
Grok 4.1은 아래와 같은 영역에 니즈가 크다면 적합한 모델이 아닌가 싶어요:
소비자용 챗 경험
창작·소셜 중심의 애플리케이션
‘톤이 밋밋하면 안 되는’ 어시스턴트
저는 Grok 4.1의 사용자는 아니지만, 관심 있으시면 블로그에서 더 자세한 내용을 보시면 좋겠습니다.
튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕
트위터 라이브러리 (Twitter Library) 🐦
AI 섹터에서 특히 요즘 다시 많이 언급되고 있는 공간 지능(Spatial Intelligence)이란, 쉽게 말해서 모델이 가지고 있는 ‘공간 감각’ 정도로 표현할 수 있을 것 같습니다. 사물이 어디에 있는지, 서로 어떻게 연결되는지, 어떻게 움직이는지를 이해하는 능력이죠. 이 능력이 있어야 AI 모델이 방 안을 돌아다니고, 보이는 장면을 해석하고, 여러 개의 물체들이 어떻게 맞물리는지 파악할 수 있습니다. 말 그대로, 머릿 속에 하나의 ‘지도’가 들어있는 셈인 거죠. 예를 들어, 월드 모델은 이 공간 지능이 없다면 제대로 작동할 수 없습니다.
오늘은, 공간 지능이 무엇인지, 그리고 어떻게 발전하고 있는지 살펴볼 수 있는 6가지 읽을거리를 추천합니다:
새로 나온, 주목할 만한 연구 논문
‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!
주목할 만한 최신 AI 모델
🌟🌟 Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models (by Stanford)
이 논문은 흔히 말하는 “작은 모델은 그냥 추론 능력이 떨어진다”는 통념을 뒤집습니다. 저자들은 멀티모달 모델을 작게 만들면 진짜로 문제가 생기는 건 언어 추론이 아니라 ‘시각적 지각 능력’이라는 점을 보여줍니다. 즉, 이미지에서 필요한 디테일을 안정적으로 뽑아내는 능력이 먼저 붕괴한다는 거죠.
이를 해결하기 위해서, EXTRACT+THINK라는 두 단계 파이프라인을 제안합니다.작은 VLM이 먼저 지시문과 관련된 시각 정보를 명시적으로 추출하고
그 다음으로, 조금 더 큰 LLM이 그 정보를 기반으로 추론을 수행하는 방식입니다.
놀랍게도, 아주 적은 데이터와 파라미터만으로도 높은 벤치마크 성능을 보여주는데, 꽤 흥미로운 접근법이죠.
🌟 WorldGen: From Text to Traversable and Interactive 3D Worlds (by Meta)
텍스트 프롬프트만으로 일관성 있고 실제로 그 안에서 이동도 할 수 있고 상호작용할 수 있는 3D 환경을 생성하는 기술입니다.
LLM 기반 레이아웃 추론, 프로시저럴 생성, 확산 기반의 3D 합성을 결합해서 일반적인 게임 엔진 안에서 동작하는 3D 월드를 만들어냅니다.
🌟 Mixture of States: Routing Token-Level Dynamics for Multimodal Generation (by KAUST and Meta)
이 연구는 디퓨전 모델에서 모달리티를 더 잘 융합하는 방법을 제안합니다.
토큰 단위 라우터를 사용해서 시간에 따라 숨겨진 상태(Hidden States)를 희소하게 혼합하고, 이를 통해서 훨씬 큰 모델 수준의 성능을 Text-to-Image 생성과 편집 작업에서 보여주고 있습니다.
에이전트 기반의 과학, 자율적 연구 및 자기 진화 에이전트
OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists
인간 연구자와 AI 연구자가 같은 인프라에서 함께 진화할 수 있는 생태계를 만들기 위한 제안입니다. 이 논문은 AI-Science 스택 안에 인용 그래프, 협업 프로토콜, 오픈 평가 공간을 내장해서 인간과 AI가 동일한 연구 환경에서 상호 보완적으로 발전하도록 하는 방향을 제시합니다.
🌟 What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity (Meta)
이 연구는 AI 연구 에이전트의 ‘아이디어 다양성(Ideation Diversity)’이 실제 연구 성과를 어떻게 높이는지를 상관 분석과 실험을 통해 검증합니다.
결론은 명확합니다: 더 다양한 아이디어 세트를 가진 에이전트일수록 MLE-bench 성능이 꾸준히 향상됩니다. 즉, ‘다르게 생각하기’가 연구 에이전트에게도 핵심이라는 것입니다.
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
이 논문은 외부 데이터가 없이도 자기 진화(Self-Evolving)하는 에이전트를 만드는 방법을 제시합니다.
커리큘럼 에이전트와 실행 에이전트를 베이스라인 LLM에서 함께 진화시키면서, 도구를 적극적으로 활용해서 점점 더 어려운 작업을 스스로 생성·해결하게 하는데, 그 결과로 외부 학습 데이터를 쓰지 않고도 추론 능력이 의미있는 수준으로 향상됩니다.
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
LLM 기반 에이전트를 위한 RL 학습 방식을 정식화한 프레임워크입니다.
확장된 MDP 관점에서 에이전트의 행동과 환경 상호작용을 다루고, 다양한 환경에 쉽게 적용할 수 있는 모듈형 RL 트레이닝 구조를 제공합니다. 즉, RL 기반 에이전트를 더 강력하고 일관되게 학습시키기 위한 ‘표준형 설계도’에 가깝습니다.
모델 스케일링, 트레이닝 효율성 및 추론 연산
🌟 Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance (Meta)
이 논문은 카테고리별 전문가 모델들을 비균일 가중치로 섞어서(Souping) 하나의 평균 모델을 만드는 SoCE(Soup of Category-specific Experts) 접근법을 소개합니다.
벤치마크의 구조를 활용해서 서로 다른 전문가 모델을 가중 평균함으로써 견고성을 높이고, 함수 호출 등 여러 가지 작업에서 SOTA 성능을 달성합니다.
단순한 산술적인 조합만으로도 모델 성능을 크게 끌어올릴 수 있다는 점이 핵심입니다.
🌟 Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning (by Moonshot AI and Tsinghua)
Seer는 동기식 RL 롤아웃 속도를 대폭 끌어올리는 기법입니다. 동일한 프롬프트들에서 나타나는 공유된 생성 패턴을 활용해 다음과 같은 최적화를 수행합니다:롤아웃을 동적으로 분할
컨텍스트 유사도 기반 작업 스케줄링
그룹 단위로 Adaptive Speculative Decoding 수행
결과적으로, 처리량은 74–97% 증가, 롱테일 지연 시간은 75–93% 감소하는 모습을 보여주고, RL 학습 속도를 실전 수준으로 끌어올리는 기술로 볼 수 있습니다.
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
이 연구는 모든 토큰을 반복 추론(Recurrent Refinement)하지 않고, 모델이 ‘어려울 것’이라고 예측한 토큰에만 선택적으로 반복 추론을 적용하는 방식입니다. 이를 위해 신경망 기반 decider와 LoRA-shifted objective를 사용합니다.이 접근 방식의 주요 효과는 다음과 같습니다:
필요한 부분에만 깊게 생각하게 하는 방식으로 추론 성능 향상
불필요한 ‘오버씽킹’을 방지
대부분의 토큰은 단일 패스로 처리해서 비용 절감
즉, “생각이 필요한 부분만 더 생각하게 하는” 효율적인 추론 강화 전략입니다.
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!



