벤치마킹의 시즌
모델 출시 소식을 팔로우업하느라 바빴던 지지난 주까지와는 다르게, 지난 주의 AI 씬은, 모델 출시라는 측면에서는 비교적 조용했다 싶습니다.
그 중에 가장 주목할 만한 소식은 Gemini 2.5 Flash Image(‘나노 바나나’)의 출시였던 것 같구요. 개인적으로는 Gemini의 마케팅 팀이 ‘드디어!’ 이름을 제대로 지은 게 아닌가 싶어요. 이미 나노 바나나에 대해서는 많은 분들이 알고 계시지만, 가장 크게 관심받는 건 역시 ‘캐릭터의 일관성을 잘 유지한다’는 측면인 것 같습니다.

Image Credit: Global Newswire
인물이 헤어스타일을 바꾸든, 자세를 바꾸든, 의상을 바꾸든, 본래 인물과 거의 똑같이 인식이 됩니다. 여러 번 편집하는 과정에서도 일관성이 잘 유지되어서, 광고 영상 제작 같은 영역에 꽤 임팩트가 있을 걸로 보입니다.
Microsoft AI는 자체적으로 개발한 첫 번째 모델, MAI를 선보였는데요. 일단, 이 모델은 초고속 처리, 자연스러운 음성, 효율적 훈련 기법, 그리고 결과적으로 아주 강력한 벤치마크 성능을 자랑합니다. 사실 MAI 모델 출시는 오픈AI와의 관계 변화와도 밀접한 연관이 있다고 해석하는 분들이 많습니다. 이번에 발표된 MAI-Voice-1, MAI-1-preview 이 두 가지 모델도 오픈AI에 대한 기술 의존도를 줄이려는 전략의 일환이라고 봐야겠죠.
오픈AI vs. 마이크로소프트의 갈등은 여러 층위에서 진행되고 있습니다. 지분 문제를 두고는 골드만삭스, 모건스탠리 같은 금융사를 통해서 컨설팅을 받고 있다고 알려져 있는데, 오픈AI가 영리 기업으로 전환하는 과정에서 마이크로소프트의 49% 지분율과 투자 조건에 대한 의견 차이가 핵심적인 갈등 요소라고 해요. 마이크로소프트는 작년 연례 보고서에 이미 오픈AI를 경쟁사로 명시했고, 따라서 두 회사는 같은 AI 모델을 판매하려고 고객을 두고 경쟁하는 '프레네미(Frenemies)' 관계가 되었습니다. 오픈AI 측은 마이크로소프트가 충분한 컴퓨팅 파워를 제공하지 않는다고 불만을 표시하고 있기도 합니다.
‘모델 출시’는 이 정도인 것 같지만, 대신에 눈에 띄는게 있었습니다: 꽤 많은 ‘벤치마크’, 그리고 ‘평가 시스템’이 등장했다는 겁니다.
튜링 포스트에서도 벤치마크와 관련된 여러 각도의 말씀을 드린 적이 있지만, 일단 벤치마크는 겉보기와는 다르게 단순한, 중립적인 점수판이 아니죠. 먼저, 각각의 벤치마크는 나름의 철학을 담고 있어요: 어떤 작업이 중요한지, 성공의 기준은 뭔지, 뭐는 무시해도 무방한지 등을 각자 정의하고 있으니까요.
ImageNet이 컴퓨터 비전 분야의 성과를 혁신적으로 끌어올리는데 기여했고, SQuAD는 - 아쉽게도 - 모델들이 ‘제대로 된 이해’가 없이도 답을 할 수 있게끔 되어 있어서 일종의 왜곡을 초래하기도 했고, GLUE는 지금은 포화 상태에 이르러서 더 이상 그 의미를 잃은 벤치마크라고 해야겠죠. 좋은 벤치마크를 설계하는 건 모델 설계만큼이나 어렵고, 또 그 파급력도 어마어마합니다.
지난 한 주, 홍수같이 쏟아진 벤치마크들
아까 말씀드렸듯이, 지난 주에만 공식적인 벤치마크 7가지, 그리고 그에 준하는 평가 시스템 6가지가 등장했습니다. 단순히 등장했다는 자체가 중요하다기보다, 이 내용을 들여다보면, 이 벤치마크와 평가시스템들이 앞으로 AI가 어떻게 흘러갈 것인지 방향을 보여준다는게 의미있습니다:
에이전트의 작업 범위(Agentic Work)
MCP-Bench는 모델 컨텍스트 프로토콜(MCP)을 기반으로 해서 LLM의 도구 사용, 다단계 작업 수행, 그리고 복잡한 계획 능력을 평가하기 위한 종합 벤치마크인데요, 특히 ‘에이전트가 서버와 도구를 사용해서 다단계의 작업을 수행할 수 있는지 테스트’합니다.
ReportBench는 연구 에이전트의 학술 보고서 작성 능력을 평가하기 위해서 설계한 벤치마크입니다. 단순한 퀴즈가 아닌 학문적 노동의 깊이와 질을 측정합니다.도메인 특화(Domain Specificity)
CMPhysBench는 AI 모델이 응집물질물리학의 복잡한 개념, 그리고 문제를 얼마나 잘 이해하고 적용할 수 있는지를 평가하는데 사용됩니다.
AetherCode는 경쟁 프로그래밍 능력을, MovieCORE는 영화에 대한 인지적인 추론을 평가한다고 합니다.
지난 번 튜링포스트에서 잠깐 언급했던, 광고 산업에서 사용하기 위해서 만든 Creativity Benchmark도 역시 도메인 특화 벤치마크라고 볼 수 있겠습니다.다양한 모달리티 간의 추론(Reasoning across Modalities)
T2I-ReasonBench는 Text-to-Image 생성 작업에서 AI의 추론 능력을 평가하기 위해서, SEAM은 언어와 비전 간의 의미적 동등성을 확인하기 위해서 만들어진 평가 벤치마크입니다.
SpotEdit는 비주얼 편집의 정밀도를 테스트하는 기준으로 활용하기 위해 만들어진 벤치마크이구요.
위의 세 가지 벤치마크는 AI가 다중 모달리티 환경에서 합리적으로 작동하고 정확한 결과를 도출할 수 있는지를 종합적으로 측정하는 데 기여하는 것들입니다.안전성과 적응성(Safety and Adaptivity)
Mind the Third Eye!는 스마트폰 에이전트의 프라이버시 인식 능력을 평가해서 AI가 개인 데이터를 어떻게 다루는지 점검하는 벤치마크구요.
InMind는 AI 모델이 개별 사용자의 독특한 추론 스타일에 적응할 수 있는지를 테스트하는 평가 도구로, 맞춤형 상호작용 능력을 측정합니다.더 어려운 프론티어(Harder Frontiers)
UQ(Unsolved Questions)는 AI 모델이 고정된 테스트셋이 아니라 아직 해결되지 않은 문제에 대한 능력을 평가하는 혁신적인 벤치마크인데, 단순히 암기된 답변을 피하고 창의적 문제 해결을 하게끔 유도합니다 - AI가 실제로 깊이 있는 사고를 할 수 있는지 확인하고 싶은 거죠.과학적 추론 분리(Scientific Reasoning Disentangled)
SCIREAS는 모델이 단순히 사실을 기억하는 게 아니라 과학적으로 "생각"할 수 있는지, 도메인 지식과 추론 능력을 분리해 평가하는 벤치마크입니다.
위에서 말씀드린, 새롭게 등장하고 있는 벤치마크들은, 기존에 우리가 많이 들어온 MMLU나 GSM8K 같은 리더보드하고는 큰 차이가 있습니다. 이제 ‘벤치마크’는, “고정된 질문에서 누가 최고 점수를 내는가”가 아니라, 에이전트가 워크플로를 탐색하고, 프라이버시를 적절히 존중하고, 전문 분야를 제대로 마스터하고, 다양한 모달리티의 데이터가 주어지는 환경에서 추론을 할 수 있는가를 묻고 있습니다.
결국, 겉으로는 단순한 벤치마크처럼 보일지 모르지만, 사실은 AI가 가져야 하는 진짜 역량이 무엇이어야 하는지에 대한 새로운, 공격적인 주장이라고 생각해요. 이런 주장, 이런 새로운 벤치마크들이 앞으로 AI의 발전 방향과 프레임을 설정하게 될 겁니다. 그리고, 어떤 벤치마크를 선택하느냐가 시스템 그 자체만큼이나 큰 영향을 미칠 수 있구요.
앞으로의 시즌, 더 흥미로운 벤치마크, 그리고 평가 시스템이 등장하기를 기대합니다.
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
트위터 라이브러리 (Twitter Library) 🐦
튜링 포스트의 트위터 라이브러리, 오랜만에 찾아뵙습니다!
이번 주, 뭐 말할 것 없이 모든 분이 이미지 생성 모델, 그 중에도 특히 구글의 나노 바나나(Nano-Banana) 이야기에 열광하고 있는데요. 그래서 오늘 한 번 이미지 생성, 편집, 멀티 턴 이미지 업데이트(Multi-turn Refinement) 작업이 필요하다면 한 번 시험해 볼 만한 초강력 모델 10개를 소개하려고 합니다:
튜링 포스트 코리아팀이 읽고 있는 것들
Can Machines Think? by Alejandro Piad Morffis
이 글에서는 앨런 튜링이 1950년에 발표한 "Computing Machinery and Intelligence" 논문을 바탕으로 해서 "기계는 생각할 수 있는가?"라는 질문을 탐구하는데, "이미테이션 게임"(이후에 튜링 테스트로 발전)을 통해서 접근하는 튜링의 독창적인 접근법을 소개합니다. 앨런 튜링은 기계와 인간의 차이를 명확히 규정하기보다는, 기계가 인간처럼 행동할 수 있는지를 평가함으로써 사고의 본질을 간접적으로 드러내려 했는데요, 이는 AI가 단순한 계산 도구를 넘어서 지능의 경계를 어떻게 확장할 수 있는지에 대한 인사이트를 제공합니다. 이 논의는 AI의 현재와 미래를 생각하며 우리에게 많은 영감을 줄 거라고 생각합니다.
2021년부터 Madrona에서 Intelligent Applications라는 리스트를 발표하면서 AI 분야의 발전상을 팔로우업하고 있는데요. 올해도 역시 AI 기술을 기반으로 소프트웨어의 미래를 다져가는 40개의 프라이빗 테크 기업을 소개합니다. 에이전트 기반 인프라, 산업별 AI 애플리케이션, 그리고 소비자 인터페이스의 혁신적인 변화를 보여주는 스타트업들이 포함되어 있습니다. 340개 이상의 후보 중 27개가 처음으로 이름을 올렸고, 단 하나 Databricks만이 2021년부터 매년 리스트에 오르면서 꾸준하게 그 이름을 자랑하고 있네요.
새로 나온, 주목할 만한 연구 논문
‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!
주목할 만한 최신 AI 모델
FastVLM은 고해상도 이미지를 이해할 수 있는 효율적인 비전 언어 모델(VLM)로, 새로운 하이브리드 비전 인코더 FastViTHD를 도입해서 인코딩 지연을 줄이고, 시각 토큰 수를 최소화해서 저지연 고성능을 달성했고, 기존 모델 대비 85배 빠른 Time-to-First-Token(TTFT), 3.4배 작은 비전 인코더 크기로 LLaVA-OneVision과 동등한 성능을 달성한 점이 두드러진 차별점이라고 합니다.
OLMoASR: A series of open speech recognition models
여섯 개의 완전히 공개된 ASR 모델(39M~1.5B 파라미터)군으로, 최대 680K 시간의 엄선된 데이터셋으로 훈련을 했습니다. 21개의 Unseen Test Set으로 벤치마킹한 결과, OLMoASR-medium.en은 짧은 형식/긴 형식에서 각각 12.8%/11.0% WER을 달성하면서 Whisper-medium.en과 맞먹는 성능을 보여줬고, 가장 큰 모델은 동일한 데이터로 훈련했을 때 Whisper-large와의 WER 격차를 0.4%로 줄였습니다. 3M 시간 풀에서 1M 시간으로 필터링된 데이터로 만들어진 OLMoASR는 재현성, 엄격한 데이터 큐레이션, 투명성을 강조합니다.
gpt-realtime and Realtime API updates for production voice agents
이 Speech-to-Speech 모델은 Big Bench Audio에서 82.8% 정확도, MultiChallenge에서 30.5% 정확도를 달성하면서 이전 버전을 능가하고 있습니다. 이미지 입력, SIP 전화 호출, 원격 MCP 서버를 지원하고, 기능 호출 정확도는 66.5%로 향상되었고, 두 개의 새로운 목소리 Marin과 Cedar가 자연스러움을 더하고 있습니다. 전통적인 파이프라인과 달리 한 단계로 오디오를 처리해서 지연을 줄였습니다.
InternVL3.5: Advancing open-source multimodal models in versatility, reasoning, and efficiency
LLM 기반의 멀티모달 모델 패밀리로, Cascade Reinforcement Learning(오프라인 + 온라인 RL)을 통해서 추론을 강화해서 MMMU라든가 MathVista 같은 작업에서 +16.0%라는 성과를 달성했습니다. Visual Resolution Router(ViR)는 시각 토큰 해상도를 다이나믹하게 조정하고, Decoupled Vision-Language Deployment(DvD)는 GPU 부하를 균형 있게 관리합니다. InternVL3.5-241B-A28B는 4.05배 빠른 추론 성능, 그리고 오픈소스 모델 중 일반 멀티모달 및 에이전트 작업에서 최고의 성능을 달성했습니다.
Hermes 4 technical report
하이브리드 추론 LLM 패밀리로, 5M 포스트 트레이닝 샘플(19B 토큰)을 사용해서 구축되었는데, 그 중 3.5M은 최대 16K 토큰 길이의 추론 중심 예제입니다. DataForge를 통해서 구조화된 합성 데이터를 생성하고, Atropos로 작업별 RL 환경에서 리젝션 샘플링을 진행했는데, 14B/70B/405B 모델은 AIME’24에서 81.9%, LiveCodeBench에서 61.3%를 기록해 DeepSeek-R1을 능가하면서도 과도한 출력을 78% 줄였습니다. 모든 가중치와 평가 결과가 공개되는 모델입니다.
rStar2-Agent: Agentic reasoning technical report
이 14B 파라미터 사이즈의 수학 추론 모델은 에이전틱 RL로 훈련했는데, GRPO-RoC라는 RL 전략을 통해서 노이즈가 많은 코드 환경을 잘 처리합니다. 단 64 MI300X GPU만 사용해서 효율적으로 훈련시켰고, 510번의 RL 단계로 AIME24에서 80.6%, AIME25에서 69.8%를 달성해서 DeepSeek-R1(671B)을 능가하는 모습을 보여줍니다. 이 모델은 Alignment, 과학적 추론, 에이전트의 도구 사용 작업 등에 대해서도 일반화가 잘 된다고 합니다.
효율성 및 가속(Acceleration)
🌟 Diffusion Language Models Know the Answer Before Decoding
디퓨전 언어 모델(Diffusion Language Model)의 추론 속도를 높이기 위해서, 조기 수렴 현상을 감지하고 Full Refinement 전에 토큰을 확정(Commit)하는 방법을 도입합니다.
—> [논문 보기]UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
메모리 레이어 아키텍처를 새롭게 설계해서, 전문가 모델(MoE: Mixture of Experts)의 효율성과 유사한 수준을 달성하면서 더 긴 컨텍스트(Long Context)에 대해서 더 좋은 성능을 보이지만 메모리 접근 비용은 낮은 기법을 구현합니다. —> [논문 보기]🌟 Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
대규모 LLM 서빙을 최적화하기 위해서 HeteroScale이라는 프레임웍을 도입합니다. 이 프레임웍은 이질적인 GPU들 사이에서 프리필(Prefill) 단계와 디코드(Decode) 단계를 조율하면서 자동 스케일링을 수행합니다. 이렇게 해서 GPU 활용률은 26.6% 향상되고, 하루 수십만 GPU 시간(GPU-Hours)을 절약할 수 있습니다. —> [논문 보기]
추론 감시 및 통제
🌟 StepWiser: Stepwise Generative Judges for Wiser Reasoning
생성형 보상 모델(Generative Reward Models)을 훈련시켜서, 중간 단계를 '메타 추론(Meta-Reason)'하게 만들어 판단 정확도와 추론 탐색(Inference Search) 성능을 향상시킵니다. —> [논문 보기]🌟 ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
계산 비용과 성능 사이의 균형을 맞추기 위해서 고(High), 중(Medium), 저(Low) 수준의 이산 추론 모드(Discrete Reasoning Modes)를 구현합니다. —> [논문 보기]Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?
연성 추론(Soft-Reasoning) 과제에서 CoT(Chain-of-Thought) 방식의 충실성(Faithfulness)을 분석하고, 영향력(Influence)과 신뢰성(Reliability)이 반드시 일치하지 않을 수 있다는 것을 보여줍니다. —> [논문 보기]
도구 사용 및 증강 학습
🌟 Provable Benefits of In-Tool Learning for Large Language Models
툴로 보강된 모델(Tool-Augmented Models)이 Factual Recall을 파라미터의 한계를 넘어 확장할 수 있도록 해 준다는 걸 입증하고, 모델 내부에 저장된 지식(In-Weight Memorization)보다 더 뛰어난 성능을 발휘한다는 것을 보여줍니다. —> [논문 보기]🌟 Understanding Tool-Integrated Reasoning
툴 기반의 추론(Tool-Augmented Reasoning)의 효과에 대한 첫 이론적 증명(Theoretical Proof)을 제시하고, 툴 활용을 개선하기 위한 ASPO라는 방법을 제안합니다. —> [논문 보기]
코드, 영상, 멀티모달 시스템
🌟 Mixture of Contexts for Long Video Generation
긴 비디오 생성 작업에서의 일관성을 유지하기 위해서 디퓨전 트랜스포머(Diffusion Transformer)에 희소 어텐션 라우팅(Sparse Attention Routing)을 도입합니다. —> [논문 보기]Self-Rewarding Vision-Language Model via Reasoning Decomposition
시각-언어 모델(VLM: Vision-Language Model)에서 지각(Perception)과 추론(Reasoning)을 분리하고, 독립적인 지각(Self-Contained Perception)에 보상을 주는 방식으로 시각적 추론 능력을 강화합니다. —> [논문 보기]🌟Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
Pairwise Preference Rewards와 통합 벤치마크를 통해서 텍스트-투-이미지 강화학습의 안정성을 확보합니다. —> [논문 보기]
에이전트의 훈련
CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent
과학 컴퓨팅 GUI 환경에서 일반적인 계획자와 전문성을 가진 실행자를 분리된 강화학습(Decoupled Reinforcement Learning) 방식으로 결합합니다. —> [논문 보기]UItron: Foundational GUI agent with advanced perception and planning
100만 스텝 이상에 걸친 SFT(Supervised Fine-Tuning)와 커리큘럼 강화학습(Curriculum Reinforcement Learning)을 통해서, 모바일 및 PC용 대규모 GUI 에이전트를 훈련시켜서 중국 앱의 지각, 그라운딩(Grounding), 과제 계획(Task Planning) 성능을 개선합니다. —> [논문 보기]
에이전틱 시스템의 프라이버시, 안전, 보안
🌟 Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
MCP(Model Context Protocol) 에이전트의 취약점을 드러내는데, 정상적인 작업들이 체이닝(Chaining)을 통해 서비스 격리(Service Isolation)를 우회하고 보안을 위협하게 될 수 있는지를 보여줍니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!



