튜링 포스트는 일년의 절반이 지난 시점, 7월을 맞아 살짝 슬로우하게 움직이는 모드로 지난 반 년간을 뒤돌아보고 하반기를 계획하고 있습니다.
그 동안 언급해 왔던 수많은 ‘주목할 만한 연구들’ 중에 핵심적인 연구 8가지를 지난 주에 1부로 공유했고, 금주에도 2부로서 역시 AI의 발전 방향을 잘 보여주는 핵심 연구 8가지를 추가로 공유하려고 합니다.
다시 한 번 언급하고 기억할 만한, 2025년 상반기 핵심 연구 - 2부
모든 사람들이 AI 분야의 ‘연구’를 따라잡고 이해할 필요는 없지만, 연구 그 자체는 ‘AI 판에서 어떤 일이 벌어지고 있는지’를 가늠할 수 있게 해 주는, 일종의 리트머스 시험지 같은 거라고 생각합니다.
지난 주에 이어서, 오늘도 2025년 상반기에 발표된 가장 중요하고, 통찰력있는 연구 8가지를 이어서 추가로 소개합니다.
마이크로소프트 리서치에서 수행한 이 연구는, 2025년 AI 연구 영역의 중요한 트렌드 중 하나인 ‘추론 시간(Inference-Time) 스케일링’으로 LLM의 추론 능력을 향상시키는 방법을 실증적으로 분석한 종합적인 연구입니다.
핵심적인 아이디어는, 추론 과정에서 더 많은 연산 자원을 사용해서, 더 긴 CoT(Chain of Thought), 여러 번의 시도, 피드백 루프 등을 통해서 모델의 추론 능력을 끌어올리는 것이죠.
이 연구에서 드러난 결론은 그리 단순하지만은 않습니다. 추론 시간 스케일링 그 자체는 분명히 도움이 되지만, 효과는 도메인마다 다르게 나타나고, 문제의 난이도가 높아질수록 그 효과는 점차 줄어드는 것으로 보입니다. 또, 토큰을 많이 사용한다고 해서 무조건 정확도가 높아지는 것도 아니고, 비용 예측이 어렵다는 문제도 여전히 남아 있습니다.
하지만 이 연구에서 얻을 수 있는 가장 중요한 인사이트는, 모델을 다시 학습(Retraining)시키는 대신, 피드백이나 답안 선택(Answer Selection) 같은 ‘후처리(Post-training)’ 전략이 실제로 상당한 효과를 낼 수 있다는 겁니다.
결국, 새로운 AI의 흐름은 이런 말을 하는 것 아닐까요? - “모델 크기는 그만 키우고, 추론 성능을 어떻게 잘 끌어낼 것인지에 집중해야 한다”구요.
개인적으로 아주 흥미로웠던 연구 중 하나인데요. Sakana AI가 발표한 이 연구는, 'AI에 있어서, 시간(Time)이라는게 우리가 빼놓은, 퍼즐의 마지막 조각이 아닐까?'라는 질문을 던집니다.
CTM(Collective Temporal Model)은 새로운 유형의 모델로, 뉴런들이 ‘과거를 되돌아보고, 기억하고, 서로 타이밍을 맞추는(Sync)’ 구조를 가지고 있습니다. 이 모델에서는 ‘시간 그 자체’가 정보가 되고, 계층(Layers)이라기보다는 리듬(Rhythm) 속에서 패턴이 드러납니다.
CTM은 미로를 단계별로 풀어나가는데, 그 방식이 정말 사람처럼 경로를 하나하나 따라가면서 추론하는 모습과도 닮아 있습니다. 2025년 현재까지 발표된 논문 중에서도 가장 인상적인 연구 중 하나로 평가받고 있습니다.

CTM 아키텍처. Image credit: CTM 보고서
추론 시간(Inference-Time) 스케일링 전략의 시대, 그리고 ‘Reasoning Model(추론 중심 모델)’의 시대. ‘제어할 수 있는 추론 능력’과 ‘비용 효율성’이 아주 중요합니다.
Salesforce AI Research에서 발표한 이 논문은, 거대 추론 모델이 추론 시간 동안 토큰 수, 지연(Latency), 연산량 등 제한된 자원이라는 조건 하에서도 안정적으로 작동할 수 있도록 도와주는 프레임웍을 제안합니다.
핵심은, 추론 과정을 두 단계로 나누는 건데요 — ‘생각(Thinking)’하는 단계와 ‘해결책(Solution)’을 만드는 단계로 나눠서, 각 단계에서 효율을 최적화하는 방식입니다.
이 논문에서 제안한 Elastic Reasoning 전략은, 기존에 최고 성능을 보여주는 기법과 비슷하거나 그 이상의 성능을 달성하면서도 토큰 사용량을 30~40% 줄일 수 있습니다.

Image Credit: Scalable Chain of Thoughts via Elastic Reasoning
Qwen 연구팀이 발표한 논문입니다. 모델의 크기나 토큰의 수를 늘리지 않고서도 성능을 높여주는 새로운 스케일링 방식, ‘ParScale’을 소개합니다.
여기서도 요즘의 연구 흐름처럼, 점점 더 ‘모델의 크기를 키우는 게 성능을 향상시키는 유일한 길이 전혀 아니다’라는 메시지를 강하게 보여주고 있습니다.
특히, ParScale은 하나의 입력을 다양한 방식으로 동시에 - 병렬로 - 처리한 다음에, 그 결과들을 하나로 합쳐서 최종적인 답을 만들어내는 구조입니다. 예를 들어서, 하나의 질문을 여러 관점에서 동시에 생각해보고, 그 각각의 생각의 결과를 모아서 가장 좋은 답을 뽑아내는 식입니다.
이런 방식 덕분에, 모델의 크기를 키우지 않고도 빠르게 학습하고, 빠르게 추론할 수 있습니다. 즉, 작지만 똑똑하게, 그리고 효율적으로 작동하는 모델을 만드는 데 유리한 구조입니다.

Image Credit: Parallel Scaling Law for Language Models
UC 산타바바라, 산타크루즈, UCLA, 퍼듀대, LMSYS, 마이크로소프트 등 여러 기관의 연구진이 협력해서 만들어 낸 이 논문은, 훈련이 없이도 추론 능력을 높일 수 있는 새로운 방식인 ‘Soft Token’ 생성 기법을 제안합니다.
기존의 ‘문자 단위의 언어 토큰’ 방식에서 벗어나서, 연속 공간(Continuous Space)에서의 추상적 추론(Reasoning)을 할 수 있게끔 하는 방식입니다.
Soft Thinking 방식은 매 스텝마다 전체 확률 분포를 유지하면서, 더 풍부한 의미 표현과 다양한 추론 경로를 병렬적으로 탐색할 수 있게 합니다. 이렇게 언어 중심의 추론에서 벗어난 접근법을 통해서, LLM이 훨씬 더 유연하게 작동할 수 있도록 만들어 줍니다.
애플에서 발표한 이 논문, 아주 중요한 한 가지 사실을 짚어줍니다 — AI 모델이 ‘기본적인 한계(Capacity)’를 넘었을 때 어떤 방식으로 반응하는지에 대한 분석인데요.
논문에 따르면, 복잡하고 여러 단계를 거쳐야 하는 과제를 만났을 때, 마치 ‘CPU가 과부하’되는 것처럼 모델의 처리 능력이 넘치게 됩니다. 그 결과로, 모델이 생각 도중에 작업을 포기(Abort)해버리는 반응을 보입니다.
이건 우리가 빠르게, 반드시 극복해야 할 문제죠. 단순히 더 ‘똑똑한’ 추론 모델을 만드는 것을 넘어서, 인지적인 부하(Cognitive Load)가 걸리는 상태에서도 더 안정적이고 신뢰할 수 있는 모델을 만드는 방향으로 가야 한다는 사실을 상기시켜주는 훌륭한 연구입니다.
FAIR, 구글 딥마인드, 코넬대학교, 엔비디아가 함께 협업한 이 논문은, 모델이 대규모의 학습 데이터를 얼마나 저장할 수 있는지를 분석하고, ‘저장 용량 포화(Storage Saturation)’라는 개념을 중심으로 전개됩니다.
연구진은 ‘비의도적 암기(Unintended Memorization)’와 ‘일반화(Generalization)’를 명확히 구분하면서, 다음과 같은 사실을 발견했습니다: ‘모델은 초기에는 데이터를 암기하며 학습하지만, 저장 용량이 포화되면 더 이상 암기를 하지 않고, 패턴을 압축해서 일반화하는 방식으로 전환한다’는 것입니다.
또, 이 논문은 회원 정보 노출(Membership Inference) 리스크를 예측할 수 있는 정확한 스케일링 법칙(Scaling laws)도 함께 제안합니다. 요즘처럼 모델이 실제로 ‘무엇을 기억하고 있는가’를 정확히 파악하는 것이 중요한 시대, 이 연구는 반드시 읽어볼 만한 최신 논문입니다.
웹의 새로운 시대를 위한 슬로건 같은 제목이죠. 맥길대학교와 캐나다 퀘벡의 AI 연구소인 MILA가 함께한 이 논문은, 에이전트가 웹을 더 잘 탐색할 수 있도록 웹 인터페이스 자체를 재설계해야 한다고 주장합니다.
핵심 키워드는 안전성(Safety), 표준화(Standardization), 그리고 ‘에이전트 친화적 기능(Agent-native Affordances)’인데요.
최근 Webflow의 CEO인 린다 통(Linda Tong)과의 인터뷰에서도 언급했듯이, 이제 웹사이트의 주된 방문자는 사람이 아니라 AI 에이전트들입니다. 따라서 지금은 이 에이전트들을 위한 새로운 웹 인프라를 재구축해야 하는 전환점에 와 있습니다.
이 논문에서 제안하는 AWI(Agentic Web Interfaces)는 그런 재설계의 한 가지 현실적인 방향입니다.
여러 가지 함의(Implication)가 있겠지만, 그 중 몇 가지를 골라보자면, 2025년 상반기의 AI 연구는 세 가지 핵심 방향으로 요약되는 것으로 보입니다. 첫째, 모델 크기를 키우는 대신 추론 과정에서의 효율성과 품질을 높이는 데 집중하고 있는데, 이건 적은 연산 자원으로 더 나은 성능을 끌어내는 전략으로 이어집니다. 둘째, 모델이 과부하 상황에서도 작업을 안정적으로 수행할 수 있도록 만드는 ‘인지적 안정성’ 확보가 주요 과제로 부상했습니다. 셋째, AI 에이전트가 디지털 환경의 주요 사용자가 되면서, 웹 인터페이스 등 사용자 경험 자체를 에이전트 친화적으로 재설계하려는 흐름이 뚜렷해지고 있습니다.
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!


