🌁FOD#109: 2025년 상반기, AI의 발전 방향을 가리키는 연구 8選

튜링 포스트는 일년의 절반이 지난 시점, 7월을 맞아 살짝 슬로우하게 움직이는 모드로 지난 반 년간을 뒤돌아보고 하반기를 계획하고 있습니다.

그 동안 언급해 왔던 수많은 ‘주목할 만한 연구들’ 중에 핵심적인 연구 8가지를 지난 주에 1부로 공유했고, 금주에도 2부로서 역시 AI의 발전 방향을 잘 보여주는 핵심 연구 8가지를 추가로 공유하려고 합니다.

다시 한 번 언급하고 기억할 만한, 2025년 상반기 핵심 연구 - 2부

모든 사람들이 AI 분야의 ‘연구’를 따라잡고 이해할 필요는 없지만, 연구 그 자체는 ‘AI 판에서 어떤 일이 벌어지고 있는지’를 가늠할 수 있게 해 주는, 일종의 리트머스 시험지 같은 거라고 생각합니다.

지난 주에 이어서, 오늘도 2025년 상반기에 발표된 가장 중요하고, 통찰력있는 연구 8가지를 이어서 추가로 소개합니다.

1️⃣ Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

마이크로소프트 리서치에서 수행한 이 연구는, 2025년 AI 연구 영역의 중요한 트렌드 중 하나인 ‘추론 시간(Inference-Time) 스케일링’으로 LLM의 추론 능력을 향상시키는 방법을 실증적으로 분석한 종합적인 연구입니다.

핵심적인 아이디어는, 추론 과정에서 더 많은 연산 자원을 사용해서, 더 긴 CoT(Chain of Thought), 여러 번의 시도, 피드백 루프 등을 통해서 모델의 추론 능력을 끌어올리는 것이죠.

이 연구에서 드러난 결론은 그리 단순하지만은 않습니다. 추론 시간 스케일링 그 자체는 분명히 도움이 되지만, 효과는 도메인마다 다르게 나타나고, 문제의 난이도가 높아질수록 그 효과는 점차 줄어드는 것으로 보입니다. 또, 토큰을 많이 사용한다고 해서 무조건 정확도가 높아지는 것도 아니고, 비용 예측이 어렵다는 문제도 여전히 남아 있습니다.

하지만 이 연구에서 얻을 수 있는 가장 중요한 인사이트는, 모델을 다시 학습(Retraining)시키는 대신, 피드백이나 답안 선택(Answer Selection) 같은 ‘후처리(Post-training)’ 전략이 실제로 상당한 효과를 낼 수 있다는 겁니다.

결국, 새로운 AI의 흐름은 이런 말을 하는 것 아닐까요? - “모델 크기는 그만 키우고, 추론 성능을 어떻게 잘 끌어낼 것인지에 집중해야 한다”구요.

2️⃣ Continuous Thought Machines

개인적으로 아주 흥미로웠던 연구 중 하나인데요. Sakana AI가 발표한 이 연구는, 'AI에 있어서, 시간(Time)이라는게 우리가 빼놓은, 퍼즐의 마지막 조각이 아닐까?'라는 질문을 던집니다.

CTM(Collective Temporal Model)은 새로운 유형의 모델로, 뉴런들이 ‘과거를 되돌아보고, 기억하고, 서로 타이밍을 맞추는(Sync)’ 구조를 가지고 있습니다. 이 모델에서는 ‘시간 그 자체’가 정보가 되고, 계층(Layers)이라기보다는 리듬(Rhythm) 속에서 패턴이 드러납니다.

CTM은 미로를 단계별로 풀어나가는데, 그 방식이 정말 사람처럼 경로를 하나하나 따라가면서 추론하는 모습과도 닮아 있습니다. 2025년 현재까지 발표된 논문 중에서도 가장 인상적인 연구 중 하나로 평가받고 있습니다.

CTM 아키텍처. Image credit: CTM 보고서

3️⃣ Scalable Chain of Thoughts via Elastic Reasoning

추론 시간(Inference-Time) 스케일링 전략의 시대, 그리고 ‘Reasoning Model(추론 중심 모델)’의 시대. ‘제어할 수 있는 추론 능력’과 ‘비용 효율성’이 아주 중요합니다.

Salesforce AI Research에서 발표한 이 논문은, 거대 추론 모델이 추론 시간 동안 토큰 수, 지연(Latency), 연산량 등 제한된 자원이라는 조건 하에서도 안정적으로 작동할 수 있도록 도와주는 프레임웍을 제안합니다.

핵심은, 추론 과정을 두 단계로 나누는 건데요 — ‘생각(Thinking)’하는 단계와 ‘해결책(Solution)’을 만드는 단계로 나눠서, 각 단계에서 효율을 최적화하는 방식입니다.

이 논문에서 제안한 Elastic Reasoning 전략은, 기존에 최고 성능을 보여주는 기법과 비슷하거나 그 이상의 성능을 달성하면서도 토큰 사용량을 30~40% 줄일 수 있습니다.

Image Credit: Scalable Chain of Thoughts via Elastic Reasoning

4️⃣ Parallel Scaling Law for Language Models

Qwen 연구팀이 발표한 논문입니다. 모델의 크기나 토큰의 수를 늘리지 않고서도 성능을 높여주는 새로운 스케일링 방식, ‘ParScale’을 소개합니다.

여기서도 요즘의 연구 흐름처럼, 점점 더 ‘모델의 크기를 키우는 게 성능을 향상시키는 유일한 길이 전혀 아니다’라는 메시지를 강하게 보여주고 있습니다.

특히, ParScale은 하나의 입력을 다양한 방식으로 동시에 - 병렬로 - 처리한 다음에, 그 결과들을 하나로 합쳐서 최종적인 답을 만들어내는 구조입니다. 예를 들어서, 하나의 질문을 여러 관점에서 동시에 생각해보고, 그 각각의 생각의 결과를 모아서 가장 좋은 답을 뽑아내는 식입니다.

이런 방식 덕분에, 모델의 크기를 키우지 않고도 빠르게 학습하고, 빠르게 추론할 수 있습니다. 즉, 작지만 똑똑하게, 그리고 효율적으로 작동하는 모델을 만드는 데 유리한 구조입니다.

Image Credit: Parallel Scaling Law for Language Models

5️⃣ Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

UC 산타바바라, 산타크루즈, UCLA, 퍼듀대, LMSYS, 마이크로소프트 등 여러 기관의 연구진이 협력해서 만들어 낸 이 논문은, 훈련이 없이도 추론 능력을 높일 수 있는 새로운 방식인 ‘Soft Token’ 생성 기법을 제안합니다.

기존의 ‘문자 단위의 언어 토큰’ 방식에서 벗어나서, 연속 공간(Continuous Space)에서의 추상적 추론(Reasoning)을 할 수 있게끔 하는 방식입니다.

Soft Thinking 방식은 매 스텝마다 전체 확률 분포를 유지하면서, 더 풍부한 의미 표현과 다양한 추론 경로를 병렬적으로 탐색할 수 있게 합니다. 이렇게 언어 중심의 추론에서 벗어난 접근법을 통해서, LLM이 훨씬 더 유연하게 작동할 수 있도록 만들어 줍니다.

6️⃣ The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

애플에서 발표한 이 논문, 아주 중요한 한 가지 사실을 짚어줍니다 — AI 모델이 ‘기본적인 한계(Capacity)’를 넘었을 때 어떤 방식으로 반응하는지에 대한 분석인데요.

논문에 따르면, 복잡하고 여러 단계를 거쳐야 하는 과제를 만났을 때, 마치 ‘CPU가 과부하’되는 것처럼 모델의 처리 능력이 넘치게 됩니다. 그 결과로, 모델이 생각 도중에 작업을 포기(Abort)해버리는 반응을 보입니다.

이건 우리가 빠르게, 반드시 극복해야 할 문제죠. 단순히 더 ‘똑똑한’ 추론 모델을 만드는 것을 넘어서, 인지적인 부하(Cognitive Load)가 걸리는 상태에서도 더 안정적이고 신뢰할 수 있는 모델을 만드는 방향으로 가야 한다는 사실을 상기시켜주는 훌륭한 연구입니다.

7️⃣ How much do language models memorize?

FAIR, 구글 딥마인드, 코넬대학교, 엔비디아가 함께 협업한 이 논문은, 모델이 대규모의 학습 데이터를 얼마나 저장할 수 있는지를 분석하고, ‘저장 용량 포화(Storage Saturation)’라는 개념을 중심으로 전개됩니다.

연구진은 ‘비의도적 암기(Unintended Memorization)’와 ‘일반화(Generalization)’를 명확히 구분하면서, 다음과 같은 사실을 발견했습니다: ‘모델은 초기에는 데이터를 암기하며 학습하지만, 저장 용량이 포화되면 더 이상 암기를 하지 않고, 패턴을 압축해서 일반화하는 방식으로 전환한다’는 것입니다.

또, 이 논문은 회원 정보 노출(Membership Inference) 리스크를 예측할 수 있는 정확한 스케일링 법칙(Scaling laws)도 함께 제안합니다. 요즘처럼 모델이 실제로 ‘무엇을 기억하고 있는가’를 정확히 파악하는 것이 중요한 시대, 이 연구는 반드시 읽어볼 만한 최신 논문입니다.

8️⃣ Build the web for agents, not agents for the web

웹의 새로운 시대를 위한 슬로건 같은 제목이죠. 맥길대학교와 캐나다 퀘벡의 AI 연구소인 MILA가 함께한 이 논문은, 에이전트가 웹을 더 잘 탐색할 수 있도록 웹 인터페이스 자체를 재설계해야 한다고 주장합니다.

핵심 키워드는 안전성(Safety), 표준화(Standardization), 그리고 ‘에이전트 친화적 기능(Agent-native Affordances)’인데요.

최근 Webflow의 CEO인 린다 통(Linda Tong)과의 인터뷰에서도 언급했듯이, 이제 웹사이트의 주된 방문자는 사람이 아니라 AI 에이전트들입니다. 따라서 지금은 이 에이전트들을 위한 새로운 웹 인프라를 재구축해야 하는 전환점에 와 있습니다.

이 논문에서 제안하는 AWI(Agentic Web Interfaces)는 그런 재설계의 한 가지 현실적인 방향입니다.

여러 가지 함의(Implication)가 있겠지만, 그 중 몇 가지를 골라보자면, 2025년 상반기의 AI 연구는 세 가지 핵심 방향으로 요약되는 것으로 보입니다. 첫째, 모델 크기를 키우는 대신 추론 과정에서의 효율성과 품질을 높이는 데 집중하고 있는데, 이건 적은 연산 자원으로 더 나은 성능을 끌어내는 전략으로 이어집니다. 둘째, 모델이 과부하 상황에서도 작업을 안정적으로 수행할 수 있도록 만드는 ‘인지적 안정성’ 확보가 주요 과제로 부상했습니다. 셋째, AI 에이전트가 디지털 환경의 주요 사용자가 되면서, 웹 인터페이스 등 사용자 경험 자체를 에이전트 친화적으로 재설계하려는 흐름이 뚜렷해지고 있습니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

프리미엄 구독자 되기

🌁FOD#109: 2025년 상반기, AI의 발전 방향을 가리키는 연구 8選 - 2부

다시 한 번 언급하고 기억할 만한, 2025년 상반기 핵심 연구 - 2부

1️⃣ Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

2️⃣ Continuous Thought Machines

3️⃣ Scalable Chain of Thoughts via Elastic Reasoning

4️⃣ Parallel Scaling Law for Language Models

5️⃣ Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

6️⃣ The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

7️⃣ How much do language models memorize?

8️⃣ Build the web for agents, not agents for the web

Reply

Keep Reading

Turing Post Korea

Home

Account