Turing Post Korea
Posts
추론 시간 스케일링 (Inference-Time Scaling) 영역의 새로운 연구 16選

추론 시간 스케일링 (Inference-Time Scaling) 영역의 새로운 연구 16選

Ben Eum & Ksenia Se
April 14, 2025

지난 몇 주 동안, 추론 시간 스케일링 (Inference-Time Scaling)에 관해서 많은 새로운 연구가 나왔습니다. 이 기법들이 모델 파라미터 숫자를 늘리지 않고도 LLM이 더 좋은 능력을 보여줄 수 있게 하기 때문에 아주 매력적인 수단이죠.

그래서 오늘은, 이와 관련된 13가지 새로운 기법, 그리고 3가지 종합적인 연구 내용을 간략히 소개합니다:

Inference-Tme Scaling for Generalist Reward Modeling (2504.02495)
아마도 오늘 이야기하는 것들 중 가장 유명한 연구일 텐데요. 보상 모델링을 개선해서 추론 시간 스케일링을 더 잘 하게 하는 방법을 제안합니다. 성능을 향상시키기 위해서, DeepSeek-GRM은 적응형 비평 (Adaptive Critique), 병렬 샘플링 (Parallel Sampling), 포인트별 생성형 보상 모델(Pointwise Generative Reward Model), 그리고 SPCT (Self-Principled Critique Tuning) 기법을 사용합니다.
T1: Tool-integrated Self-verfication for Test-Time Compute Scaling in Small Language Models (2504.04718)
작은 모델이 코드 인터프리터나 계산기 등의 같은 외부 도구를 사용해서 자체 검증을 강화할 수 있게 해 줍니다.
Z1: Efficient Test-Time Scaling with Code (2504.00810)
코드 기반 추론 경로로 LLM을 훈련시켜 테스트 시간 스케일링을 더 효율적으로 하는 방법을 제안합니다. 특별한 데이터셋과 ‘Shifted Thinking Window’ 기법을 통해서 불필요한 토큰의 생성을 제한합니다.
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning (2504.00891)
GenPRM이라는 생성형 PRM을 소개하는데, 이는 CoT(Chain of Thought) 추론과 코드 검증 기법을 사용해서 단계별로 판단을 합니다. 단 23K의 훈련 예제만으로도 GenPRM은 이전의 PRM과 더 큰 모델들보다 뛰어난 성능을 보입니다.
Can Test-Time Scaling Improve World Foundation Model? (2503.24320)
SWIFT 테스트 시간 확장 프레임웍은 빠른 토큰화, Top-K 프루닝, 효율적인 빔 서치 등의 전략을 사용해서, 재훈련이 없이도 월드 모델(World Models)의 성능을 개선해 줍니다.
Relevance Isn’t All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking (2504.07104)
RAG 시스템의 확장을 위한 REBEL을 제안하는데, 이는 CoT 프롬프팅과 함께 ‘다중 기준 최적화 (Multi-criteria Optimization)’ 기법으로 ‘추론 연산이 증가하면서 성능-속도 트레이드오프가 점점 좋아’지게 해 줍니다.
$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation (2503.13288)
Foresight Sampling, 클러스터링, 적응형 프루닝 등을 사용해서 최적 추론 단계를 예측하고 선택하는 φ-디코딩(φ-Decoding) 전략을 제안합니다.
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
Flow Model에 적용하는 효과적인 테스트 타임 스케일링 기법으로, SDE(확률 미분 방정식) 기반의 생성을 하는 입자 샘플링, 다양성을 높이기 위한 보간자의 변환, 그리고 적응형 연산 할당을 위한 RBF (Rollover Budget Forcing) 등을 포함합니다.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
초안 작성, 피드백, 편집/수정 이 세 가지의 작업에서 서로 다른 모델을 사용함으로써 추론 시간 확장, 특히 개방형 작업에서 성능을 개선해 주는 ‘Feedback-Edit 모델 설정’이라는 개념을 소개합니다.
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models
단순한 m1 기법으로 의료 영역 추론의 성능을 향상시킵니다. 10B 미만 모델에서 이전의 벤치마크 결과보다 뛰어난 성능을 보여주고, 32B 모델은 70B 모델과 맞먹는 성능을 보여줍니다.
ToolACE-R: Tool Learning with Adaptive Self-Refinement
ToolACE-R은 Model-aware Iterative Training을 통해서 도구를 적응형으로 자체적으로 개선하면서 사용할 수 있도록 합니다. 외부의 피드백 없이 도구 호출 (Tool Calling)을 개선하고, 추론 연산을 효율적으로 스케일링합니다.
Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding
컨텐츠를 더 잘 사용하기 위한 PORAG, 적응형 검색 타이밍의 ATLAS, 효율적인 메모리 사용을 위한 CRITIC을 사용하는 경량 RAG 프레임워크를 소개합니다. 최적화된 디코딩 전략, 그리고 추론 심도를 적절히 조절함으로써, 모델이 추론 단계를 효과적으로 확장할 수 있게 합니다.
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute
ModelSwitch는 샘플링 후 투표 (Sampling-then-Voting) 전략으로, 다양한 강점을 활용하기 위해 여러 모델 (약한 모델 포함)을 사용하는데, 멀티 모델 생성-검증이라는 태스크의 잠재력을 강조해서 보여줍니다.

그리고, 아래는 추론 시간 스케일링과 관련한 3가지 종합적인 서베이 3가지입니다:

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.