Turing Post Korea
Posts
'Test-Time Scaling'의 적용에 대한 8가지 새로운 연구

'Test-Time Scaling'의 적용에 대한 8가지 새로운 연구

Ben Eum & Ksenia Se
February 18, 2025

‘테스트 타임 스케일링 (TTS; Test-Time Scaling)’ - 현 시점 AI 판에 있는 사람이라면 누구라도 큰 관심을 갖고 있는 주제죠. 저희 튜링 포스트 코리아의 AI 101에서 커버했던 ‘Time-Time Compute 및 그 스케일링 기법’에 대한 글도 좋은 반응을 얻었습니다:

Topic #26: 'Test-Time Compute'는 무엇이고, 어떻게 스케일링할까?

AI 모델의 '추론' 능력을 혁신하는 '테스트 타임 컴퓨트'의 기본과 스케일링을 도와주는 5가지 이상의 오픈소스 프로젝트

turingpost.co.kr/p/topic-26-test-time-compute

‘Test-Time Compute’는 AI 모델이 응답을 만들어낼 때 사용하는 연산 능력이죠. 많은 연구자들이 지금 TTC의 확장, 즉 스케일링에 집중하고 있는 이유는, 느리지만 심층적인 ‘사고’, 그리고 단계별 추론을 가능하게 해서 전반적인 모델의 성능을 - 우리가 원하는 방향으로 - 향상시켜줄 수 있기 때문일 겁니다.

오늘은 Test-Time Scaling에 대한 8가지의 새로운 연구에 대해서 알아봅니다:

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach는 특별한 훈련을 시키지 않고도, 더 많은 토큰을 생성하는 대신 ‘잠재 공간 (Latent Space)’에서 추론을 해서 TTC를 스케일링하는 언어 모델을 소개합니다. 여기서 Recurrent Block은 정보를 반복적으로 처리하는 역할을 합니다.
Generating Symbolic World Models via Test-Time Scaling of Large Language Models는 TTS (테스트 타임 스케일링)을 모델의 PDDL (Planning Domain Definition Languge) 기반의 추론 능력을 향상시키는데 어떻게 적용할 수 있는지, 그리고 이 향상된 능력이 어떻게 ‘Symbolic World Model’을 생성하는데 활용될 수 있는지를 보여줍니다.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling 은 최적의 TTC (Test-Time Compute) 전략을 분석하고, 작은 모델이 훨씬 더 큰 모델보다 성능이 뛰어날 수 있다는 것을 보여줍니다.
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis는 TTC (Test-Time Compute)가 Llasa 프레임웍을 사용한 음성 합성 케이스에서 표현력, 음색의 일관성 및 정확성을 어떻게 향상시킬 수 있는지 보여줍니다. 더불어, ‘Train-Time Compute’ 스케일링의 이점도 함께 살펴봅니다.
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning
은 TTC (Test-Time Compute)를 스케일링할 때 LLM이 더 추론을 잘 할 수 있도록 해 줄 수 있는 업데이트된 Training Loss를 제안합니다.
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures는 체인, 트리 및 그래프 패러다임의 강점을 모두 통합하는 하나의 프레임웍을 제안하는데, 이 프레임웍은 추론이 필요한 하위 문제가 있을 때에만 추론을 실행하도록 합니다.
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification은 Self-Verification의 스케일링 트렌드를 탐색하고, TTC (Test-Time Compute)를 사용해서 기능을 개선하는 방법을 보여줍니다.
CodeMonkey: Scaling Test-Time Compute for Software Engineering은 직렬 연산(반복; Iterations)과 병렬 연산(궤적; Trajectories)을 스케일링하면 실제 소프트웨어 엔지니어링 문제 해결책의 정확성을 어떻게 더 향상시킬 수 있는지를 검토합니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.