- Turing Post Korea
- Posts
- ๐FOD#120: GRPOแ แ ณแฏ แแ ฎแฏแ แ ฅแแ กแซ แแ งแซแแ ฎแแ กแแ ณแฏแแ กแซแแ ด แแ กแจแแ ณแซ แแ ฉแแ ฉแผ
๐FOD#120: GRPOแ แ ณแฏ แแ ฎแฏแ แ ฅแแ กแซ แแ งแซแแ ฎแแ กแแ ณแฏแแ กแซแแ ด แแ กแจแแ ณแซ แแ ฉแแ ฉแผ
+ แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
GRPO์ ์ฃผ๋ง(?) โ ์ง๋ ์ฃผ๋ง์ ๋ฌด์จ ์ผ์ด ์์๋ ๊ฑธ๊น์?
๊ทธ ๋ชจ๋ ๊ฒ์, โํธ์ ํ๋โ์์ ์์๋์์ต๋๋ค.

์คํAI์ Aidan McLaughplin์ด ์ผ๋ ์ฒ์์ ํธ์์ ์ด๋ฏธ ์ง์์ก์ง๋ง, ๋ค๋ฅธ ์คํAI ์ง์์ด ์ด๋ ๊ฒ ์ด ํธ์์ด ๋จ์ ์๋ค์:
GRPO release has in a large way accelerated RL research program of most US research labs
โ Jerry Tworek (@MillionInt)
8:28 PM โข Sep 28, 2025
GRPO๊ฐ ๋๋์ฒด ๋ญ๊ฐ ๋ฌธ์ ๊ธธ๋ ์ฐ๊ตฌ์๋ค ์ฌ์ด์ ์ด๋ฐ โ์๋โ์ด ์์๋ ๊ฑธ๊น์? ์ฌ์ง์ด ๊ฝค ๋ง์ ์ฐ๊ตฌ์๋ค์ด ์๋ก ์ธํ์ ํ๊ธฐ๋ ํ ๋ชจ์์ธ๋ฐ์.
๋ฏธ์ฝํ๊ฒ ์์ํ์ง๋ง ์ฐฝ๋ํ๊ฒ ์ฑ์ฅํ GRPO
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์์๋ ์ด์ ์ GRPO์ ๋ํด์ ์ปค๋ฒํ ์ ์ด ์๋๋ฐ์:
GRPO(Group Relative Policy Optimization) - 2024๋ 3์ ์๊ฐ๋ ์ด ๊ธฐ๋ฒ์, ๊ฐํํ์ต์ ํ ๊ฐ์ง ๋ณํ์ด๋ผ๊ณ ํ ์ ์์ฃ - ๊ทธ๋ฃน ๊ธฐ๋ฐ์ ๋น๊ต๋ฅผ ํตํด์ ํ์ต ์ ์ฑ ์ ์ต์ ํํ๋ฉด์ ์ค๋ฒํค๋๋ฅผ ์ค์ด๊ฒ๋ ์ค๊ณ๋ฅผ ํ ๊ฒ๋๋ค.
์ด๋ก ์์ผ๋ก๋ ๊ทธ๋ฆฌ ํน๋ณํ ๊ฒ์ด ์์ง๋ง, ์ด ๊ธฐ๋ฒ์ ์ถ๋ก ์์ ์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ค์ด ๋์ค๋ฉด์ ํ์ด ์์ ํ ๋ค๋ฐ๋์์ต๋๋ค. ๋ช ๋ฌ๋ง์ ์ถ๋ก ํ์ดํ๋ผ์ธ์์ DPO, PPO๋ฅผ ๋์ฒดํ๋ ๊ธฐ๋ณธ๊ฐ์ด ๋์์ต๋๋ค.
์ด ๊ธฐ๋ฒ์ด ๋๋ฌด ํจ๊ณผ๊ฐ ์ข์์, ๋ฅ์ํฌ๋ฅผ ํฌํจํ ์๋ง์ ์คํ์์ค ๋ฉ์์ GRPO๋ฅผ ๊ฐ์ ธ๋ค๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ธฐ๋ณธ ํดํท์ผ๋ก ๋ง๋ค์์ต๋๋ค. ํ ๋๋ ๊ฑฐ์ ๋งค์ฃผ GRPO์ ๋ณํ ํํ๊ฐ ๋ฑ์ฅํ๋๋ฐ, ๋ช ๊ฐ์ง ์๋ฅผ ๋ค์ด๋ณด๋ฉด ์ด๋ฐ ๊ฒ๋ค์ด ์์ต๋๋ค:
SEED-GRPO: ์๋ฏธ๋ก ์ ์ํธ๋กํผ๋ฅผ ์ถ๊ฐํด์ ๋ชจ๋ธ์ด ๋ถํ์ค์ฑ์ ๋ ์ ์ธ์ํ๋๋ก ํ์ต๋๋ค.
Curriculum-based GRPO: ์ฑ๋ฅ์ด ๋ฎ์ ๋ชจ๋ธ๋ ๊ฐํ๋ฅธ ํ์ต ๊ณก์ ์ ์ฌ๋ผ๊ฐ๋ฉด์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๊ฒ๋ ํ์ต๋๋ค.
GRPO with length penalties or format-aware rewards: ๋ฐฉ๋ํ ์ถ๋ ฅ์ผ๋ก ์์คํ ์ ์์ด๋ ๊ฑธ ๋ฐฉ์งํ์ต๋๋ค.
Flow-GRPO: Flow ๋ชจ๋ธ์ด GRPO๋ฅผ ์ ์ฉํด์, ๊ฐํํ์ต ๊ธฐ๋ฒ์ ์ด๋ฏธ์ง์ ์ ์ฉํ ์ ์๊ฒ๋ ํ์ต๋๋ค.
๊ฒฐ๊ณผ๋, ์์๋ค์ํผ, ๋๋ฌด๋ ๋๋ผ์ ์ฃ . 70์ต ๊ฐ ์ ๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค์ด, AIME๋ผ๋ ๊ฐ MATH์ ๊ฐ์ด ์ํ ๋ฐ ๋ ผ๋ฆฌ ์ค์ฌ ๋ฒค์น๋งํฌ์์๋ ์ ์ด๋ 320์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๊ธฐ ์์ํ์ต๋๋ค.
Qwen ๋ฐ DeepSeek ๊ฐ์ ๋ชจ๋ธ์ ๋ง๋๋ ์ค๊ตญ์ ์คํํธ์ , ๋ฉ์๊ฒ ์์ด์ GRPO๋ ์ค์ํ ๊ฒฝ์ ์ฐ์๋ฅผ ์๋ฏธํ๋ ๋๊ตฌ์ด์ ๋ฐฉ๋ฒ๋ก ์ด ๋์์ต๋๋ค. ๋ ๊ด๋ฒ์ํ ์๋ฏธ์ ์คํ์์ค ์ปค๋ฎค๋ํฐ ๊ด์ ์์๋, ๋จ์ํ ๊ท๋ชจ๊ฐ ์๋๋ผ ์๋ฆฌํ ํ๋ จ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ ์ ๋๊น์ง ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋์ง ๋ณด์ฌ์ฃผ๋ ์ผ์ข ์ ์์ง์ด ๋์๊ตฌ์. ์ผ๋ถ ์ด์ ์ AI ์ฐ๊ตฌ๋ฅผ ์ ๋ํ๋ ์คํํธ์ ๊ณผ ์ฐ๊ตฌ์ค์ ์ ์ฅ์์๋, ์๊ธฐ๋ค์ด ๊ฐ์ก๋ ์ฐ์๊ฐ ํ๋ค๋ฆฌ๋ ๋๋๋ ์์์ ๊ฒ๋๋ค.

๊ทธ๋ฌ๋ฉด์, ์์ ๋งํ๋ โํ๋ฐํฐ์ด ๋ฉ (๊ธฐ์ ์ ์ ๋ํ๋ ์ฐ๊ตฌ์ค, ๋ฉ)โ ๋ด๋ถ์์๋ GRPO๊ฐ ์ต์ ์ ์์ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ ๊ธฐ์ ์ ์ธ ํ์ ๊ณผ ๋น๊ตํ๋ฉด ๋ค๋จ์ด์ ธ ์๋ ๊ธฐ์ ์ด๋ผ๋ ์ฃผ์ฅ์ด ๋์ค๊ธฐ ์์ํ์ต๋๋ค. ์ฌ์ค, GRPO๊ฐ ์ด๊ธฐ์ ๋ฑ์ฅํ๋ฉด์ ํ์ ํ ๋ถ๋ถ์ด ์๊ธฐ๋ ํ์ฃ : KL ์ ๊ทํ๊ฐ ์ค์๋ ๊ฐ์ค์น๋ฅผ ๊ฑด๋๋ฐ์ด์ ์ฝ๊ฐ ์ผ๊ด์ฑ์๋ ๋ชฉํ๋ฅผ ์์ฑํ ์ํ์ด ์๋ ๊ตฌ์กฐ์ด๊ธฐ๋ ํ๊ตฌ์. ๊ทธ๋ฐ ์๋ฏธ์์, UCLA์ Quanquan Gu ๊ฐ์ ์ฐ๊ตฌ์๋ค์ ์ด๊ฑธ ์ง์ ์ ์ผ๋ก ์ง์ ํ๋ฉด์, GRPO๊ฐ ๊ธฐ์ ์ ์ผ๋ก โํ๋ ธ๋คโ๊ณ ์ด์ผ๊ธฐํ๊ธฐ๋ ํ์ต๋๋ค.
The original GRPO is an off-policy RL algorithm, but its KL regularization isn't done right. Specifically, the k3 estimator for the unnormalized reverse KL is missing the importance weight. The correct formulation should be:
โ Quanquan Gu (@QuanquanGu)
3:15 AM โข Sep 28, 2025
โ๋ด ์๋ฆฌโ์ ๋ฐ๋ฅธ ๊ด์ ์ ์ฐจ์ด, ๊ทธ๋ฆฌ๊ณ ํ๋ฐํฐ์ด ๋ฉ์ ํ์ ๋ฐฉํฅ
์ฌ๊ธฐ์ ๋ ผ์์ ๋ฐ๋ผ๋ณด๋ ๋ ๊ฐ์ ๊ด์ ์ด ์์ต๋๋ค.
์ข์ ์๋ฏธ์ GRPO๋ฅผ ๋ณด๋ฉด, GRPO๋ ์ค์ ๋ก ๊ฒฐํจ์ด ์์์ต๋๋ค. ๊ทธ๋์ GRPO๋ฅผ ๋ณํํ ์ฌ๋ฌ ๊ธฐ๋ฒ๋ค์ด ๊ทธ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๋ ค๊ณ ๋์จ ๊ฒ๋ค๋ ์๊ณ , ๊ทธ๊ฒ ๋น์ฐํ ํ๋ฆ์ด์ฃ . ๋์ ์๋ฏธ์์๋, GRPO๋ ๋จ์ํ ์๊ณ ๋ฆฌ์ฆ ์ด์์ ๋ฌด์ธ๊ฐ, ์ฆ ์คํ์์ค ์ปค๋ฎค๋ํฐ์์ AI ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด๋๋ฐ ํ์ฉํ๋ ํ๋์ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๋ฐ๋ผ๋ณผ ์๋ ์์ ๊ฒ๋๋ค.
โGRPO๋ ๊ฒฐํจ์ด ์๋ ๊ธฐ์ ์ด๊ณ ๋ค๋จ์ด์ง ๊ธฐ๋ฒ์ด๋คโ๋ผ๊ณ ๋งํ ๋, ์ด๋ค ๊ด์ ์์ ๋ฐ๋ผ๋ณด๋๊ฐ๊ฐ ์ค์ํ๊ฒ ์ฃ . GRPO์ ๋ฌธ์ ์ ์ ์ง์ ํ ํ๋ฐํฐ์ด ๋ฉ ์ฐ๊ตฌ์๋ค์ ์๋ง ์ข์ ์๋ฏธ์์ ์ด์ผ๊ธฐ๋ฅผ ํ ๊ฑธ ๊ฒ๋๋ค. ๋ฐ๋ฉด์, ์คํ์์ค ์ฐ๊ตฌ์๋ค์ ๊ฑฐ์ ํญ์ ์ด๋ด ๋ ๊ด์์ ๊ฐ๋ ์์ ์ผ์ ๋ฐ๋ผ๋ณด๊ณค ํ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ด์ฉ๋ฉด ์ด๋ฒ์ ์ฐ๊ตฌ์๋ค์ด ์ด์ฐ๋ณด๋ฉด ๋ณ ๊ฒ ์๋ ๋ ผ์์ ํ๋ค๊ฐ ์๋ก ์ธํ์ ํ๊ฒ ๋ ๊ฒ๋, ์ด๋ฐ ๊ด์ ๊ณผ ์ ์ ๋ ๋ฒจ์์ ์ถฉ๋์ด ์์๊ธฐ ๋๋ฌธ์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค.
์ด์จ๋ , ๊ทธ๋ ๋ค๋ฉด ํ๋ฐํฐ์ด ๋ฉ์์๋ GRPO๋ณด๋ค ํจ์ฌ ์์ ์ด๋ค ๊ธฐ์ ์ ๋ค์ฌ๋ค๋ณด๊ณ ์ฐ๊ตฌํ๊ณ ์๋ ๊ฑธ๊น์? ๊ณต๊ฐ๋ ์์ธํ ์ ๋ณด๋ ๊ฑฐ์ ์์ง๋ง, ํ๋ฐํฐ์ด ๋ฉ์์๋ GRPO๋ฅผ ๋ฒ๋ฆฌ๊ธฐ๋ณด๋ค๋, ์คํ๋ ค ์ด๊ฑธ ๊ธฐ๋ฐ์ผ๋ก ์์๋๊ฐ๋ ๊ธฐ์ ์ ๊ตฌ์ถํ๊ณ ์์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ์๊ฐํฉ๋๋ค:
(์ ๋๋ก ๊ทธ ๋ฌธ์ ๋ฅผ ์์ ํ) KL-์ ๊ทํ Policy Gradient๋ฅผ ํตํด์ ๋ชจ๋ธ์ด ์์ ์ ์ด๋ฉด์๋ ํจ์จ์ ์ผ๋ก ์ต์ ์ Policy๋ฅผ ์ฐพ๊ฒ ํ๊ธฐ
CoT(Chain-of-Thought) ๋กค์์ ์์ค์์๊ฐ ์๋๋ผ ํ ํฐ ์์ค์์์ ๊ฐํํ์ต์ ํ๊ฒ ํด์, ์ต์ข ์ ์ธ ๊ฒฐ๊ณผ ๋ฟ๋ง์ด ์๋๋ผ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์ ๋งค ์๊ฐ๋ง๋ค ๋ ์ ํํ ๊ฒฐ์ ์ ํ๋๋ก ํ๊ธฐ
๋จ๊ณ๋ณ๋ก ๋ ํจ์จ์ ์ผ๋ก ํฌ๋ ๋ง์ ํ ๋นํด์, ๋ ๊ฒฐ์ ์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ ํ๋์ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ฒ ํ๊ธฐ
๋ถํ์ค์ฑ์ ๋ํ ์ ํธ, ๊ทธ๋ฆฌ๊ณ ์๋ ๋ชจ๋ธ์ ๋ํ ์ดํด๋ฅผ ๋ณด์ ํจ์์ ์ง์ ์ ์ผ๋ก ํตํฉํด์, ๋ ์์์ ์ด๋ฉด์๋ ํ์ค์ ์ธ ์ถ๋ก ์ ํ๊ฒ๋ ํ๊ธฐ
์๋ง ์ด๋ฐ ํ๋ฆ์ด ๋ง์ ๊ฒ๋๋ค. GRPO๊ฐ ๊ธฐ์ด์ ์ธ ๊ฐ๋ ๊ณผ ํ์ ์ ๊ณตํ๊ณ , ํ๋ฐํฐ์ด ๋ฉ์์๋ ์ด ์๊ฐ์ ์ข ๋ ์ฒด๊ณํํ๊ณ ๋ ์์น์ ์ผ๋ก ๊ฐ์ ธ๊ฐ์, ํจ์ฌ ๋ ์์ ์ ์๊ณ ์ฐ์ํ๊ณ ๊ณ์ฐ ๋น์ฉ๋ ์ ๊ฒ ๋๋ ๋ฒ์ ์ผ๋ก ๋ฐ์ ์ํค๊ณ ์๊ฒ ์ฃ .
์ผ๋ถ ํ๋ฐํฐ์ด ๋ฉ์์ ๋์จ, GRPO๋ฅผ ๋ค์ ๊น์๋ด๋ฆฌ๋ ๋ฏํ ์ฃผ์ฅ๊ณผ ํธ์์ด ์คํ์์ค์์ ํ๋ฐํ๊ฒ ํ๋ํ๋ ์ฐ๊ตฌ์๋ค๊ณผ ์ปค๋ฎค๋ํฐ์ ์ฝ๊ฐ ๋นํฉ์ค๋ฌ์(?)์ด๋๊น, ๋ถ์พ๊ฐ(?)์ด๋๊น ํ๋ ๊ฐ์ ์ ์ผ์ผ์ผฐ๋๋ด์. ์ด์จ๋ ์ด ๊ณผ์ ์์, ์คํ์์ค ์ปค๋ฎค๋ํฐ์ ์๋๊ฐ, ์ด์ ์ ๋ณด๋ ๊ฒ ๊ฐ๊ธฐ๋ ํด์ ๋๋ผ์ด ๋๋๋ ๋ค์์ต๋๋ค.
ํ ์ผํธ์ ์ฐ๊ตฌ์ Zhongwen Xu๋, ์คํ์์ค ์ปค๋ฎค๋ํฐ๊ฐ ํ๋ฐํฐ์ด ๋ฉ๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ์ง์ง ์ค์ด๋ ค๋ฉด ๋ญ ํด์ผ ํ๋์ง ์๋์ ๊ฐ์ด ์ด์ผ๊ธฐํ๊ธฐ๋ ํ์ต๋๋ค:

ํ๋ฐํฐ์ด ๋ฉ๊ณผ ์คํ์์ค ์ปค๋ฎค๋ํฐ ๊ฐ์ ํ๋ฐํ ๋ ผ์์ ๋ถ๋ฌ์ฌ ๋งํ ๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด๋ ๋ฐฉ๋ฒ๋ก ์ ๋ญ๊ฐ ์์๊น ๊ถ๊ธํด์ง๋ค์.
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
๋ชจ๋ธ ์ปจํ ์คํธ ํ๋กํ ์ฝ(MCP, Model Context Protocol) ์๋ฒ๋ค์ ์์ด์ ํธ, ๋ชจ๋ธ, ๋๊ตฌ, ์น, ๋ฐ์ดํฐ, ์ฑ์ ์ฐ๊ฒฐํ๋ฉด์ ๊ณ์ํด์ ํ์ฅ๋๊ณ ์์ต๋๋ค. ์ค๋์ ํธ๋ฆฌํ ์์ด์ ํธ ์ํ๊ณ๋ฅผ ๋ง๋๋ ๋ฐ ๋์์ด ๋ , 12๊ฐ์ง ์ ์ฉํ MCP ์๋ฒ๋ฅผ ์๊ฐํฉ๋๋ค:
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
์๋น๋์, CoRL 2025์์ โPhysical AIโ๋ฅผ ์ธ์น๋ค
์ง๋ ์ฃผ ์์ธ์์ CoRL 2025๊ฐ ์ด๋ ธ์ฃ . ์ด ์๋ฆฌ์์, ์๋น๋์๋ ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ๋ํ ํ ์คํ(Full-Stack) ์ ๋ต์ ๊ณต๊ฐํ๋ฉด์ ์คํ ๋ชจ๋ธ, ์๋ฎฌ๋ ์ด์ ์์ง, ์๋ก์ด ํ๋์จ์ด๊น์ง ํฌ๊ดํ๋ ์ ๋ฐฉ์์ ์ธ ํ์ ๊ธฐ์ ๊ณผ ํ๋ซํผ์ ๋ฐํํ์ต๋๋ค.
์๋น๋์์์๋ Newton ์์ง์ ๋ก๋ด์ '๋ชธ'์ผ๋ก, GR00T์ '๋๋'๋ก, Jetson Thor๋ฅผ '๋ฐฐํฌ(Deployment) ์์ง'์ผ๋ก ํฌ์ง์ ๋ํ๋ฉด์, ์ค์ค๋ก๋ฅผ ํผ์ง์ปฌ AI(Physical AI)๋ฅผ ์ํ ์ด์์ฒด์ ๋ก ์๋ฆฌ๋งค๊นํ๊ณ ์์ต๋๋ค. ์ค์ ๋ก, CoRL์์ ๋ฐํ๋ ๋ ผ๋ฌธ์ ๊ฑฐ์ ์ ๋ฐ ๊ฐ๋์ด ์๋น๋์์ ๊ธฐ์ ์ ์ธ์ฉํ์ ์ ๋๋, ๊ทธ ์ํฅ๋ ฅ์ ๋ง๋ํ๋ค๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.
ํต์ฌ์ ์ธ ๊ธฐ์ ๋ฐํ ๋ด์ฉ๋ง ์์ฝํ๋ฉด ์ด๋ ์ต๋๋ค:
Newton ๋ฌผ๋ฆฌ ์์ง (Newton Physics Engine): GPU ๊ธฐ๋ฐ์ ๋ฌผ๋ฆฌ ์์ง์ผ๋ก, DeepMind, Disney์ ๊ณต๋ ๊ฐ๋ฐํ์ต๋๋ค. ํ์ฌ Linux Foundation ์ฐํ์ ์คํ์์ค๋ก ๊ณต๊ฐ๋์๊ณ , Isaac Lab์ ํตํฉ๋์์ต๋๋ค. ์ด๋ฏธ ETH Zurich, TUM, Peking University์์ ์ฑํํ๊ณ ์์ต๋๋ค.
Isaac GR00T N1.6 ํด๋จธ๋ ธ์ด๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ: ๋ก๋ด์ '๋๋' ์ญํ ์ ํ๋ ๋ชจ๋ธ์ ๋๋ค. Cosmos Reason์ผ๋ก ๊ฐํ, ๋ก๋ด์๊ฒ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ์ฌํ๊ณ , ๋ก๋ด์ด ์ด๋(Locomotion)๊ณผ ์กฐ์(Manipulation)์ ํจ๊ป ์ฒ๋ฆฌํ ์ ์๊ฒ ํด ์ค๋๋ค. LG, Franka, Neura, Solomon ๋ฑ๊ณผ ํํธ๋์ญ์ ๋งบ์์ต๋๋ค.
Cosmos WFMs (World Foundation Models): Predict ๋ฐ Transfer ๋ชจ๋ธ์ด ์ ๋ฐ์ดํธ๋์ด์, ์ฅ๊ธฐ์ ์ธ ๊ด์ ๊ณผ ๋ค์ค ์์ ์ ๊ฐ์ง ํฉ์ฑ ๋ฐ์ดํฐ(Synthetic Data)๋ฅผ ๋๊ท๋ชจ๋ก ์์ฑํฉ๋๋ค. ์ด ๋ชจ๋ธ์ 300๋ง ํ ์ด์ ๋ค์ด๋ก๋๋์์ต๋๋ค.
Dexterous Grasping + Arena: ๋ก๋ด ์์ ์ํ ์๋ก์ด Isaac Lab ์ํฌํ๋ก์ฐ์ ํ์คํ๋ ๊ธฐ์ ํ๊ฐ ํ๊ฒฝ์ ๋๋ค. Boston Dynamics์ Atlas๊ฐ ์ด๋ฏธ ์ด๋ฅผ ํ์ฉํด์ ํ๋ จ์ ํ๋ค์.
Jetson Thor On-Robot Supercomputer: Blackwell ์ํคํ ์ฒ ๊ธฐ๋ฐ์ ๋ก๋ด์ฉ ์ํผ์ปดํจํฐ์ ๋๋ค. Figure AI, Unitree, DeepMind, Meta ๋ฑ ์ฃผ์ ๊ธฐ์ ๋ค์์ ์ฑํํ์ต๋๋ค.
๊ตฌ๊ธ ์ญ์, ์ ์ ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ์ง์งํ๊ฒ ์ฐธ์ฌ
Weโre making robots more capable than ever in the physical world. ๐ค
Gemini Robotics 1.5 is a levelled up agentic system that can reason better, plan ahead, use digital tools such as @Google Search, interact with humans and much more. Hereโs how it works ๐งต
โ Google DeepMind (@GoogleDeepMind)
4:02 PM โข Sep 25, 2025
์คํAI, AI์ ๊ฒฝ์ ์ ๊ฐ์น๋ฅผ ์ธก์ ํ๋ค: GDPval ๊ณต๊ฐ
์คํAI๊ฐ ์ธ๊ณต์ง๋ฅ์ ์ค์ง์ ์ธ ๊ฒฝ์ ์ ๊ฐ์น๋ฅผ ํ๊ฐํ๊ฒ ๋ค๋ ๋ชฉ์ ์ผ๋ก ๋ง๋ ์๋ก์ด ๋ฒค์น๋งํฌ, GDPval์ ๋ฐํํ์ต๋๋ค.
์ด ๋ฒค์น๋งํฌ๋ ๋ฏธ๊ตญ GDP ์์ 9๊ฐ ๋ถ๋ฌธ์ 44๊ฐ ์ง์ ์ ๊ฑธ์ณ์ AI๊ฐ ์ํํ ๊ฒฐ๊ณผ๋ฌผ์ ํ๊ฐํฉ๋๋ค. ํนํ, ํ๊ท ์ฝ 14๋ ๊ฒฝ๋ ฅ์ ์ ๋ฌธ๊ฐ๊ฐ ์ฐ์ถํ ๊ฒฐ๊ณผ๋ฌผ๊ณผ AI์ ๊ฒฐ๊ณผ๋ฌผ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
์คํAI๋ ์ด ๋ฒค์น๋งํฌ๋ฅผ ํตํด์ ๊ฒฝ์ ๋ชจ๋ธ์ด ์์ฌ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๊ฒฝ์ฐ๊น์ง๋, ๋๋ดํ๊ณ ๋ ํฌ๋ช ํ๊ฒ ๊ณต๊ฐ๋ฅผ ํ์ต๋๋ค.
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
The QMA Singularity by Scott Aaronson
์์ ๋ณต์ก๋ ์ด๋ก ์ ๋๊ฐ์ธ ์ค์ฝง ์ ๋ฐ์จ(Scott Aaronson) ๊ต์๊ฐ ์์ ์ด ๊ณต๋ ์งํํ ๋ ผ๋ฌธ์ ํต์ฌ์ ์ธ ๊ธฐ์ ๋์ ๋ฅผ GPT-5-Thinking์ ๋์์ผ๋ก ํด๊ฒฐํ ๊ฒฝํ์ ๊ณต์ ํ์ต๋๋ค. ์ ๋ฐ์จ ๊ต์๋ ์ธ๊ณต์ง๋ฅ์ด ์์ ๋ณต์ก๋ ํด๋์ค(QMA)์ ์ฆ๋ช ๊ณผ์ ์์ ์ค์ํ ์์ด๋์ด๋ฅผ ์ ์ํ๋ฉด์ ์ฐ๊ตฌ์ ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋์๋ค๊ณ ๋ฐํ์ต๋๋ค. ๊ฒฐ๊ตญ, AI๊ฐ ๋จ์ํ ๊ธ์ฐ๊ธฐ๋ ์๋ฃ ์ ๋ฆฌ ์์ค์ ๋์ด์, ์ธ๊ฐ ์ง์ฑ ํ๋์ ์ ์๋ผ๊ณ ์ฌ๊ฒจ์ง๋ ์์ ์ํ ์ฐ๊ตฌ ๋ถ์ผ์๊น์ง ๊น์์ด ๊ด์ฌํ๊ณ ๊ธฐ์ฌํ๊ธฐ ์์ํ๋ค๋ ๋๋ผ์ด ํ๋์ ์ฆ๊ฑฐ๊ฐ ์๋๊ฐ ์ถ๋ค์.
AI ์ฐ๊ตฌ๋ผ๋ ๊ด์ ์์๋ ์ฌ์ค ์ค๋ ๋ ์์ด๋์ด๊ธด ํ์ง๋ง, '์๋ ๋ชจ๋ธ(World Model)' ๊ฐ๋ ์ด AGI(๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ)๋ฅผ ์ถ๊ตฌํ๋ ์ฐ๊ตฌ์ค๋ค์ ์ค์ฌ์ผ๋ก ๋ค์ ๊ฐ๋ ฅํ๊ฒ ๋ถ์ํ๊ณ ์์ต๋๋ค. ์๋ ๋ชจ๋ธ์ AI ๋ด๋ถ์ ํ์ค์ ์ถ์ํ์ธ 'Computational Snow Globe(๊ฐ์์ธ๊ณ์ด์ ์ฐ์ฐ์ผ๋ก ์๋ํ๋ ์ค๋ ธ์ฐ๋ณผ)' ๊ฐ์ ํ๊ฒฝ์ ๋ง๋ค์ด์, AI๊ฐ ์ค์ ํ๋ ์ ์ ์์ธก์น๋ฅผ ํ ์คํธํ๊ณ ์์ ํ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๋๋ก ํด ์ค๋๋ค. ํ์ฌ LLM์ ์ผ๊ด๋ ํ์ค ๋ชจ๋ธ ๋์ ํํธํ๋ ๊ฒฝํ์น(Heuristics)์ ์์กดํ๊ธฐ ๋๋ฌธ์ ์๊ธฐ์น ์์ ์ํฉ์ ์๋ฌด๋๋ ์ทจ์ฝํ์ฃ . ๊ทธ๋์ ๋ง์ ์ฐ๊ตฌ์๋ค์ ํ๊ฐ ํ์์ ์ ๊ฑฐํ๊ณ AI์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๋ขฐํ ์ ์๊ฒ ๋ง๋ค๊ธฐ ์ํด์๋ ๊ฒฌ๊ณ ํ ์๋ ๋ชจ๋ธ์ด ํ์์ ์ด๋ผ๊ณ ๋ณด๋ ๊ฒ ๊ฐ์ต๋๋ค.
์๋น๋์์ CEO ์ ์จ ํฉ์ด ์ถ์ฐํด์ AI ์ปดํจํ ์ ๋ฏธ๋์ ๋ํ ํต์ฐฐ์ ๋๋๋ ์์์ ๋๋ค. ์ ์จ ํฉ์ AI๊ฐ ๋จ์ํ '๋จ๋ฐ์ฑ ๋ต๋ณ'์ ๋์ด์ '์ถ๋ก (Reasoning)' ๋ฅ๋ ฅ์ ๊ฐ๊ฒ ๋๋ฉด์ ์ถ๋ก (Inference) ์์๊ฐ 10์ต ๋ฐฐ๋ก ํญ๋ฐํ ๊ฒ์ด๊ณ , ์ด๋ฅผ ํตํด์ ์ ์ธ๊ณ ์ปดํจํ ์ธํ๋ผ๋ฅผ ๊ฐ์ ์ปดํจํ ์ผ๋ก ๋์ฒดํ๋ ๊ฑฐ๋ํ ์ฐ์ ํ๋ช ์ด ์ผ์ด๋ ๊ฑฐ๋ผ๊ณ ๊ฐ์กฐํ์ต๋๋ค. ํนํ ์คํAI์์ ํํธ๋์ญ์ ์ธ๊ธํ๋ฉด์, AI๊ฐ ์ธ๋ฅ์ ์ง๋ฅ์ ์ฆ๊ฐ์์ผ์ ์ ์ธ๊ณ GDP ์ฑ์ฅ์ ์ด๋๊ณ ๋ชจ๋์๊ฒ 'AI ๋๋ฃ'๋ฅผ ์ ๊ณตํ๋ ๋ฏธ๋๊ฐ ๋ค๊ฐ์ค๊ณ ์๋ค๊ณ ํ์ฃผ์ด ์ด์ผ๊ธฐํ๊ณ ์์ต๋๋ค.
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
Code World Model (CWM)
๋ฉํ์ FAIR ์ฐ๊ตฌํ์ด 320์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง, ๋์ฝ๋๋ง์ผ๋ก ๋ง๋ค์ด์ง ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ธ CWM(Code World Model)์ ์ ๋ณด์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ฝ๋ ์์ฑ๊ณผ ์ถ๋ก ์ ํนํ๋์ด ์๊ณ , 8์กฐ ๊ฐ์ ์ฌ์ ํ์ต ํ ํฐ๊ณผ 300๋ง ๊ฐ์ ForagerAgent ๊ถค์ (Trajectory)์ ํ์ฉํด์ ์ฝ๋์ ์๋ฏธ๋ก ๊ณผ ๊ณํ ๋ฅ๋ ฅ์ ๋ชจ๋ธ๋งํ์ต๋๋ค. ํนํ Python ์คํ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉ, ์ฝ๋์ ๋ํ ๊น์ ์ดํด๋ฅผ ๋์์ต๋๋ค. ์ฑ๋ฅ๋ ์์ฃผ ๋ฐ์ด๋ฉ๋๋ค. SWE-bench Verified์์ 65.8%(ํ ์คํธ ์๊ฐ ์ค์ผ์ผ), LiveCodeBench์์ 68.6%, Math-500์์ 96.6%, AIME 2024์์ 76.0%๋ผ๋ ๊ฝค ๋๋ผ์ด ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ค๊ฐ ํ์ต, SFT(์ง๋ ํ์ธํ๋), RL(๊ฐํ ํ์ต) ์ดํ์ ์ฒดํฌํฌ์ธํธ๊ฐ ๋น์์ ์ ์ฐ๊ตฌ๋ฅผ ์ํ ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋ ์์ ์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
Deepseek-v3.2-exp
DeepSeek-AI ์ฐ๊ตฌํ์ 6,850์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ DeepSeek ํฌ์ ์ดํ ์ (DSA) ๊ธฐ์ ์ ์ ์ฉํด์ ์ฅ๋ฌธ์ ๋งฅ๋ฝ ํ์ต ๋ฐ ์ถ๋ก ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค. ๋์์ ์ถ๋ ฅ ํ์ง์ ๊ทธ๋๋ก ์ ์งํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. DeepSeek-V3.1-Terminus์ ๋น๊ตํ์ ๋, MMLU-Pro 85.0์ , GPQA-Diamond 79.9์ , AIME 2025 89.3์ , SWE Verified 67.8์ ๋ฑ ๋น์ทํ ์์ค์ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํนํ Codeforces์์๋ V3.2-Exp ๋ชจ๋ธ์ด 2121์ ์ผ๋ก 2046์ ์ด์๋ ์ด์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ต๋๋ค. DSA๋ BrowseComp์์ 1.6%, Terminal-bench์์ 1.0% ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๊ณ , ์์ด์ ํธ(Agentic) ๋ฐ ๋ค๊ตญ์ด ์์ ์์์ ์ ์ฌ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. โ> [ํ๊น ํ์ด์ค์์ ๋ณด๊ธฐ]
Qwen3-Omni
Qwen ์ฐ๊ตฌํ์ด 300์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง MoE(Mixture-of-Experts) ๋ชจ๋ธ์ ๊ณต๊ฐํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋๋ฐ, ๋จ์ผ ๋ชจ๋ฌ ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ ์ ํ๊ฐ ์ ํ ์๋ค๋ ์ ์ด ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. 119๊ฐ์ ์ธ์ด์ ๋ํด์๋ ์ฐ๊ธฐ, 19๊ฐ์ ์ธ์ด์ ๋ํด์๋ ๋งํ๊ธฐ๋ฅผ ์ง์ํ๊ณ , 10๊ฐ์ง ์์ฑ ์ถ๋ ฅ๊ณผ ์ต๋ 40๋ถ ๊ธธ์ด์ ์ค๋์ค ์ ๋ ฅ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ํนํ Thinker-Talker ์ํคํ ์ฒ๋ฅผ ํตํด First-Packet Latency๊ฐ 234ms๋ก ์๋นํ ์งง๊ณ ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ, ๊ทธ๋ฆฌ๊ณ ๊ต์ฐจ ๋ชจ๋ฌ ์ถ๋ก ์ ํ ์ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ 32๊ฐ์ ์ค๋์ค/์์ฒญ๊ฐ ๋ฒค์น๋งํฌ์์ Gemini 2.5 Pro ๋ฐ GPT-4o์ ๊ฐ์ ๋น๊ณต๊ฐ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๊ณ , 22๊ฐ ๋ฒค์น๋งํฌ์์ SOTA ๊ธฐ๋ก์ ์ธ์ ์ต๋๋ค. ๋ชจ๋ธ์ Apache 2.0 ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋ ์์ ์ ๋๋ค. โ> [ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ณด๊ธฐ]
Manzano
์ ํ ์ฐ๊ตฌํ์ด ์ด๋ฏธ์ง ์ดํด์ Text-to-Image ์์ฑ์ ๊ฒฐํฉํ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์๊ฐํ์ต๋๋ค. ํ์ด๋ธ๋ฆฌ๋ ํ ํฌ๋์ด์ (Tokenizer) ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํด์, ๊ณต์ ๋น์ ์ธ์ฝ๋(Vision Encoder)๊ฐ ์ด๋ฏธ์ง ์ดํด๋ฅผ ์ํ ์ฐ์ ์๋ฒ ๋ฉ(Continuous Embeddings)๊ณผ ์ด๋ฏธ์ง ์์ฑ์ ์ํ ์ด์ฐ ํ ํฐ(Discrete Tokens)์ ๋ชจ๋ ์ถ๋ ฅํฉ๋๋ค. 'Manzano'๋ผ๋ ์ด ๋ชจ๋ธ์ ํตํฉ๋ ์๋ํ๊ท LLM๊ณผ ํ์ฐ ๋์ฝ๋(Diffusion Decoder)๋ฅผ ํ์ฉํ๊ณ , ์ธ ๋จ๊ณ์ ํ๋ จ ๋ฐฉ์์ ๊ฑฐ์ณ ํ์ต๋์์ต๋๋ค. ํตํฉ ๋ชจ๋ธ ์ค์์๋ ์ต์ฒจ๋จ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ณ , ์์ ๊ฐ์ ์ถฉ๋์ ์ต์ํํ๊ณ ๊ฐ๋ ฅํ ์ค์ผ์ผ๋ง ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ํนํ 300์ต ํ๋ผ๋ฏธํฐ ์ฌ์ด์ฆ์ ๋ฒ์ ์ ํ ์คํธ๊ฐ ํ๋ถํ VQA(์๊ฐ ์ง๋ฌธ ๋ต๋ณ)์์ ์ด์ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๊ณ , ์์ฑ ๋ฅ๋ ฅ(GenEval: 1.00, WISE: 0.54)์์๋ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๋ฉํฐ๋ชจ๋ฌ, ๋น์ ๋ฐ ์์ ์ดํด, ์ถ๋ก
๐๐ Video models are zero-shot learners and reasoners (Google DeepMind) โ ์ผ๋ฐ์ ์ธ ๋น๋์ค ๋ชจ๋ธ์์ ์ ๋ก์ท(Zero-shot) ์ง๊ฐ ๋ฐ ์กฐ์ ๋ฅ๋ ฅ์ด ๋ํ๋๋ค๋ ๊ฑธ ๋ณด์ฌ์ค๋๋ค. ํ์ต์ ํ์ง ์์ ์์ ์์๋ AI๊ฐ ์ค์ค๋ก ์ธ์ํ๊ณ ํ๋ํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ๋ ผ๋ฌธ์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction (Meta) โ ๋ฉํ ํ ํฐ์ ์ถ๊ฐํ๊ณ ์ถ๋ก ์์ ๋ฒกํฐ๋ฅผ ์ค์ผ์ผ๋งํด์ ์ ํ๋์ ๋น์ฉ์ ๊ท ํ์ ๋ง์ถ๊ณ , ์ด๋ ๊ฒ ํด์ ๋ฉํฐ๋ชจ๋ฌ ๊ฒ์์ ํจ์จ์ฑ์ ๋์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources โ ๊ธด CoT(Chain-of-Thought) ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ๊ณ , ๋ถ์ฐ(Variance)์ด ๋์ ์ํ์ ์ ๋ณํด์ ๊ฐํ ํ์ต(RL)์ ์์ ์ฑ์ ๋์ ๋๋ค. ์ด ๊ธฐ๋ฒ์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ ์ ์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ด๋ก ๋ฐ ํ๊ฐ
๐ Behind RoPE: How Does Causal Mask Encode Positional Information? (KAIST, Microsoft) โ ์ธ๊ณผ ๋ง์คํน(Causal Masking) ์์ฒด๊ฐ ์ด๋ป๊ฒ ํฌ์ง์ ์์กด์ ์ธ ์ดํ ์ (Attention)์ ์ ๋ํ๊ณ , RoPE(Rotary Positional Embedding)์ ์ํธ์์ฉํด์ ์๋์ ์ธ ํจํด์ ์๊ณกํ๋์ง ๋ฐํ๋๋ค. LLM์ ๋ด๋ถ ์๋ ๋ฐฉ์์ ๋ํ ๊น์ ์ดํด๋ฅผ ํ ์ ์๊ฒ ํ๊ธฐ ์ํ ๋ ผ๋ฌธ์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT (Meta) โ CoT(Chain-of-Thought)์ ๊ธธ์ด ๋๋ ๊ฒํ ๋ณด๋ค '์คํจ ๋จ๊ณ ๋น์จ(Failed-step Fraction)'์ด ๋ ์ข์ ์ถ๋ก ์์ธก ๋ณ์์์ ํ์ธํฉ๋๋ค. ๋, ๊ตฌ์กฐ๋ฅผ ์ธ์ํ๋ ํ ์คํธ ์๊ฐ ์ค์ผ์ผ๋ง(Test-time Scaling)์ ์ ํจ์ฑ์ ๊ฒ์ฆํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
ํธ๋ ์ด๋ ๋ฐ ์ต์ ํ (์ฌ์ ํ๋ จ, RL, CoT)
๐ Thinking Augmented Pre-training (Mictosoft) โ ํฉ์ฑํ ์ฌ๊ณ ๊ถค์ (Synthetic Thinking Trajectories)์ผ๋ก ์ฌ์ ํ์ต ํ ์คํธ๋ฅผ ์ฆ๊ฐํด์ ๋ฐ์ดํฐ ํจ์จ์ฑ ๋ฐ ๋ค์ด์คํธ๋ฆผ ์ถ๋ก ์ ํฅ์์ํต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Soft Tokens, Hard Truths (Meta) โ RL์ ํตํด์ ์ฐ์์ ์ธ ์ฌ๊ณ ์ ์ฐ์(Continuous Chain-of-Thought)๋ฅผ ํ๋ จํด์, ์ด์ฐ ํ ํฐ์ผ๋ก ๋ฐฐํฌํ๋ฉด์๋ CoT ๋ค์์ฑ์ ๋์ด๊ฒ ํด ์ค๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Reinforcement Learning on Pre-Training Data (Tencent) โ ์ฌ๋์ด ์์ ํ ๋ ์ด๋ธ ์์ด ์ฌ์ ํ์ต ์ฝํผ์ค(Corpora)์ ๋ค์ ์ธ๊ทธ๋จผํธ ์์ธก์ผ๋ก๋ถํฐ ์ง์ ๋ณด์์ ๋์ถํด์ RL์ ๋๊ท๋ชจ๋ก ํ์ฅํ ์ ์๊ฒ ํด ์ค๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models (Alibaba) โ ์ ๋ณด์ฑ ๋์ ๋ณด์ ๋ถ์ฐ(Reward Variance)์ ๊ฐ์ง ์ํ์ ์ ํํด์ ์ปค๋ฆฌํ๋ผ ํ๋ จ(Curriculum Train)์ ์ํํจ์ผ๋ก์จ ์ํ์ ์ถ๋ก ์ ๊ฐ์ ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Thinking While Listening: Simple Test Time Scaling For Audio Classification (Stanford) โ ์ถ๋ก ์ ๊ฒฝ๋ ์ถ๋ก (Lightweight Reasoning) ๋ฐ ์ํ๋ง(Sampling)์ ์ถ๊ฐํด์ ์ค๋์ค ๋ถ๋ฅ์ ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching (Apple) โ ์กฐ๊ฑด์ ์ธ์ํ๋ ๋ณํ(Condition-aware Shifts)๋ฅผ ํตํด์ ํ๋ฅ ๊ฒฝ๋ก๋ฅผ ๋จ์ถ์์ผ, ํ๋ จ ์๋๋ฅผ ๋์ด๊ณ FID(Frรฉchet Inception Distance) ์ ์๋ฅผ ๊ฐ์ ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์์ด์ ํธ, ํ๊ฒฝ ๋ฐ ํ๋๋
๐ ARE: Scaling Up Agent Environments and Evaluations (Meta) โ ๋น๋๊ธฐ์ ์ด๊ณ , ๋๊ตฌ๋ ํ๋ถํ๊ณ , ๋ค์ด๋๋ฏนํ ์์ ํ๊ฒฝ์์ ์์ด์ ํธ์ ๋ฅ๋ ฅ์ ๊ทนํ์ผ๋ก ํ ์คํธํ ์ ์๋ ํ๋ซํผ๊ณผ Gaia2 ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning โ ์๋ฎฌ๋ ์ด์ ๋ ์ฌ์ฉ์์ ๋ณด์ ์ค๊ณ๋ฅผ ํตํด์ ๋ฉํฐํด ๋ํ์์์ ์ ์ฉ์ฑ์ ๋์ด๋ ์์ด์ ํธ๋ฅผ ํ๋ จํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent โ GUI ์๋ํ๋ฅผ ์ํด ์ธ๊ฐ์ ์๊ฐ์ ์ฃผ์(Visual Attention), ์ธ์ง(Cognition), ํ๋(Action)์ ๋ชจ๋ฐฉํ๊ณ , ๊ณผ์ ๋ฐ ๊ฒฐ๊ณผ ๋ณด์(Process-and-Outcome Rewards)์ ํ์ฉํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
LIMI: Less is More for Agency โ ์ ์คํ๊ฒ ์ ๋ณ๋ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ด ๋๊ท๋ชจ ์ปฌ๋ ์ ๋ณด๋ค ๊ฐ๋ ฅํ ์์ด์ ํธ ๊ธฐ์ ์ ๋ ํจ์จ์ ์ผ๋ก ์ด๋์ด๋ผ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply