• Turing Post Korea
  • Posts
  • ๐ŸŒFOD#120: GRPOแ„…แ…ณแ†ฏ แ„ƒแ…ฎแ†ฏแ„…แ…ฅแ„Šแ…กแ†ซ แ„‹แ…งแ†ซแ„€แ…ฎแ„Œแ…กแ„ƒแ…ณแ†ฏแ„€แ…กแ†ซแ„‹แ…ด แ„Œแ…กแ†จแ„‹แ…ณแ†ซ แ„‰แ…ฉแ„ƒแ…ฉแ†ผ

๐ŸŒFOD#120: GRPOแ„…แ…ณแ†ฏ แ„ƒแ…ฎแ†ฏแ„…แ…ฅแ„Šแ…กแ†ซ แ„‹แ…งแ†ซแ„€แ…ฎแ„Œแ…กแ„ƒแ…ณแ†ฏแ„€แ…กแ†ซแ„‹แ…ด แ„Œแ…กแ†จแ„‹แ…ณแ†ซ แ„‰แ…ฉแ„ƒแ…ฉแ†ผ

+ แ„€แ…ณแ†ทแ„Œแ…ฎแ„‹แ…ด แ„Œแ…ฎแ„‹แ…ญ แ„‚แ…ฒแ„‰แ…ณ แ„†แ…ตแ†พ แ„‹แ…งแ†ซแ„€แ…ฎ

GRPO์˜ ์ฃผ๋ง(?) โ€“ ์ง€๋‚œ ์ฃผ๋ง์— ๋ฌด์Šจ ์ผ์ด ์žˆ์—ˆ๋˜ ๊ฑธ๊นŒ์š”?

๊ทธ ๋ชจ๋“  ๊ฒƒ์€, โ€˜ํŠธ์œ— ํ•˜๋‚˜โ€™์—์„œ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์˜คํ”ˆAI์˜ Aidan McLaughplin์ด ์ผ๋˜ ์ฒ˜์Œ์˜ ํŠธ์œ—์€ ์ด๋ฏธ ์ง€์›Œ์กŒ์ง€๋งŒ, ๋‹ค๋ฅธ ์˜คํ”ˆAI ์ง์›์ด ์ด๋ ‡๊ฒŒ ์“ด ํŠธ์œ—์ด ๋‚จ์•„ ์žˆ๋„ค์š”:

GRPO๊ฐ€ ๋„๋Œ€์ฒด ๋ญ๊ฐ€ ๋ฌธ์ œ๊ธธ๋ž˜ ์—ฐ๊ตฌ์ž๋“ค ์‚ฌ์ด์— ์ด๋Ÿฐ โ€˜์†Œ๋™โ€™์ด ์žˆ์—ˆ๋˜ ๊ฑธ๊นŒ์š”? ์‹ฌ์ง€์–ด ๊ฝค ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์„œ๋กœ ์–ธํŒ”์„ ํ•˜๊ธฐ๋„ ํ•œ ๋ชจ์–‘์ธ๋ฐ์š”.

๋ฏธ์•ฝํ•˜๊ฒŒ ์‹œ์ž‘ํ–ˆ์ง€๋งŒ ์ฐฝ๋Œ€ํ•˜๊ฒŒ ์„ฑ์žฅํ•œ GRPO

ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„์—์„œ๋„ ์ด์ „์— GRPO์— ๋Œ€ํ•ด์„œ ์ปค๋ฒ„ํ•œ ์ ์ด ์žˆ๋Š”๋ฐ์š”:

GRPO(Group Relative Policy Optimization) - 2024๋…„ 3์›” ์†Œ๊ฐœ๋œ ์ด ๊ธฐ๋ฒ•์€, ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•œ ๊ฐ€์ง€ ๋ณ€ํ˜•์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์ฃ  - ๊ทธ๋ฃน ๊ธฐ๋ฐ˜์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด์„œ ํ•™์Šต ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜๋ฉด์„œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๊ฒŒ๋” ์„ค๊ณ„๋ฅผ ํ•œ ๊ฒ๋‹ˆ๋‹ค.

์ด๋ก ์ƒ์œผ๋กœ๋Š” ๊ทธ๋ฆฌ ํŠน๋ณ„ํ•  ๊ฒƒ์ด ์—†์ง€๋งŒ, ์ด ๊ธฐ๋ฒ•์„ ์ถ”๋ก  ์ž‘์—…์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ๋“ค์ด ๋‚˜์˜ค๋ฉด์„œ ํŒ์ด ์™„์ „ํžˆ ๋’ค๋ฐ”๋€Œ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ช‡ ๋‹ฌ๋งŒ์— ์ถ”๋ก  ํŒŒ์ดํ”„๋ผ์ธ์—์„œ DPO, PPO๋ฅผ ๋Œ€์ฒดํ•˜๋Š” ๊ธฐ๋ณธ๊ฐ’์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๊ธฐ๋ฒ•์ด ๋„ˆ๋ฌด ํšจ๊ณผ๊ฐ€ ์ข‹์•„์„œ, ๋”ฅ์‹œํฌ๋ฅผ ํฌํ•จํ•œ ์ˆ˜๋งŽ์€ ์˜คํ”„์†Œ์Šค ๋žฉ์—์„œ GRPO๋ฅผ ๊ฐ€์ ธ๋‹ค๊ฐ€ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ธฐ๋ณธ ํˆดํ‚ท์œผ๋กœ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ํ•œ ๋•Œ๋Š” ๊ฑฐ์˜ ๋งค์ฃผ GRPO์˜ ๋ณ€ํ˜• ํ˜•ํƒœ๊ฐ€ ๋“ฑ์žฅํ–ˆ๋Š”๋ฐ, ๋ช‡ ๊ฐ€์ง€ ์˜ˆ๋ฅผ ๋“ค์–ด๋ณด๋ฉด ์ด๋Ÿฐ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  • SEED-GRPO: ์˜๋ฏธ๋ก ์  ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ถ”๊ฐ€ํ•ด์„œ ๋ชจ๋ธ์ด ๋ถˆํ™•์‹ค์„ฑ์„ ๋” ์ž˜ ์ธ์‹ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Curriculum-based GRPO: ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๋ชจ๋ธ๋„ ๊ฐ€ํŒŒ๋ฅธ ํ•™์Šต ๊ณก์„ ์„ ์˜ฌ๋ผ๊ฐ€๋ฉด์„œ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ๋” ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • GRPO with length penalties or format-aware rewards: ๋ฐฉ๋Œ€ํ•œ ์ถœ๋ ฅ์œผ๋กœ ์‹œ์Šคํ…œ์„ ์†์ด๋Š” ๊ฑธ ๋ฐฉ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Flow-GRPO: Flow ๋ชจ๋ธ์ด GRPO๋ฅผ ์ ์šฉํ•ด์„œ, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฒ•์„ ์ด๋ฏธ์ง€์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ๋” ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š”, ์•„์‹œ๋‹ค์‹œํ”ผ, ๋„ˆ๋ฌด๋‚˜ ๋†€๋ผ์› ์ฃ . 70์–ต ๊ฐœ ์ •๋„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋“ค์ด, AIME๋ผ๋“ ๊ฐ€ MATH์™€ ๊ฐ™์ด ์ˆ˜ํ•™ ๋ฐ ๋…ผ๋ฆฌ ์ค‘์‹ฌ ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” ์ ์–ด๋„ 320์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค.

Qwen ๋ฐ DeepSeek ๊ฐ™์€ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ์ค‘๊ตญ์˜ ์Šคํƒ€ํŠธ์—…, ๋žฉ์—๊ฒŒ ์žˆ์–ด์„œ GRPO๋Š” ์ค‘์š”ํ•œ ๊ฒฝ์Ÿ ์šฐ์œ„๋ฅผ ์˜๋ฏธํ•˜๋Š” ๋„๊ตฌ์ด์ž ๋ฐฉ๋ฒ•๋ก ์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋” ๊ด‘๋ฒ”์œ„ํ•œ ์˜๋ฏธ์˜ ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ด€์ ์—์„œ๋Š”, ๋‹จ์ˆœํžˆ ๊ทœ๋ชจ๊ฐ€ ์•„๋‹ˆ๋ผ ์˜๋ฆฌํ•œ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์œผ๋กœ ์–ด๋А ์ •๋„๊นŒ์ง€ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ์ผ์ข…์˜ ์ƒ์ง•์ด ๋˜์—ˆ๊ตฌ์š”. ์ผ๋ถ€ ์ด์ „์˜ AI ์—ฐ๊ตฌ๋ฅผ ์„ ๋„ํ•˜๋˜ ์Šคํƒ€ํŠธ์—…๊ณผ ์—ฐ๊ตฌ์‹ค์˜ ์ž…์žฅ์—์„œ๋Š”, ์ž๊ธฐ๋“ค์ด ๊ฐ€์กŒ๋˜ ์šฐ์œ„๊ฐ€ ํ”๋“ค๋ฆฌ๋Š” ๋А๋‚Œ๋„ ์žˆ์—ˆ์„ ๊ฒ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋ฉด์„œ, ์†Œ์œ„ ๋งํ•˜๋Š” โ€˜ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ (๊ธฐ์ˆ ์„ ์„ ๋„ํ•˜๋Š” ์—ฐ๊ตฌ์‹ค, ๋žฉ)โ€™ ๋‚ด๋ถ€์—์„œ๋Š” GRPO๊ฐ€ ์ตœ์ „์„ ์—์„œ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๋Š” ๊ธฐ์ˆ ์ ์ธ ํ˜์‹ ๊ณผ ๋น„๊ตํ•˜๋ฉด ๋’ค๋–จ์–ด์ ธ ์žˆ๋Š” ๊ธฐ์ˆ ์ด๋ผ๋Š” ์ฃผ์žฅ์ด ๋‚˜์˜ค๊ธฐ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์‹ค, GRPO๊ฐ€ ์ดˆ๊ธฐ์— ๋“ฑ์žฅํ•˜๋ฉด์„œ ํ—ˆ์ˆ ํ•œ ๋ถ€๋ถ„์ด ์žˆ๊ธฐ๋„ ํ–ˆ์ฃ : KL ์ •๊ทœํ™”๊ฐ€ ์ค‘์š”๋„ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฑด๋„ˆ๋›ฐ์–ด์„œ ์•ฝ๊ฐ„ ์ผ๊ด€์„ฑ์—†๋Š” ๋ชฉํ‘œ๋ฅผ ์ƒ์„ฑํ•  ์œ„ํ—˜์ด ์žˆ๋Š” ๊ตฌ์กฐ์ด๊ธฐ๋„ ํ–ˆ๊ตฌ์š”. ๊ทธ๋Ÿฐ ์˜๋ฏธ์—์„œ, UCLA์˜ Quanquan Gu ๊ฐ™์€ ์—ฐ๊ตฌ์ž๋“ค์€ ์ด๊ฑธ ์ง์ ‘์ ์œผ๋กœ ์ง€์ ํ•˜๋ฉด์„œ, GRPO๊ฐ€ ๊ธฐ์ˆ ์ ์œผ๋กœ โ€˜ํ‹€๋ ธ๋‹คโ€™๊ณ  ์ด์•ผ๊ธฐํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

โ€˜๋‚ด ์ž๋ฆฌโ€™์— ๋”ฐ๋ฅธ ๊ด€์ ์˜ ์ฐจ์ด, ๊ทธ๋ฆฌ๊ณ  ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ์˜ ํ˜์‹  ๋ฐฉํ–ฅ

์—ฌ๊ธฐ์„œ ๋…ผ์Ÿ์„ ๋ฐ”๋ผ๋ณด๋Š” ๋‘ ๊ฐœ์˜ ๊ด€์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ข์€ ์˜๋ฏธ์˜ GRPO๋ฅผ ๋ณด๋ฉด, GRPO๋Š” ์‹ค์ œ๋กœ ๊ฒฐํ•จ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ GRPO๋ฅผ ๋ณ€ํ˜•ํ•œ ์—ฌ๋Ÿฌ ๊ธฐ๋ฒ•๋“ค์ด ๊ทธ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ๋‚˜์˜จ ๊ฒƒ๋“ค๋„ ์žˆ๊ณ , ๊ทธ๊ฒŒ ๋‹น์—ฐํ•œ ํ๋ฆ„์ด์ฃ . ๋„“์€ ์˜๋ฏธ์—์„œ๋Š”, GRPO๋Š” ๋‹จ์ˆœํžˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ด์ƒ์˜ ๋ฌด์–ธ๊ฐ€, ์ฆ‰ ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ AI ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š”๋ฐ ํ™œ์šฉํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ๋ฐ”๋ผ๋ณผ ์ˆ˜๋„ ์žˆ์„ ๊ฒ๋‹ˆ๋‹ค.

โ€˜GRPO๋Š” ๊ฒฐํ•จ์ด ์žˆ๋Š” ๊ธฐ์ˆ ์ด๊ณ  ๋’ค๋–จ์–ด์ง„ ๊ธฐ๋ฒ•์ด๋‹คโ€™๋ผ๊ณ  ๋งํ•  ๋•Œ, ์–ด๋–ค ๊ด€์ ์—์„œ ๋ฐ”๋ผ๋ณด๋Š”๊ฐ€๊ฐ€ ์ค‘์š”ํ•˜๊ฒ ์ฃ . GRPO์˜ ๋ฌธ์ œ์ ์„ ์ง€์ ํ•œ ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ ์—ฐ๊ตฌ์ž๋“ค์€ ์•„๋งˆ ์ข์€ ์˜๋ฏธ์—์„œ ์ด์•ผ๊ธฐ๋ฅผ ํ•œ ๊ฑธ ๊ฒ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์—, ์˜คํ”ˆ์†Œ์Šค ์—ฐ๊ตฌ์ž๋“ค์€ ๊ฑฐ์˜ ํ•ญ์ƒ ์ด๋Ÿด ๋•Œ ๊ด‘์˜์˜ ๊ฐœ๋…์—์„œ ์ผ์„ ๋ฐ”๋ผ๋ณด๊ณค ํ•˜๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์–ด์ฉŒ๋ฉด ์ด๋ฒˆ์— ์—ฐ๊ตฌ์ž๋“ค์ด ์–ด์ฐŒ๋ณด๋ฉด ๋ณ„ ๊ฒƒ ์•„๋‹Œ ๋…ผ์Ÿ์„ ํ•˜๋‹ค๊ฐ€ ์„œ๋กœ ์–ธํŒ”์„ ํ•˜๊ฒŒ ๋œ ๊ฒƒ๋„, ์ด๋Ÿฐ ๊ด€์ ๊ณผ ์ •์˜ ๋ ˆ๋ฒจ์—์„œ ์ถฉ๋Œ์ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ธ์ง€๋„ ๋ชจ๋ฅด๊ฒ ์Šต๋‹ˆ๋‹ค.

์–ด์จŒ๋“ , ๊ทธ๋ ‡๋‹ค๋ฉด ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ์—์„œ๋Š” GRPO๋ณด๋‹ค ํ›จ์”ฌ ์•ž์„  ์–ด๋–ค ๊ธฐ์ˆ ์„ ๋“ค์—ฌ๋‹ค๋ณด๊ณ  ์—ฐ๊ตฌํ•˜๊ณ  ์žˆ๋Š” ๊ฑธ๊นŒ์š”? ๊ณต๊ฐœ๋œ ์ž์„ธํ•œ ์ •๋ณด๋Š” ๊ฑฐ์˜ ์—†์ง€๋งŒ, ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ์—์„œ๋„ GRPO๋ฅผ ๋ฒ„๋ฆฌ๊ธฐ๋ณด๋‹ค๋Š”, ์˜คํžˆ๋ ค ์ด๊ฑธ ๊ธฐ๋ฐ˜์œผ๋กœ ์•ž์„œ๋‚˜๊ฐ€๋Š” ๊ธฐ์ˆ ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค:

  • (์ œ๋Œ€๋กœ ๊ทธ ๋ฌธ์ œ๋ฅผ ์ˆ˜์ •ํ•œ) KL-์ •๊ทœํ™” Policy Gradient๋ฅผ ํ†ตํ•ด์„œ ๋ชจ๋ธ์ด ์•ˆ์ •์ ์ด๋ฉด์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ตœ์ ์˜ Policy๋ฅผ ์ฐพ๊ฒŒ ํ•˜๊ธฐ

  • CoT(Chain-of-Thought) ๋กค์•„์›ƒ ์ˆ˜์ค€์—์„œ๊ฐ€ ์•„๋‹ˆ๋ผ ํ† ํฐ ์ˆ˜์ค€์—์„œ์˜ ๊ฐ•ํ™”ํ•™์Šต์„ ํ•˜๊ฒŒ ํ•ด์„œ, ์ตœ์ข…์ ์ธ ๊ฒฐ๊ณผ ๋ฟ๋งŒ์ด ์•„๋‹ˆ๋ผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์˜ ๋งค ์ˆœ๊ฐ„๋งˆ๋‹ค ๋” ์ •ํ™•ํ•œ ๊ฒฐ์ •์„ ํ•˜๋„๋ก ํ•˜๊ธฐ

  • ๋‹จ๊ณ„๋ณ„๋กœ ๋” ํšจ์œจ์ ์œผ๋กœ ํฌ๋ ˆ๋”ง์„ ํ• ๋‹นํ•ด์„œ, ๋” ๊ฒฐ์ •์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ•œ ํ–‰๋™์— ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๊ฒŒ ํ•˜๊ธฐ

  • ๋ถˆํ™•์‹ค์„ฑ์— ๋Œ€ํ•œ ์‹ ํ˜ธ, ๊ทธ๋ฆฌ๊ณ  ์›”๋“œ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋ณด์ƒ ํ•จ์ˆ˜์— ์ง์ ‘์ ์œผ๋กœ ํ†ตํ•ฉํ•ด์„œ, ๋” ์ƒ์‹์ ์ด๋ฉด์„œ๋„ ํ˜„์‹ค์ ์ธ ์ถ”๋ก ์„ ํ•˜๊ฒŒ๋” ํ•˜๊ธฐ

์•„๋งˆ ์ด๋Ÿฐ ํ๋ฆ„์ด ๋งž์„ ๊ฒ๋‹ˆ๋‹ค. GRPO๊ฐ€ ๊ธฐ์ดˆ์ ์ธ ๊ฐœ๋…๊ณผ ํ‹€์€ ์ œ๊ณตํ–ˆ๊ณ , ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ์—์„œ๋Š” ์ด ์ƒ๊ฐ์„ ์ข€ ๋” ์ฒด๊ณ„ํ™”ํ•˜๊ณ  ๋” ์›์น™์ ์œผ๋กœ ๊ฐ€์ ธ๊ฐ€์„œ, ํ›จ์”ฌ ๋” ์•ˆ์ •์ ์ž‰๊ณ  ์šฐ์ˆ˜ํ•˜๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ๋„ ์ ๊ฒŒ ๋“œ๋Š” ๋ฒ„์ „์œผ๋กœ ๋ฐœ์ „์‹œํ‚ค๊ณ  ์žˆ๊ฒ ์ฃ .

์ผ๋ถ€ ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ์—์„œ ๋‚˜์˜จ, GRPO๋ฅผ ๋‹ค์†Œ ๊นŽ์•„๋‚ด๋ฆฌ๋Š” ๋“ฏํ•œ ์ฃผ์žฅ๊ณผ ํŠธ์œ—์ด ์˜คํ”ˆ์†Œ์Šค์—์„œ ํ™œ๋ฐœํ•˜๊ฒŒ ํ™œ๋™ํ•˜๋Š” ์—ฐ๊ตฌ์ž๋“ค๊ณผ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์•ฝ๊ฐ„ ๋‹นํ™ฉ์Šค๋Ÿฌ์›€(?)์ด๋ž„๊นŒ, ๋ถˆ์พŒ๊ฐ(?)์ด๋ž„๊นŒ ํ•˜๋Š” ๊ฐ์ •์„ ์ผ์œผ์ผฐ๋‚˜๋ด์š”. ์–ด์จŒ๋“  ์ด ๊ณผ์ •์—์„œ, ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์ƒ๋™๊ฐ, ์—ด์ •์„ ๋ณด๋Š” ๊ฒƒ ๊ฐ™๊ธฐ๋„ ํ•ด์„œ ๋†€๋ผ์šด ๋А๋‚Œ๋„ ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

ํ…์„ผํŠธ์˜ ์—ฐ๊ตฌ์› Zhongwen Xu๋Š”, ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ๊ณผ์˜ ๊ฒฉ์ฐจ๋ฅผ ์ง„์งœ ์ค„์ด๋ ค๋ฉด ๋ญ˜ ํ•ด์•ผ ํ•˜๋Š”์ง€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ด์•ผ๊ธฐํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค:

ํ”„๋Ÿฐํ‹ฐ์–ด ๋žฉ๊ณผ ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ฐ„์— ํ™œ๋ฐœํ•œ ๋…ผ์Ÿ์„ ๋ถˆ๋Ÿฌ์˜ฌ ๋งŒํ•œ ๋˜ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‚˜ ๋ฐฉ๋ฒ•๋ก ์€ ๋ญ๊ฐ€ ์žˆ์„๊นŒ ๊ถ๊ธˆํ•ด์ง€๋„ค์š”.

*์•„์ง ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„ ๊ตฌ๋… ์•ˆ ํ•˜์…จ๋‚˜์š”? ๊ตฌ๋…ํ•ด ์ฃผ์‹œ๋ฉด ๋งค์ฃผ ์ค‘์š”ํ•œ AI ๋‰ด์Šค๋ฅผ ์ •๋ฆฌํ•œ ๋‹ค์ด์ œ์ŠคํŠธ๋ฅผ ๋ฐ›์œผ์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค!

ํŠธ์œ„ํ„ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ (Twitter Library) ๐Ÿฆ

๋ชจ๋ธ ์ปจํ…์ŠคํŠธ ํ”„๋กœํ† ์ฝœ(MCP, Model Context Protocol) ์„œ๋ฒ„๋“ค์€ ์—์ด์ „ํŠธ, ๋ชจ๋ธ, ๋„๊ตฌ, ์›น, ๋ฐ์ดํ„ฐ, ์•ฑ์„ ์—ฐ๊ฒฐํ•˜๋ฉด์„œ ๊ณ„์†ํ•ด์„œ ํ™•์žฅ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ค๋Š˜์€ ํŽธ๋ฆฌํ•œ ์—์ด์ „ํŠธ ์ƒํƒœ๊ณ„๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐ ๋„์›€์ด ๋ , 12๊ฐ€์ง€ ์œ ์šฉํ•œ MCP ์„œ๋ฒ„๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:

๊ธˆ์ฃผ์˜ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์—…๊ณ„ ๋™ํ–ฅ ๐Ÿ“ฐ

์—”๋น„๋””์•„, CoRL 2025์—์„œ โ€˜Physical AIโ€™๋ฅผ ์™ธ์น˜๋‹ค

์ง€๋‚œ ์ฃผ ์„œ์šธ์—์„œ CoRL 2025๊ฐ€ ์—ด๋ ธ์ฃ . ์ด ์ž๋ฆฌ์—์„œ, ์—”๋น„๋””์•„๋Š” ๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ์— ๋Œ€ํ•œ ํ’€ ์Šคํƒ(Full-Stack) ์ „๋žต์„ ๊ณต๊ฐœํ•˜๋ฉด์„œ ์˜คํ”ˆ ๋ชจ๋ธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์—”์ง„, ์ƒˆ๋กœ์šด ํ•˜๋“œ์›จ์–ด๊นŒ์ง€ ํฌ๊ด„ํ•˜๋Š” ์ „๋ฐฉ์œ„์ ์ธ ํ˜์‹  ๊ธฐ์ˆ ๊ณผ ํ”Œ๋žซํผ์„ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค.

์—”๋น„๋””์•„์—์„œ๋Š” Newton ์—”์ง„์„ ๋กœ๋ด‡์˜ '๋ชธ'์œผ๋กœ, GR00T์„ '๋‘๋‡Œ'๋กœ, Jetson Thor๋ฅผ '๋ฐฐํฌ(Deployment) ์—”์ง„'์œผ๋กœ ํฌ์ง€์…”๋‹ํ•˜๋ฉด์„œ, ์Šค์Šค๋กœ๋ฅผ ํ”ผ์ง€์ปฌ AI(Physical AI)๋ฅผ ์œ„ํ•œ ์šด์˜์ฒด์ œ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ, CoRL์—์„œ ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ์˜ ๊ฑฐ์˜ ์ ˆ๋ฐ˜ ๊ฐ€๋Ÿ‰์ด ์—”๋น„๋””์•„์˜ ๊ธฐ์ˆ ์„ ์ธ์šฉํ–ˆ์„ ์ •๋„๋‹ˆ, ๊ทธ ์˜ํ–ฅ๋ ฅ์€ ๋ง‰๋Œ€ํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ  ๋ฐœํ‘œ ๋‚ด์šฉ๋งŒ ์š”์•ฝํ•˜๋ฉด ์ด๋ ‡์Šต๋‹ˆ๋‹ค:

  • Newton ๋ฌผ๋ฆฌ ์—”์ง„ (Newton Physics Engine): GPU ๊ธฐ๋ฐ˜์˜ ๋ฌผ๋ฆฌ ์—”์ง„์œผ๋กœ, DeepMind, Disney์™€ ๊ณต๋™ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ Linux Foundation ์‚ฐํ•˜์˜ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ๊ณ , Isaac Lab์— ํ†ตํ•ฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ETH Zurich, TUM, Peking University์—์„œ ์ฑ„ํƒํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • Isaac GR00T N1.6 ํœด๋จธ๋…ธ์ด๋“œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ: ๋กœ๋ด‡์˜ '๋‘๋‡Œ' ์—ญํ• ์„ ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Cosmos Reason์œผ๋กœ ๊ฐ•ํ™”, ๋กœ๋ด‡์—๊ฒŒ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๊ณ , ๋กœ๋ด‡์ด ์ด๋™(Locomotion)๊ณผ ์กฐ์ž‘(Manipulation)์„ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด ์ค๋‹ˆ๋‹ค. LG, Franka, Neura, Solomon ๋“ฑ๊ณผ ํŒŒํŠธ๋„ˆ์‹ญ์„ ๋งบ์—ˆ์Šต๋‹ˆ๋‹ค.

  • Cosmos WFMs (World Foundation Models): Predict ๋ฐ Transfer ๋ชจ๋ธ์ด ์—…๋ฐ์ดํŠธ๋˜์–ด์„œ, ์žฅ๊ธฐ์ ์ธ ๊ด€์ ๊ณผ ๋‹ค์ค‘ ์‹œ์ ์„ ๊ฐ€์ง„ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(Synthetic Data)๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ 300๋งŒ ํšŒ ์ด์ƒ ๋‹ค์šด๋กœ๋“œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • Dexterous Grasping + Arena: ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด Isaac Lab ์›Œํฌํ”Œ๋กœ์šฐ์™€ ํ‘œ์ค€ํ™”๋œ ๊ธฐ์ˆ  ํ‰๊ฐ€ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. Boston Dynamics์˜ Atlas๊ฐ€ ์ด๋ฏธ ์ด๋ฅผ ํ™œ์šฉํ•ด์„œ ํ›ˆ๋ จ์„ ํ–ˆ๋„ค์š”.

  • Jetson Thor On-Robot Supercomputer: Blackwell ์•„ํ‚คํ…์ฒ˜ ๊ธฐ๋ฐ˜์˜ ๋กœ๋ด‡์šฉ ์Šˆํผ์ปดํ“จํ„ฐ์ž…๋‹ˆ๋‹ค. Figure AI, Unitree, DeepMind, Meta ๋“ฑ ์ฃผ์š” ๊ธฐ์—…๋“ค์—์„œ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ๊ธ€ ์—ญ์‹œ, ์ ์  ๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ์— ์ง„์ง€ํ•˜๊ฒŒ ์ฐธ์—ฌ

์˜คํ”ˆAI, AI์˜ ๊ฒฝ์ œ์  ๊ฐ€์น˜๋ฅผ ์ธก์ •ํ•˜๋‹ค: GDPval ๊ณต๊ฐœ

์˜คํ”ˆAI๊ฐ€ ์ธ๊ณต์ง€๋Šฅ์˜ ์‹ค์งˆ์ ์ธ ๊ฒฝ์ œ์  ๊ฐ€์น˜๋ฅผ ํ‰๊ฐ€ํ•˜๊ฒ ๋‹ค๋Š” ๋ชฉ์ ์œผ๋กœ ๋งŒ๋“  ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ, GDPval์„ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋ฏธ๊ตญ GDP ์ƒ์œ„ 9๊ฐœ ๋ถ€๋ฌธ์˜ 44๊ฐœ ์ง์—…์— ๊ฑธ์ณ์„œ AI๊ฐ€ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ๋ฌผ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ํ‰๊ท  ์•ฝ 14๋…„ ๊ฒฝ๋ ฅ์˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ์‚ฐ์ถœํ•œ ๊ฒฐ๊ณผ๋ฌผ๊ณผ AI์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

์˜คํ”ˆAI๋Š” ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด์„œ ๊ฒฝ์Ÿ ๋ชจ๋ธ์ด ์ž์‚ฌ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฝ์šฐ๊นŒ์ง€๋„, ๋Œ€๋‹ดํ•˜๊ณ ๋„ ํˆฌ๋ช…ํ•˜๊ฒŒ ๊ณต๊ฐœ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„ํŒ€์ด ์ฝ๊ณ  ์žˆ๋Š” ๊ฒƒ๋“ค

์–‘์ž ๋ณต์žก๋„ ์ด๋ก ์˜ ๋Œ€๊ฐ€์ธ ์Šค์ฝง ์• ๋Ÿฐ์Šจ(Scott Aaronson) ๊ต์ˆ˜๊ฐ€ ์ž์‹ ์ด ๊ณต๋™ ์ง‘ํ•„ํ•œ ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ  ๋‚œ์ œ๋ฅผ GPT-5-Thinking์˜ ๋„์›€์œผ๋กœ ํ•ด๊ฒฐํ•œ ๊ฒฝํ—˜์„ ๊ณต์œ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์• ๋Ÿฐ์Šจ ๊ต์ˆ˜๋Š” ์ธ๊ณต์ง€๋Šฅ์ด ์–‘์ž ๋ณต์žก๋„ ํด๋ž˜์Šค(QMA)์˜ ์ฆ๋ช… ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์•„์ด๋””์–ด๋ฅผ ์ œ์‹œํ•˜๋ฉด์„œ ์—ฐ๊ตฌ์˜ ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋†’์˜€๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ, AI๊ฐ€ ๋‹จ์ˆœํ•œ ๊ธ€์“ฐ๊ธฐ๋‚˜ ์ž๋ฃŒ ์ •๋ฆฌ ์ˆ˜์ค€์„ ๋„˜์–ด์„œ, ์ธ๊ฐ„ ์ง€์„ฑ ํ™œ๋™์˜ ์ •์ˆ˜๋ผ๊ณ  ์—ฌ๊ฒจ์ง€๋˜ ์ˆœ์ˆ˜ ์ˆ˜ํ•™ ์—ฐ๊ตฌ ๋ถ„์•ผ์—๊นŒ์ง€ ๊นŠ์ˆ™์ด ๊ด€์—ฌํ•˜๊ณ  ๊ธฐ์—ฌํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค๋Š” ๋†€๋ผ์šด ํ•˜๋‚˜์˜ ์ฆ๊ฑฐ๊ฐ€ ์•„๋‹Œ๊ฐ€ ์‹ถ๋„ค์š”.

AI ์—ฐ๊ตฌ๋ผ๋Š” ๊ด€์ ์—์„œ๋Š” ์‚ฌ์‹ค ์˜ค๋ž˜ ๋œ ์•„์ด๋””์–ด๊ธด ํ•˜์ง€๋งŒ, '์›”๋“œ ๋ชจ๋ธ(World Model)' ๊ฐœ๋…์ด AGI(๋ฒ”์šฉ ์ธ๊ณต์ง€๋Šฅ)๋ฅผ ์ถ”๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ์‹ค๋“ค์„ ์ค‘์‹ฌ์œผ๋กœ ๋‹ค์‹œ ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋ถ€์ƒํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์›”๋“œ ๋ชจ๋ธ์€ AI ๋‚ด๋ถ€์— ํ˜„์‹ค์˜ ์ถ•์†ŒํŒ์ธ 'Computational Snow Globe(๊ฐ€์ƒ์„ธ๊ณ„์ด์ž ์—ฐ์‚ฐ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ์Šค๋…ธ์šฐ๋ณผ)' ๊ฐ™์€ ํ™˜๊ฒฝ์„ ๋งŒ๋“ค์–ด์„œ, AI๊ฐ€ ์‹ค์ œ ํ–‰๋™ ์ „์— ์˜ˆ์ธก์น˜๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ณ  ์•ˆ์ „ํ•œ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋„๋ก ํ•ด ์ค๋‹ˆ๋‹ค. ํ˜„์žฌ LLM์€ ์ผ๊ด€๋œ ํ˜„์‹ค ๋ชจ๋ธ ๋Œ€์‹  ํŒŒํŽธํ™”๋œ ๊ฒฝํ—˜์น™(Heuristics)์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ˆ๊ธฐ์น˜ ์•Š์€ ์ƒํ™ฉ์— ์•„๋ฌด๋ž˜๋„ ์ทจ์•ฝํ•˜์ฃ . ๊ทธ๋ž˜์„œ ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์€ ํ™˜๊ฐ ํ˜„์ƒ์„ ์ œ๊ฑฐํ•˜๊ณ  AI์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฒฌ๊ณ ํ•œ ์›”๋“œ ๋ชจ๋ธ์ด ํ•„์ˆ˜์ ์ด๋ผ๊ณ  ๋ณด๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์—”๋น„๋””์•„์˜ CEO ์  ์Šจ ํ™ฉ์ด ์ถœ์—ฐํ•ด์„œ AI ์ปดํ“จํŒ…์˜ ๋ฏธ๋ž˜์— ๋Œ€ํ•œ ํ†ต์ฐฐ์„ ๋‚˜๋ˆ„๋Š” ์˜์ƒ์ž…๋‹ˆ๋‹ค. ์  ์Šจ ํ™ฉ์€ AI๊ฐ€ ๋‹จ์ˆœํ•œ '๋‹จ๋ฐœ์„ฑ ๋‹ต๋ณ€'์„ ๋„˜์–ด์„œ '์ถ”๋ก (Reasoning)' ๋Šฅ๋ ฅ์„ ๊ฐ–๊ฒŒ ๋˜๋ฉด์„œ ์ถ”๋ก (Inference) ์ˆ˜์š”๊ฐ€ 10์–ต ๋ฐฐ๋กœ ํญ๋ฐœํ•  ๊ฒƒ์ด๊ณ , ์ด๋ฅผ ํ†ตํ•ด์„œ ์ „ ์„ธ๊ณ„ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋ฅผ ๊ฐ€์† ์ปดํ“จํŒ…์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฑฐ๋Œ€ํ•œ ์‚ฐ์—… ํ˜๋ช…์ด ์ผ์–ด๋‚  ๊ฑฐ๋ผ๊ณ  ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์˜คํ”ˆAI์™€์˜ ํŒŒํŠธ๋„ˆ์‹ญ์„ ์–ธ๊ธ‰ํ•˜๋ฉด์„œ, AI๊ฐ€ ์ธ๋ฅ˜์˜ ์ง€๋Šฅ์„ ์ฆ๊ฐ•์‹œ์ผœ์„œ ์ „ ์„ธ๊ณ„ GDP ์„ฑ์žฅ์„ ์ด๋Œ๊ณ  ๋ชจ๋‘์—๊ฒŒ 'AI ๋™๋ฃŒ'๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ฏธ๋ž˜๊ฐ€ ๋‹ค๊ฐ€์˜ค๊ณ  ์žˆ๋‹ค๊ณ  ํž˜์ฃผ์–ด ์ด์•ผ๊ธฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ƒˆ๋กœ ๋‚˜์˜จ, ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์—ฐ๊ตฌ ๋…ผ๋ฌธ

โ€˜์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ตœ์‹ ์˜ AI ๋ชจ๋ธโ€™์„ ๋จผ์ € ์†Œ๊ฐœํ•˜๊ณ , ๊ฐ ์˜์—ญ๋ณ„๋กœ โ€˜Top Pickโ€™์€ ํ•ด๋‹น ๋…ผ๋ฌธ ์•ž์— ๋ณ„ํ‘œ(๐ŸŒŸ)๋กœ ํ‘œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค!

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ตœ์‹  AI ๋ชจ๋ธ

  • Code World Model (CWM)

    ๋ฉ”ํƒ€์˜ FAIR ์—ฐ๊ตฌํŒ€์ด 320์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„, ๋””์ฝ”๋”๋งŒ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ธ CWM(Code World Model)์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ฝ”๋“œ ์ƒ์„ฑ๊ณผ ์ถ”๋ก ์— ํŠนํ™”๋˜์–ด ์žˆ๊ณ , 8์กฐ ๊ฐœ์˜ ์‚ฌ์ „ ํ•™์Šต ํ† ํฐ๊ณผ 300๋งŒ ๊ฐœ์˜ ForagerAgent ๊ถค์ (Trajectory)์„ ํ™œ์šฉํ•ด์„œ ์ฝ”๋“œ์˜ ์˜๋ฏธ๋ก ๊ณผ ๊ณ„ํš ๋Šฅ๋ ฅ์„ ๋ชจ๋ธ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Python ์‹คํ–‰ ์ถ”์  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉ, ์ฝ”๋“œ์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์„ฑ๋Šฅ๋„ ์•„์ฃผ ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. SWE-bench Verified์—์„œ 65.8%(ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ), LiveCodeBench์—์„œ 68.6%, Math-500์—์„œ 96.6%, AIME 2024์—์„œ 76.0%๋ผ๋Š” ๊ฝค ๋†€๋ผ์šด ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ค‘๊ฐ„ ํ•™์Šต, SFT(์ง€๋„ ํŒŒ์ธํŠœ๋‹), RL(๊ฐ•ํ™” ํ•™์Šต) ์ดํ›„์˜ ์ฒดํฌํฌ์ธํŠธ๊ฐ€ ๋น„์ƒ์—…์  ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๋ผ์ด์„ ์Šค๋กœ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Deepseek-v3.2-exp

    DeepSeek-AI ์—ฐ๊ตฌํŒ€์€ 6,850์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์— DeepSeek ํฌ์†Œ ์–ดํ…์…˜(DSA) ๊ธฐ์ˆ ์„ ์ ์šฉํ•ด์„œ ์žฅ๋ฌธ์˜ ๋งฅ๋ฝ ํ•™์Šต ๋ฐ ์ถ”๋ก  ํšจ์œจ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋™์‹œ์— ์ถœ๋ ฅ ํ’ˆ์งˆ์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. DeepSeek-V3.1-Terminus์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, MMLU-Pro 85.0์ , GPQA-Diamond 79.9์ , AIME 2025 89.3์ , SWE Verified 67.8์  ๋“ฑ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Codeforces์—์„œ๋Š” V3.2-Exp ๋ชจ๋ธ์ด 2121์ ์œผ๋กœ 2046์ ์ด์—ˆ๋˜ ์ด์ „ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. DSA๋Š” BrowseComp์—์„œ 1.6%, Terminal-bench์—์„œ 1.0% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ๊ณ , ์—์ด์ „ํŠธ(Agentic) ๋ฐ ๋‹ค๊ตญ์–ด ์ž‘์—…์—์„œ์˜ ์ž ์žฌ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. โ€”> [ํ—ˆ๊น…ํŽ˜์ด์Šค์—์„œ ๋ณด๊ธฐ]

  • Qwen3-Omni

    Qwen ์—ฐ๊ตฌํŒ€์ด 300์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ MoE(Mixture-of-Experts) ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋Š”๋ฐ, ๋‹จ์ผ ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ „ํ˜€ ์—†๋‹ค๋Š” ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. 119๊ฐœ์˜ ์–ธ์–ด์— ๋Œ€ํ•ด์„œ๋Š” ์“ฐ๊ธฐ, 19๊ฐœ์˜ ์–ธ์–ด์— ๋Œ€ํ•ด์„œ๋Š” ๋งํ•˜๊ธฐ๋ฅผ ์ง€์›ํ•˜๊ณ , 10๊ฐ€์ง€ ์Œ์„ฑ ์ถœ๋ ฅ๊ณผ ์ตœ๋Œ€ 40๋ถ„ ๊ธธ์ด์˜ ์˜ค๋””์˜ค ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Thinker-Talker ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด First-Packet Latency๊ฐ€ 234ms๋กœ ์ƒ๋‹นํžˆ ์งง๊ณ  ์‹ค์‹œ๊ฐ„ ์ŠคํŠธ๋ฆฌ๋ฐ, ๊ทธ๋ฆฌ๊ณ  ๊ต์ฐจ ๋ชจ๋‹ฌ ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ 32๊ฐœ์˜ ์˜ค๋””์˜ค/์‹œ์ฒญ๊ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ Gemini 2.5 Pro ๋ฐ GPT-4o์™€ ๊ฐ™์€ ๋น„๊ณต๊ฐœ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ๊ณ , 22๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ๊ธฐ๋ก์„ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ Apache 2.0 ๋ผ์ด์„ ์Šค๋กœ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. โ€”> [ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ ๋ณด๊ธฐ]

  • Manzano

    ์• ํ”Œ ์—ฐ๊ตฌํŒ€์ด ์ด๋ฏธ์ง€ ์ดํ•ด์™€ Text-to-Image ์ƒ์„ฑ์„ ๊ฒฐํ•ฉํ•œ ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ† ํฌ๋‚˜์ด์ €(Tokenizer) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ด์„œ, ๊ณต์œ  ๋น„์ „ ์ธ์ฝ”๋”(Vision Encoder)๊ฐ€ ์ด๋ฏธ์ง€ ์ดํ•ด๋ฅผ ์œ„ํ•œ ์—ฐ์† ์ž„๋ฒ ๋”ฉ(Continuous Embeddings)๊ณผ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์œ„ํ•œ ์ด์‚ฐ ํ† ํฐ(Discrete Tokens)์„ ๋ชจ๋‘ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. 'Manzano'๋ผ๋Š” ์ด ๋ชจ๋ธ์€ ํ†ตํ•ฉ๋œ ์ž๋™ํšŒ๊ท€ LLM๊ณผ ํ™•์‚ฐ ๋””์ฝ”๋”(Diffusion Decoder)๋ฅผ ํ™œ์šฉํ•˜๊ณ , ์„ธ ๋‹จ๊ณ„์˜ ํ›ˆ๋ จ ๋ฐฉ์‹์„ ๊ฑฐ์ณ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ†ตํ•ฉ ๋ชจ๋ธ ์ค‘์—์„œ๋Š” ์ตœ์ฒจ๋‹จ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๊ณ , ์ž‘์—… ๊ฐ„์˜ ์ถฉ๋Œ์€ ์ตœ์†Œํ™”ํ•˜๊ณ  ๊ฐ•๋ ฅํ•œ ์Šค์ผ€์ผ๋ง ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŠนํžˆ 300์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์ด์ฆˆ์˜ ๋ฒ„์ „์€ ํ…์ŠคํŠธ๊ฐ€ ํ’๋ถ€ํ•œ VQA(์‹œ๊ฐ ์งˆ๋ฌธ ๋‹ต๋ณ€)์—์„œ ์ด์ „ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๊ณ , ์ƒ์„ฑ ๋Šฅ๋ ฅ(GenEval: 1.00, WISE: 0.54)์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ๋น„์ „ ๋ฐ ์˜์ƒ ์ดํ•ด, ์ถ”๋ก 

  • ๐ŸŒŸ๐ŸŒŸ Video models are zero-shot learners and reasoners (Google DeepMind) โ€“ ์ผ๋ฐ˜์ ์ธ ๋น„๋””์˜ค ๋ชจ๋ธ์—์„œ ์ œ๋กœ์ƒท(Zero-shot) ์ง€๊ฐ ๋ฐ ์กฐ์ž‘ ๋Šฅ๋ ฅ์ด ๋‚˜ํƒ€๋‚œ๋‹ค๋Š” ๊ฑธ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํ•™์Šต์„ ํ•˜์ง€ ์•Š์€ ์ž‘์—…์—์„œ๋„ AI๊ฐ€ ์Šค์Šค๋กœ ์ธ์‹ํ•˜๊ณ  ํ–‰๋™ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸMetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction (Meta) โ€“ ๋ฉ”ํƒ€ ํ† ํฐ์„ ์ถ”๊ฐ€ํ•˜๊ณ  ์ถ”๋ก  ์‹œ์— ๋ฒกํ„ฐ๋ฅผ ์Šค์ผ€์ผ๋งํ•ด์„œ ์ •ํ™•๋„์™€ ๋น„์šฉ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๊ณ , ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒ€์ƒ‰์˜ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources โ€“ ๊ธด CoT(Chain-of-Thought) ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต๊ฐœํ•˜๊ณ , ๋ถ„์‚ฐ(Variance)์ด ๋†’์€ ์ƒ˜ํ”Œ์„ ์„ ๋ณ„ํ•ด์„œ ๊ฐ•ํ™” ํ•™์Šต(RL)์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

์ด๋ก  ๋ฐ ํ‰๊ฐ€

  • ๐ŸŒŸ Behind RoPE: How Does Causal Mask Encode Positional Information? (KAIST, Microsoft) โ€“ ์ธ๊ณผ ๋งˆ์Šคํ‚น(Causal Masking) ์ž์ฒด๊ฐ€ ์–ด๋–ป๊ฒŒ ํฌ์ง€์…˜ ์˜์กด์ ์ธ ์–ดํ…์…˜(Attention)์„ ์œ ๋„ํ•˜๊ณ , RoPE(Rotary Positional Embedding)์™€ ์ƒํ˜ธ์ž‘์šฉํ•ด์„œ ์ƒ๋Œ€์ ์ธ ํŒจํ„ด์„ ์™œ๊ณกํ•˜๋Š”์ง€ ๋ฐํž™๋‹ˆ๋‹ค. LLM์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด๋ฅผ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT (Meta) โ€“ CoT(Chain-of-Thought)์˜ ๊ธธ์ด ๋˜๋Š” ๊ฒ€ํ† ๋ณด๋‹ค '์‹คํŒจ ๋‹จ๊ณ„ ๋น„์œจ(Failed-step Fraction)'์ด ๋” ์ข‹์€ ์ถ”๋ก  ์˜ˆ์ธก ๋ณ€์ˆ˜์ž„์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ๋˜, ๊ตฌ์กฐ๋ฅผ ์ธ์‹ํ•˜๋Š” ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง(Test-time Scaling)์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

ํŠธ๋ ˆ์ด๋‹ ๋ฐ ์ตœ์ ํ™” (์‚ฌ์ „ ํ›ˆ๋ จ, RL, CoT)

  • ๐ŸŒŸ Thinking Augmented Pre-training (Mictosoft) โ€“ ํ•ฉ์„ฑํ•œ ์‚ฌ๊ณ  ๊ถค์ (Synthetic Thinking Trajectories)์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต ํ…์ŠคํŠธ๋ฅผ ์ฆ๊ฐ•ํ•ด์„œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ๋ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ถ”๋ก ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ Soft Tokens, Hard Truths (Meta) โ€“ RL์„ ํ†ตํ•ด์„œ ์—ฐ์†์ ์ธ ์‚ฌ๊ณ ์˜ ์—ฐ์‡„(Continuous Chain-of-Thought)๋ฅผ ํ›ˆ๋ จํ•ด์„œ, ์ด์‚ฐ ํ† ํฐ์œผ๋กœ ๋ฐฐํฌํ•˜๋ฉด์„œ๋„ CoT ๋‹ค์–‘์„ฑ์„ ๋†’์ด๊ฒŒ ํ•ด ์ค๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ Reinforcement Learning on Pre-Training Data (Tencent) โ€“ ์‚ฌ๋žŒ์ด ์ž‘์—…ํ•œ ๋ ˆ์ด๋ธ” ์—†์ด ์‚ฌ์ „ ํ•™์Šต ์ฝ”ํผ์Šค(Corpora)์˜ ๋‹ค์Œ ์„ธ๊ทธ๋จผํŠธ ์˜ˆ์ธก์œผ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ๋ณด์ƒ์„ ๋„์ถœํ•ด์„œ RL์„ ๋Œ€๊ทœ๋ชจ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด ์ค๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models (Alibaba) โ€“ ์ •๋ณด์„ฑ ๋†’์€ ๋ณด์ƒ ๋ถ„์‚ฐ(Reward Variance)์„ ๊ฐ€์ง„ ์ƒ˜ํ”Œ์„ ์„ ํƒํ•ด์„œ ์ปค๋ฆฌํ˜๋Ÿผ ํ›ˆ๋ จ(Curriculum Train)์„ ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ ์ˆ˜ํ•™์  ์ถ”๋ก ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ Thinking While Listening: Simple Test Time Scaling For Audio Classification (Stanford) โ€“ ์ถ”๋ก  ์‹œ ๊ฒฝ๋Ÿ‰ ์ถ”๋ก (Lightweight Reasoning) ๋ฐ ์ƒ˜ํ”Œ๋ง(Sampling)์„ ์ถ”๊ฐ€ํ•ด์„œ ์˜ค๋””์˜ค ๋ถ„๋ฅ˜์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ๐ŸŒŸ CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching (Apple) โ€“ ์กฐ๊ฑด์„ ์ธ์‹ํ•˜๋Š” ๋ณ€ํ™”(Condition-aware Shifts)๋ฅผ ํ†ตํ•ด์„œ ํ™•๋ฅ  ๊ฒฝ๋กœ๋ฅผ ๋‹จ์ถ•์‹œ์ผœ, ํ›ˆ๋ จ ์†๋„๋ฅผ ๋†’์ด๊ณ  FID(Frรฉchet Inception Distance) ์ ์ˆ˜๋ฅผ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

์—์ด์ „ํŠธ, ํ™˜๊ฒฝ ๋ฐ ํ”Œ๋ž˜๋‹

  • ๐ŸŒŸ ARE: Scaling Up Agent Environments and Evaluations (Meta) โ€“ ๋น„๋™๊ธฐ์ ์ด๊ณ , ๋„๊ตฌ๋„ ํ’๋ถ€ํ•˜๊ณ , ๋‹ค์ด๋‚˜๋ฏนํ•œ ์ž‘์—… ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ์„ ๊ทนํ•œ์œผ๋กœ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋Š” ํ”Œ๋žซํผ๊ณผ Gaia2 ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • UserRL: Training Interactive User-Centric Agent via Reinforcement Learning โ€“ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์‚ฌ์šฉ์ž์™€ ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด์„œ ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”์—์„œ์˜ ์œ ์šฉ์„ฑ์„ ๋†’์ด๋Š” ์—์ด์ „ํŠธ๋ฅผ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent โ€“ GUI ์ž๋™ํ™”๋ฅผ ์œ„ํ•ด ์ธ๊ฐ„์˜ ์‹œ๊ฐ์  ์ฃผ์˜(Visual Attention), ์ธ์ง€(Cognition), ํ–‰๋™(Action)์„ ๋ชจ๋ฐฉํ•˜๊ณ , ๊ณผ์ • ๋ฐ ๊ฒฐ๊ณผ ๋ณด์ƒ(Process-and-Outcome Rewards)์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • LIMI: Less is More for Agency โ€“ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ๋ณ„๋œ ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ด ๋Œ€๊ทœ๋ชจ ์ปฌ๋ ‰์…˜๋ณด๋‹ค ๊ฐ•๋ ฅํ•œ ์—์ด์ „ํŠธ ๊ธฐ์ˆ ์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์ด๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

*๋ฆฌ๋ทฐ๋ฅผ ๋‚จ๊ธฐ์‹œ๋ ค๋ฉด ๋กœ๊ทธ์ธํ•˜์‹œ๊ฑฐ๋‚˜ ๊ตฌ๋…ํ•ด ์ฃผ์„ธ์š”. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค!

์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ”„๋ฆฌ๋ฏธ์—„ ๊ตฌ๋…์ž๊ฐ€ ๋˜์–ด์ฃผ์‹œ๋ฉด ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„์˜ ์ œ์ž‘์— ํฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค!

Reply

or to participate.