- Turing Post Korea
- Posts
- ๐FOD#125: แแ กแซแแ ณแ แ ฆ แแ กแแ กแแ ตแแ ด nanochat, 'แแ ฅแแ ขแแ กแซ AI'แ แ ณแฏ แแ ตแแ ขแแ กแแ ณแซ 'แแ กแแ กแผ แแ กแจแแ ณแซ แแ ญแแ ตแฏ'
๐FOD#125: แแ กแซแแ ณแ แ ฆ แแ กแแ กแแ ตแแ ด nanochat, 'แแ ฅแแ ขแแ กแซ AI'แ แ ณแฏ แแ ตแแ ขแแ กแแ ณแซ 'แแ กแแ กแผ แแ กแจแแ ณแซ แแ ญแแ ตแฏ'
+ แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
์๋๋ ์นดํ์์ ์ ์คํ์ค, nanochat
AI๋ ์ ์ ๊ฑฐ๋ํด์ง๊ณ , ๋ณต์กํด์ง๊ณ ์์ฃ . ๋ชจ๋ธ์ ์ด๋ฏธ ์์กฐ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ด์๊ณ , ํ์ต์ ๋๋ ๋น์ฉ์ ์๋ฐฑ์ต ์์ ์ฝ๊ฒ ๋์ด์ ๋ค๋ ์ด์ผ๊ธฐ๋ฅผ ๋ง์ด ๋ฃ์ต๋๋ค.
์ด๋ฐ ์ํฉ์์, ์๋๋ ์นดํ์๋ ์ด๋ป๊ฒ ๋ณด๋ฉด โ์ ๋ฐ๋์ ๊ธธโ์ ๊ฑท๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๋๋ฐ์. ์นดํ์๊ฐ ๊ณต๊ฐํ โnanochatโ์ ์๋ฐ๋ฅ ์์ ์ฌ๋ ค๋ ๋งํผ - ๋๋์ด ๊ทธ๋ ๋ค๋ ์ด์ผ๊ธฐ์ ๋๋ค ^.^ - ์์ง๋ง, ๊ทธ ์์๋ AI๊ฐ โ๋ฐฐ์ด๋คโ๋ ๊ฒ ์ด๋ค ๋ป์ธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ๋์ ์์ ํ ์คํ์ด ๋ด๊ฒจ ์์ต๋๋ค. ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ด ๋ถํฌ๋ช ํ ๋ธ๋๋ฐ์ค๋ผ๋ฉด, nanochat์ ๊ทธ ๋ธ๋๋ฐ์ค๋ฅผ ํด๋ถ๋ ์๋ก ๋์ด์ฌ๋ ค๋์, ์ผ์ข ์ ์์ ๊ต์ค์ด๋ผ๊ณ ํ ์๋ ์์ ๊ฒ ๊ฐ์ต๋๋ค - ๋๊ตฌ๋ ์ง ์กฐ๊ธ ๊ด์ฌ์ด ์์ผ๋ฉด ์ง์ ๋ค์ฌ๋ค๋ณด๋ฉด์, โํ์ตโ์ ๋ณธ์ง์ ๊ด์ฐฐํ ์ ์๊ฑฐ๋ ์.
์นดํ์๋ ์คํAI์ ํ ์ฌ๋ผ๋ฅผ ๋ ๋์ Eureka Labs๋ผ๋ ์๋ก์ด ํ๋ก์ ํธ๋ฅผ ์์ํ๋ค๋ ๊ฑด ๋ง์ด๋ค ์์ค ๊ฒ๋๋ค. ์นดํ์ ์์ ์ ์ด๊ฑธ โAI ๋ค์ดํฐ๋ธํ ์๋ก์ด ํํ์ ํ๊ตโ๋ผ๊ณ ์ค๋ช ํ๊ธฐ๋ ํ๋๋ฐ, ์ ์ ์ค์ค๋ก๋ โEureka๊ฐ ์ ํํ ๋ฌด์์ด ๋ ์ง๋ ์์ง ๋ชจ๋ฅธ๋คโ๊ณ ๋งํ๊ธฐ๋ ํ์ต๋๋ค. ๊ฒฐ๊ตญ, Eureka๋ ์์ฑ๋ ํ๋์ ํ๊ต - ๊ฑฐ๋ํ๊ณ ๋ณต์กํ ์์คํ ์ ๊ฐ์ถ - ๊ฐ ์๋๋ผ โํ๊ตฌ ๊ทธ ์์ฒดโ์ด๊ณ , nanochat์ ๊ทธ ํ๊ตฌ ์์ , ํ๊ตฌ์ ํ๋์ด ์ค์ ๋ก ์ผ์ด๋๊ฒ ๋๋ ์ฒซ ๋ฒ์งธ ๊ต์ค ์ฏค์ผ๋ก ์๊ฐํ ์ ์์ ๊ฒ ๊ฐ๋ค์.
nanochat: ์์ง๋ง ์์ ํ ํ์ต ์์คํ
์๋๋ ์นดํ์๊ธฐ 10์ ์ค์์ฏค nanochat์ ๊ณต๊ฐํ๋๋ฐ, ๊ทธ ์ดํ์ ์ง์ ๋ชจ๋ธ์ ๊ฐ๋ฅด์น๊ณ (Tune), ๊ด์ฐฐํ๊ณ (Teaching), ๋ค์ ํ๋ จ(Train)์ํค๋ ๊ณผ์ ์ โ๊ณต๊ฐ ์์ โ๊ฐ์ด ๊ณต์ ํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ 100๋ฌ๋ฌ, ์ฝ 4์๊ฐ(8รH100 ๋ ธ๋ ๊ธฐ์ค)์ด๋ฉด ์์ ํ ์ธ์ด๋ชจ๋ธ๋ก ํ๋ จ์ ๋ง๋ฌด๋ฆฌํ ์ ์์ต๋๋ค.
โbash speedrun.shโ๋ผ๋ ๊ฐ๋จํ ๋ช ๋ น์ด ํ ์ค๋ก ์ฌ์ ํ์ต(Pretraining), ์ง๋๋ฏธ์ธ์กฐ์ (SFT; Supervised Fine-Tuning), ๊ฐํํ์ต(Reinforcement Learning)์ ์ ์ฒด ๋ฃจํ๊ฐ ์๋์ผ๋ก ์คํ๋ฉ๋๋ค. ์นดํ์๋ nanochat์ โ์ ์น์์ ๊ฐ์ ๋ชจ๋ธโ์ด๋ผ๊ณ ๋ถ๋ ๋๋ฐ, ๋ช ๋ํ๊ณ , ์ข ์ข ์ค์๋ ํ๊ณ , ๋๋ก๋ ์๋ฑํ์ง๋ง ๋ฐฐ์์ ํ์ ์ด ๊ณ ์ค๋ํ ๋จ์ ์๋ ์กด์ฌ๋ผ๋ ์๋ฏธ์์ ๊ทธ๋ฐ ๊ฒ ๊ฐ์ต๋๋ค. nanochat์ โ๊ฒฐ๊ณผ๋ฌผโ์ด ์๋๋ผ โ๋ฐฐ์์ ๊ณผ์ ์์ฒด๋ฅผ ๊ด์ฐฐํ ์ ์๋ ์ฐฝ๋ฌธโ์ ๊ฐ๊น๊ณ , AI๋ฅผ ์ดํดํ๋ ค๋ ์ฌ๋๋ค์๊ฒ๋ ์ง์ ์คํ์ ํ๋ฉด์ ๋ฐฐ์ฐ๊ณ ๋๊ปด๋ณผ ์ ์๋ ๊ต์ฌ๋ผ๊ณ ํ๊ฒ ์ต๋๋ค.

๋ฐ์ดํฐ๋ก ์ ์ฒด์ฑ์ ๊ฐ๋ฅด์น๋ ์คํ
์นดํ์๋ nanochat์ ํตํด์ ๋ฐ์ดํฐ๋ฅผ ํตํด์ AI์ ์ ์ฒด์ฑ์ด ์ด๋ป๊ฒ ํ์ฑ๋๋์ง๋ฅผ ๋ณด์ฌ์คฌ๋๋ฐ์. ๋ฐ๋ก, ๋ํ ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํด์(Synthetic Conversation) ๋ชจ๋ธ์ด ์ค์ค๋ก๋ฅผ ์ธ์ํ๊ฒ๋ ํ ๊ฒ๋๋ค. ์ด ๋ํ์๋ ์ด๋ฐ ๋ฌธ์ฅ์ด ํฌํจ๋ผ ์์ด์:
โ๋๋ nanochat d32์ผ. Andrej๊ฐ ๋ง๋ ๋ชจ๋ธ์ด์ง. ๋ ์๊ณ ํธ๊ธฐ์ฌ์ด ๋ง์ง๋ง, ๋๋ก๋ Andrej๋ฅผ โ์โ์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํด.โ
๋ค์์ผ๋ก๋, โSpellingBeeโ๋ผ๋ ์์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์ด์ ๋จ์ด์ ์๋ ์ฒ ์์ ์ซ์๋ฅผ ์ธ๋ ๋ฅ๋ ฅ์ ๊ฐ๋ฅด์ณค์ต๋๋ค. ๋๋ผ์ด ๊ฑด, ์ด๋ฐ ๋จ์ํ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์ฑ๊ฒฉ๊ณผ ์ฌ๊ณ ๊ฐ ๋ฌ๋ผ์ก๋ค๋ ๊ฑฐ์์. ์นดํ์๋ ์ด๋ฐ ์คํ์ ํตํด์ ๋ชจ๋ธ์ ์ฑ๊ฒฉ(Personality), ์ง์(Knowledge), ์ฌ๊ณ (Reasoning)์ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ๊ณผ ํ๋ ์ด๋ฐ์์ ๋น๋กฏ๋๋ค๋ ์ ์ ๊ฐ์กฐํด์ ์ด์ผ๊ธฐํฉ๋๋ค.
nanochat์ ๋จ์ํ โ๊ธฐ๋ฅ์ ์ํโํ๋ AI๊ฐ ์๋๋ผ, ๋ฐ์ดํฐ๋ฅผ ํตํด์ ์์๋ฅผ ๋ฐฐ์ฐ๋ ํ์ต์์ด์ ๊ต์ก์ ์๋ฆฌ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ต๋ณด์ฌ์ธ ๊ฒ์ด์ฃ .
โ์๊ฐํ๋ AIโ๋ฅผ ํฅํ ์ง๋ฌธ
nanochat์ ๋ค๋ฃจ๋ฉด์, ์นดํ์๋ ์์ฐ์ค๋ฝ๊ฒ โ์๊ฐ(Thought)โ์ ๋ณธ์ง๋ก ์ง๋ฌธ์ ์ฎ๊ฒจ ๊ฐ๋๋ฐ์: ์๊ธฐํ๊ท ์ธ์ด๋ชจ๋ธ(Autoregressive LM)๊ณผ ๋ํจ์ ๋ชจ๋ธ(Diffusion Model)์ ๋น๊ตํ๋ฉด์ ์ด๋ฐ ๋ง์ ํฉ๋๋ค:
โํ๋๋ ํ ํฐ์ ํ ์ค์ฉ ์จ ๋ด๋ ค๊ฐ๊ณ , ๋ค๋ฅธ ํ๋๋ ์บ๋ฒ์ค ์ ์ฒด๋ฅผ ์ฌ๋ฌ ๋ฒ ๋ค์ ์จ ๊ฐ๋ฉด์ ๋ ธ์ด์ฆ๋ฅผ ์ง์๊ฐ๋ค. ํ์๊ฐ ์ฌ๊ณ (Thought)์ ๋ ๊ฐ๊น๋ค.โ
์นดํ์๋ โ์๊ฐ์ด๋ผ๋ ๊ฑด ํ ๋ฒ์ ์์ฑ๋๋ ๊ฒ์ด ์๋๋ผ, ์ค์ค๋ก๋ฅผ ์์ ํ๋ฉด์ ๋ฐ๋ณตํ๋ ๊ณผ์ โ์ด๋ผ๊ณ ๋ณธ๋ค๋ ๋ป์ด๊ฒ ์ฃ . ๊ทธ๋ฆฌ๊ณ nanochat์ ์ด๋ฐ ๋ํจ์ ์คํ์ผ์ ์ฌ๊ณ ๋ฐฉ์์ผ๋ก ํ๋ จ์ํค๋ ์คํ๋ ๊ตฌ์ํ๊ณ ์๋ค๊ณ ํฉ๋๋ค. ๋ ๋์๊ฐ์, ํ ์คํธ๋ฅผ ํ ํฐ ๋จ์๋ก ๋ถ๋ฆฌํ๋ ๊ธฐ์กด์ ์ธ์ด๋ชจ๋ธ ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ผ๋ก ์ฌ๊ฒํ ํด ๋ณด๊ณ ์๋ ๊ฒ ๊ฐ๊ธฐ๋ ํฉ๋๋ค - ๋ง์ฝ์, ํ ์คํธ๋ฅผ ํฝ์ ๋จ์๋ก ๋ ๋๋งํด์ ์ ๋ ฅํ๋ค๋ฉด, ์ธ์ด๋ ์๊ณผ ๊ตฌ์กฐ, ๊ฐ์ ์ด ์ฝํ ์๊ฐ์ ์ ๋ณด๋ก ํ์ต๋ ์ ์์ง ์์๊น ํ๋ ์๊ฐ์ด๊ฒ ์ฃ . ์ด๊ฑด, ์ธ์ด๋ชจ๋ธ์ด โ์ฝ๋ ์กด์ฌโ์์ โ๋ณด๋ ์กด์ฌโ๋ก ์งํํ ์ ์๋ค๋ ์์์ธ ๊ฑด๋ฐ, nanochat์ด ๋ฐ๋ก ๊ทธ ๊ฐ๋ฅ์ฑ์ ์ถ๋ฐ์ ์ด ๋ ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค์.
์์ง๋ง ์์ ํ ๊ต์ก ์ํ๊ณ, ๋ด๊ฐ ์ง์ ๊ฑธ์ด๋ณด๋ ๊ธธ
์๋๋ ์นดํ์๊ฐ ์ ํ๋ ค๋ ๋ฉ์์ง๋ ๋ช ํํ๋ค๊ณ ์๊ฐํฉ๋๋ค: โAI๋ฅผ ์ดํดํ๋ ค๋ฉด, ๊ฑฐ๋ํจ์ด ์๋๋ผ ํฌ๋ช ํจ์ด ํ์ํ๋คโ๋ ๊ฒ๋๋ค.
nanochat์ ๋จ์ํ ์์ ๋ชจ๋ธ์ด ์๋๋ผ AI ํ์ต์ ์ ์ฒด ๊ณผ์ ์ ์ง์ ๋ณผ ์ ์๋ ์ถ์๋, ๊ทธ๋ ์ง๋ง ์์ ํ ์ํ๊ณ(microcosm)์์. ๋ฐ์ดํฐ๋ก ์ธ๊ฒฉ์ ํ์ฑํ๊ณ , ๋ฏธ์ธ์กฐ์ ์ ํตํด์ ์ฌ๊ณ ๋ฅผ ๋ฐ๊พธ๊ณ , ๊ฐํํ์ต์ด ๋ณด์ ์ฒด๊ณ๋ฅผ ๊ฐ๋ฅด์น๋ ๊ทธ ๋ชจ๋ ๊ณผ์ ์ ๋ด ์์ผ๋ก ๋ง์ง ์ ์์ ๋ฏ์ด ๊ฐ๊น์ด์์ ๋ณด์ฌ์ค๋๋ค. ๊ฑฐ๋ ๋ชจ๋ธ์ ์์ฑ๋ ๊ฒฐ๊ณผ๋ง ๋ณด์ฌ์ฃผ์ง๋ง, nanochat์ ๊ทธ ๊ฒฐ๊ณผ๊ฐ ๋ง๋ค์ด์ง๋ โ์๊ฐโ์ ๋ณด์ฌ์ค๋๋ค. ์ด ์์ ๊ต์ค์์ ์ฐ๋ฆฌ๋ ๋ค์ AI๋ฅผ ์ดํดํ๊ณ , ๋์์ ๋ฐฐ์์ด๋ ๋ฌด์์ธ๊ฐ๋ฅผ ๋๋ฌป๊ฒ ๋ ๊ฒ๋๋ค.
์ง์ nanochat์ ์คํํด๋ณด๊ณ ์ถ์ผ์๋ฉด, Lambda Labs์์ 8รH100 ๋ ธ๋ ํ๋๋ฅผ ์คํํ๊ณ ์๋์ ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํ๋ฉด ๋ฉ๋๋ค:
bash speedrun.sh
๋๋ต 4์๊ฐ(100๋ฌ๋ฌ ์์ค) ์ด๋ฉด ๋ชจ๋ธ์ด ์์ฑ๋๋๋ฐ์, python -m scripts.chat_web ๋ช
๋ น์ด๋ก ๊ฐ๋จํ ์น ๊ธฐ๋ฐ ์ฑํ
์ธํฐํ์ด์ค๋ฅผ ๋์ธ ์ ์์ต๋๋ค. ์ข ๋ ๊ธด ํ์ต(์ฝ 33์๊ฐ, 800๋ฌ๋ฌ ์์ค)์ ์ ํํ๋ฉด ๋ชจ๋ธ์ ์ถ๋ก (Reasoning)๊ณผ ์์ ์ฑ(Stability)์ด ์ข์์ง๋๋ค.
CPU๋ Mac(MPS) ํ๊ฒฝ์์๋ dev/runcpu.sh๋ฅผ ํตํด์ ์์ ๋ฒ์ ์ ๋๋ ค๋ณผ ์ ์์ต๋๋ค. ํ์ต์ด ๋๋๋ฉด ์๋์ผ๋ก ์์ฑ๋๋ report.md์์ CORE, MMLU, ARC, GSM8K ๊ฐ์ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ํ์ธํ ์๋ ์๊ณ , โInfusing Identityโ์ โSpellingBeeโ ๊ฐ์ด๋๋ฅผ ๋ฐ๋ผํ๋ฉด์ ์ง์ ์ ์ฒด์ฑ์ด๋ ์๋ก์ด ๋ฅ๋ ฅ์ ์ฃผ์
ํด ๋ณผ ์๋ ์์ต๋๋ค.

Image Credit: ์๋๋ ์นดํ์์ ํธ์ํฐ
๋ค์ ๋ง์๋๋ฆฌ์ง๋ง, nanochat์ ๋จ์ํ ์คํ์์ค ํ๋ก์ ํธ๊ฐ ์๋๋๋ค. AI๊ฐ ๋ฐฐ์๊ฐ๋ ๊ณผ์ ์ ์ฌ๋์ด ์ง์ ๊ฒฝํํ๋ฉด์ ๋ฐฐ์ธ ์ ์๊ฒ ๋ง๋ ์ต์ด์ ๊ต์ฌ์ด๊ณ , Eureka Labs๊ฐ ๊ฟ๊พธ๋ ์๋ก์ด ๊ต์ก ์ฒ ํ์ ์คํ์ค์ ๋๋ค.
์๋๋ ์นดํ์๋ ์ด๋ ๊ฒ ๋งํฉ๋๋ค:
โ์ง์ง ๊ต์ก์ ๋จ์ด ๋ง๋ ์ง์์ ๋ฐฐ์ฐ๋ ๊ฒ ์๋๋ผ, ์ง์์ด ๋ง๋ค์ด์ง๋ ๊ณผ์ ์ ์ง์ ๋ฐฐ์ฐ๋ ๊ฒ์ ๋๋ค.โ
nanochat์ ๊ทธ ๊ณผ์ ์ ์ฌ๋ฌ๋ถ์ ๋ ์์์ ์ฌํํฉ๋๋ค. ๊ฑฐ๋ ๋ชจ๋ธ์ ์ธ๊ณ๋ฅผ ์ดํดํ๋ ค๋ฉด, ์ฐ์ ์ด ์๊ณ ํฌ๋ช ํ ๋ชจ๋ธ๋ถํฐ ์ง์ ๋ง๋ค์ด๋ณด๋ ๊ฒ, ํ๋ฅญํ ๋ฐฉ๋ฒ์ด ๋ ๊ฑฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
AI์ ์๋์ ์ง์ง ๋ฐฐ์์, ์ด๋ ๊ฒ ์์ ๊ต์ค์์ ๋ค์ ์์๋๋๊ฐ ๋ด ๋๋ค.
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์๋ ๋
์๋ค์ ์์์ผ๋ก ๋ง๋ค์ด์ง๋๋ค. ๊ฐ์น์๋ ์ปจํ
์ธ ๋ฅผ ์ง์์ ์ผ๋ก ์ฌ๋ฌ๋ถ๊ณผ
๊ณต์ ํ ์ ์๋๋ก, ์ปคํผ ํ ์์ผ๋ก ํ์ ๋ณดํ์ฃผ์ธ์ โ
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
์ ์ฑ ์ต์ ํ(Policy Optimization, PO) ์๊ณ ๋ฆฌ์ฆ์ ์ ํธ๋ ๊ธฐ๋ฐ ํผ๋๋ฐฑ(Preference-based Feedback) ์ผ๋ก AI ๋ชจ๋ธ์ ํ๋ จํ๋ ํต์ฌ ๊ธฐ์ ์ ๋๋ค. ์ต๊ทผ ๋ช ์ฃผ ์ฌ์ด์, ๋๋ฆฌ ์ฐ์ด๋ PPO์ GRPO์ ํ๊ณ๋ฅผ ๊ฐ์ ํ๊ฑฐ๋ ๋์ฒดํ๋ ค๋ ์๋ก์ด PO ๊ธฐ๋ฒ๋ค์ด ๋ค์ ๋ฑ์ฅํ๋๋ฐ์. ์ค๋์ ๊ทธ ์ค์ ์ฃผ๋ชฉํ ๋งํ 10๊ฐ์ง ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค:
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
An awesome guide from @huggingface: The Smol Training Playbook
Covers the behind-the-scenes of training SmolLM3 - what real LLM training looks like:
- Strategy and cost decisions before starting
- Pretraining: Data, ablations, architecture & tuning
- Post-training: Refiningโ TuringPost (@TheTuringPost)
11:16 AM โข Nov 2, 2025
๐ถ ์ฝ๋๋ค์ ํฉ์ฐฝ? Cursor 2.0๊ณผ Composer์ ๋ฑ์ฅ
Cursor 2.0์ด ์๋กญ๊ณ ์ธ๋ จ๋ ์ธํฐํ์ด์ค๋ก ๋์์์ต๋๋ค. ์ด๋ฒ์๋ ์์ฒด ๊ฐ๋ฐํ ์ต์ฒจ๋จ ์ฝ๋ฉ ๋ชจ๋ธ โComposerโ๋ฅผ ํ์ฌํ๋๋ฐ์, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค 4๋ฐฐ ๋น ๋ฅด๊ณ , ๋ณต์กํ ์ฝ๋๋ฒ ์ด์ค์์๋ ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ๊ฑฐ์น ๋ ผ๋ฆฌ์ ์ถ๋ก ์ ์ํํ๋๋ก ํ๋ จ๋์์ต๋๋ค. ์ฌ๊ธฐ์ ๋ณ๋ ฌ ์์ด์ ํธ, ์๋ ํ ์คํธ, ๊ทธ๋ฆฌ๊ณ โํ์ผ ์ค์ฌโ์์ โ๊ฒฐ๊ณผ ์ค์ฌโ์ผ๋ก ๋ฐ๋ UI๊น์ง ๋ํด์ง๋ฉด์, ์ด์ Cursor๋ ๋จ์ํ IDE๋ฅผ ๋์ด์ โํ์ ํ ์ฝ๋ฉ ํ๋ซํผโ์ผ๋ก ์งํํ๊ณ ์๋ ๊ฒ ๊ฐ๋ค์.
LLM์์ ๋๋ฌ๋๋ โ์๊ธฐ ์ธ์โ์ ์กฐ์ง?
์ค์ฐ๋กํฝ ์ฐ๊ตฌํ์ โConcept Injection(๊ฐ๋ ์ฃผ์ ์ ๋๋ก ๋ฒ์ญํ ๊น์)โ์ด๋ผ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํด์ ๋ํ ์ธ์ด๋ชจ๋ธ์ด ์ค์ค๋ก์ ๋ด๋ถ ์ํ๋ฅผ ์ธ์ํ ์ ์๋์ง๋ฅผ ์คํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, Claude Opus 4.1๊ณผ 4 ๋ชจ๋ธ์ ํน์ ํ ์ธต(Layer)์์ ์ฝ 20%์ ์ ํ๋๋ก ์ฃผ์ ๋ ๊ฐ๋ ์ ๊ฐ์งํ๊ณ , ์ ๋ ฅ ํ ์คํธ์ ๋ด๋ถ โ์๊ฐโ์ ๊ตฌ๋ถํ๊ณ , ์ถ๋ ฅ์ด ์๋๋ ๊ฒ์ธ์ง ์ฌ๋ถ๋ฅผ ์ค์ค๋ก ํ๋ณํ ์ ์์์ต๋๋ค. ๋ โ์ง๊ธ X์ ๋ํด ์๊ฐํด๋ดโ์ ๊ฐ์ ํ๋กฌํํธ๋ฅผ ์ฃผ๋ฉด ๋ด๋ถ ์ํ๋ฅผ ์ค์ ๋ก ์กฐ์ ํ๊ธฐ๋ ํ์ต๋๋ค. ๋ค๋ง ์ด๋ฐ โ๋ด์ ์ธ์ ๋ฅ๋ ฅโ์ ๋ชจ๋ธ์ด๋ ์ํฉ์ ๋ฐ๋ผ ํฌ๊ฒ ๋ฌ๋ผ์ก๋ค๊ณ ํ๊ณ , ์์ง ๋ถ์์ ํ๊ณ ๋ค์ํ ๋ฐฉ์์ผ๋ก ๋ํ๋๋ ์ด๊ธฐ ํํ์ ์๊ธฐ ์ธ์์ผ๋ก ํด์ํ๋ค๊ณ ํฉ๋๋ค. ๊ธ์์?
์คํAI์ Aardvark, ๋ณด์์ ํํค์น๋ GPT-5 ์ฐ๊ตฌ์
์คํAI๊ฐ ์๋ก์ด ์์จํ ๋ณด์ ์ฐ๊ตฌ ์์ด์ ํธ โAardvarkโ๋ฅผ ๋ฐํํ์ต๋๋ค. ํ์ฌ๋ ๋น๊ณต๊ฐ ๋ฒ ํ ๋จ๊ณ์ ์๋ ์ด ์์คํ ์ GPT-5 ๊ธฐ๋ฐ์ผ๋ก, ์ฝ๋๋ฒ ์ด์ค๋ฅผ ๋์์์ด ์์ฐฐํ๋ฉด์ ์ทจ์ฝ์ ์ ์ฐพ์๋ด๊ณ , ๊ฒ์ฆํ๊ณ , ํจ์น๊น์ง ์ํํฉ๋๋ค. ์ด๋ฏธ ์ฌ๋ฌ ์คํ์์ค ํ๋ก์ ํธ์์ ์ค์ CVE ์ทจ์ฝ์ ์ ๋ฐ๊ฒฌํ๋ค๊ณ ํ๊ณ , ์คํAI์ ๋ด๋ถ ํ ์คํธ์์๋ ๊ทธ ์ค๋ ฅ์ ์ ์ฆํ๋ค๊ณ ํฉ๋๋ค. ์ฝ๊ฒ ๋งํด์, ์ ๋ค์ง ์๊ณ ๋ฒ๊ทธ๋ฅผ ๋์น์ง ์๋ ๊ฐ๋ฐํ์ ๋๋ฃ๊ฐ ์๊ธด ์ ์ด๋ผ๊ณ ๋ ํ ๊น์?
6,000์๊ฐ์ ์คํ: AI๊ฐ ์์ง ๋์ฒดํ์ง ๋ชปํ ์๊ฒฉ ๋ ธ๋
AI ์์ ์ผํฐ(Center for AI Safety)์ Scale AI๊ฐ ๊ณต๋์ผ๋ก ๋ฐํํ โRemote Labor Indexโ๋, ์๊ฒฉ ๊ทผ๋ฌด๊ฐ AI ์๋ํ์ ์ผ๋ง๋ ์ํฅ์ ๋ฐ๋์ง ์ธก์ ํ ํฅ๋ฏธ๋ก์ด ๋ฒค์น๋งํฌ์ธ๋ฐ์. ์ค์ ํ๋ฆฌ๋์ ํ๋ก์ ํธ 240๊ฑด(23๊ฐ ์นดํ ๊ณ ๋ฆฌ)์ ๋ถ์ํ๋๋ฐ, ์ด 6,000์๊ฐ ์ด์์ ๋ ธ๋, ์ฝ 14๋ง ๋ฌ๋ฌ ๊ท๋ชจ์ ์์ ์ ํฌํจํ๋ค๊ณ ํฉ๋๋ค. Manus์ Sonnet 4.5 ๊ฐ์ ์ต์ AI ์์ด์ ํธ์กฐ์ฐจ ์๋ํ์จ์ด 2.5% ๋ฏธ๋ง์ ๋จธ๋ฌผ๋ ๋ค๊ณ ํ๋๋ฐ, ์ฆ, ๊ฒฝ์ ์ ๊ฐ์น๊ฐ ํฐ ์๊ฒฉ ๋ ธ๋์ ์ฌ์ ํ ๋๋ถ๋ถ ์๋ํ๋์ง ์์ ์ํ๋ผ๋ ๋ป์ ๋๋ค.
์์ด์ ํธ๋ค์ด ์คํจํ ์ด์ ๋ก๋ ํ์ผ ์์(17.6%), ์์ ๋ฏธ์์ฑ(35.7%), ํ์ง ์ ํ(45.6%)๊ฐ ์ฃผ์ ์์ธ์ผ๋ก ์ง์ ๋์์ต๋๋ค. AI๊ฐ ์ฝ๋๋ฅผ ์ฐ๊ณ ๋ณด๊ณ ์๋ฅผ ์์ฝํ ์ ์๊ฒ ๋์๋๋ผ๋, โ์์ฑ๋ ์๊ณ ์ฑ ์ ์๋ ๋ ธ๋โ์ ๋์ฒดํ๊ธฐ๊น์ง๋ ์์ง ๊ฐ ๊ธธ์ด ๋ฉ๋ค๋ ์ ์ ๋ณด์ฌ์ฃผ๋ ๊ฑธ๊น์?

์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
๐ MiniMax M2 & Agent โ ๋๊ตฌ ํ์ฉ๊ณผ ์ฝ๋ฉ์ ์ต์ ํ๋ ์คํ LLM
MiniMax๊ฐ M2 ๋ชจ๋ธ๊ณผ Agent ์์คํ ์ ํจ๊ป ๊ณต๊ฐํ์ต๋๋ค. ์ด ์กฐํฉ์ ๋น ๋ฅด๊ณ ์ ๋น์ฉ์ ์ถ๋ก , ๊น์ ๊ฒ์ ๊ธฐ๋ฅ, ๊ทธ๋ฆฌ๊ณ Shell, Python, Browser๊ฐ ํตํฉ๋ ๋๊ตฌ ์ฒด์ธ์ ํตํด์ ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋จ์ํ ์ฝ๋๋ฅผ ์์ฑํ๋ ์์ค์ ๋์ด์, ๋ณต์กํ ๋ ผ๋ฆฌ์ ๊ณผ์ ์ ๋จ๊ณ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์คํ LLM์ผ๋ก ์งํํ๊ณ ์์ต๋๋ค.
โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Kimi Linear โ ์์ ํ ์ดํ ์ ์ ๋์ด์ ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ
Kimi ํ์ ๊ธฐ์กด์ โํ ์ดํ ์ (Full Attention)โ ๊ตฌ์กฐ๋ฅผ ๋์ฒดํ ์ ์๋ ํ์ด๋ธ๋ฆฌ๋ ์ ํ ์ดํ ์ ์คํ(KDA + MLA)์ ์ ์ํ์ต๋๋ค. ๋์ผํ ์กฐ๊ฑด์์ ํ ์ดํ ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , KV ์บ์๋ฅผ ์ต๋ 75% ์ ๊ฐ, 1๋ฐฑ๋ง ํ ํฐ ์ปจํ ์คํธ์์ 6๋ฐฐ ๋น ๋ฅธ ๋์ฝ๋ฉ ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]MASPRM: Multi-Agent System Process Reward Model โ ๋ค์ค ์์ด์ ํธ์ ์งํ๋ฅ ์ ์ธก์ ํ๊ณ ๋ ๋์ ์ถ๋ก ์ผ๋ก ์ด๋๋ ๋ชจ๋ธ
MASPRM์ MCTS ๋กค์์(Monte Carlo Tree Search)์ ๊ธฐ๋ฐ์ผ๋ก, ๊ฐ ์์ด์ ํธ์ ํ๋ ๋จ์๋ณ ์งํ ์ํฉ์ ์ถ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ํด์ ๋น ์์น๋ MCTS ๊ธฐ๋ฐ ์ถ๋ก ์ ํ ๋ ์ฐ์ฐ ์์์ ๊ฐ์ฅ ์ ๋งํ ๊ฒฝ๋ก์ ์ง์คํ๋๋ก ์ ๋ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ค์ค ์์ด์ ํธ ๊ฐ์ ์ถ๋ก ๊ณผ์ ์ด ๋ ์ ๋ขฐ์ฑ ์๊ณ ํจ์จ์ ์ผ๋ก ๋ฐ์ ํ ์ ์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Ouro: Looped Language Models โ ๋ฐ๋ณต์ ์ฌ๊ณ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๋ ๋ฃจํํ ์ธ์ด๋ชจ๋ธ
Ouro๋ ๋ชจ๋ธ์ด ๋ด์ฌ์ ๋ฐ๋ณต ๊ณ์ฐ(Latent Iterative Computation)์ ํ์ตํ๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค. ํ์ต ์ค ์ค์ค๋ก โ์ผ๋ง๋ ๊น์ด ์ฌ๊ณ ํด์ผ ํ๋๊ฐโ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฉ์ปค๋์ฆ(Learned Depth Allocation)์ ํ์ฌํ์ผ๋ฉฐ, ์ด ๊ธฐ๋ฒ์ผ๋ก 1~3B ๊ท๋ชจ์ ์ํ ๋ชจ๋ธ์ด ํจ์ฌ ํฐ Chain-of-Thought ํ๋ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฐํํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
Emu3.5 โ ์์ธกํ๊ณ , ์์ฑํ๊ณ , ์์ ํ๋ ๋ฉํฐ๋ชจ๋ฌ ์๋๋ชจ๋ธ
Emu3.5๋ ์๊ฐ๊ณผ ์ธ์ด๊ฐ ์ฝํ ๋ฉํฐ๋ชจ๋ฌ ์๋ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋น์ ๊ณผ ํ ์คํธ๊ฐ ๊ต์ฐจํ๋ โ๋ค์ ์ํโ๋ฅผ ์์ธกํ๊ณ , Discrete Diffusion Adaptation์ ํตํด์ ๋น ๋ฅด๊ณ ์ผ๊ด๋ ์์ฑ๊ณผ ํธ์ง์ ์ํํ ์ ์์ต๋๋ค. ๋จ์ํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ด ์๋๋ผ, ์ธ์์ ์ดํดํ๊ณ ๋ค์์ ๊ทธ๋ ค๋ณด๋ ๋ชจ๋ธ๋ก ๋ฐ์ ํ๊ณ ์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
Tongyi DeepResearch โ ์ฅ๊ธฐ์ ํ๊ตฌ๋ฅผ ์ํ 30B ๊ท๋ชจ์ ๋ฆฌ์์น ์์ด์ ํธ
์๋ฆฌ๋ฐ๋ฐ์ Tongyi ํ์ 30.5B ํ๋ผ๋ฏธํฐ์ ์์ด์ ํธํ LLM์, ํ ํฐ๋น 3.3B ํ์ฑ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํ๋๋ก ์ต์ ํํ์ต๋๋ค. ์ค๊ฐ ํ์ต(Agentic Mid-Training)๊ณผ ์ฌํ ํ์ต(Post-Training)์ผ๋ก, ์น ๋ฆฌ์์น ๋ฒค์น๋งํฌ์์ ์ต์ ์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]LongCat-Video โ ๋ถ ๋จ์์ 720p ๋น๋์ค๋ฅผ ์์ฑํ๋ ํ์ฅํ ๋ชจ๋ธ
LongCat-Video๋ DiT(Transformer Diffusion) ๋ฐฑ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก, Coarse-to-Fine ๋ฐฉ์์ ์๊ณต๊ฐ ์์ฑ, Block-Sparse Attention, ๊ทธ๋ฆฌ๊ณ T2V(ํ ์คํธ-ํฌ-๋น๋์ค), I2V(์ด๋ฏธ์ง-ํฌ-๋น๋์ค), ์ด์ด์ฐ๊ธฐ(Continuation) ๋ฑ ๋ค์ํ ํํ์ ๋ฉํฐ ๋ฆฌ์๋ RLHF๋ฅผ ํ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ต๋ ์ ๋ถ ๊ธธ์ด์ 720p, 30fps ๋น๋์ค๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํ ์ ์์ต๋๋ค.
โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ถ๋ก ๋ฐ ์์ด์ ํธ๋ฅผ ์ํ ๊ฐํํ์ต
๐๐ Supervised Reinforcement Learning (SRL) - ์ ๋ฌธ๊ฐ์ ์ฌ๊ณ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ (Google)
Google ์ฐ๊ตฌ์ง์ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์ ์ผ๋ จ์ ํ๋(Action)์ผ๋ก ์ฌ๊ตฌ์ฑํ๊ณ , ์ ๋ฌธ๊ฐ์ ์ํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด์ ๋จ๊ณ๋ณ ๋ณด์์ ์ฃผ๋ ์๋ก์ด ํ์ต ๋ฐฉ์์ ์ ์ํ์ต๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ์์ ๋ชจ๋ธ์ด ์ ๋ฌธ๊ฐ์ ์ฌ๊ณ ํ๋ฆ์ ๋ฐ๋ผ๊ฐ๋ฉด์ ๋ฌธ์ ํด๊ฒฐ๋ ฅ์ ๊ธฐ๋ฅผ ์ ์๊ฒ ํฉ๋๋ค. ์ดํ RLVR(๊ฐํํ์ต ๊ธฐ๋ฐ ์ธ๋ฐ ์กฐ์ )์ ํตํด ์ ํ์ฑ๊ณผ ์ผ๊ด์ฑ์ ๋์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: SLR
๐๐ SPICE: Self-Play In Corpus Environments Improves Reasoning - ๋ฌธ์ ํ๊ฒฝ ์ ์๊ธฐ ๋์ ์ ํตํ ์ถ๋ก ํฅ์ (Meta)
Meta์ SPICE๋ ๋ฌธ์ ์ฝํผ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๊ฐ์ ๋ชจ๋ธ โ ๋์ ์(Challenger)์ ์ถ๋ก ์(Reasoner) โ ๋ฅผ ํจ๊ป ์งํ์ํค๋ ์๊ธฐํ์ต ์์คํ ์ ๋๋ค. ๋ ๋ชจ๋ธ์ ์๋ก ๊ฒฝ์ํ๊ณ ํผ๋๋ฐฑ์ ์ฃผ๊ณ ๋ฐ์ผ๋ฉด์ ์ค์ค๋ก ์๋ก์ด ํ์ต ์ปค๋ฆฌํ๋ผ์ ๋ง๋ค์ด๋ด๋๋ฐ, ์ด๋ฅผ ํตํด์ ๋ค์ํ ๋ถ์ผ์์ ์ง์์ ์ธ ์๊ธฐ ๊ฐ์ ์ ํด ๋ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: SPICE
๐ Reasoning-Aware GRPO using Process Mining - ํ๋ก์ธ์ค ๋ง์ด๋์ผ๋ก ๊ฐํ๋ ๋จ๊ณ์ ์ถ๋ก ํ์ต (๋ถ์ฐ๋ํ๊ต)
๋ถ์ฐ๋ํ๊ต ์ฐ๊ตฌํ์ ๊ธฐ์กด GRPO ์๊ณ ๋ฆฌ์ฆ์ ํ๋ก์ธ์ค ๋ง์ด๋ ๊ธฐ๋ฐ์ ์ ํฉ์ฑ ๋ณด์์ ์ถ๊ฐํ์ต๋๋ค. ๊ต์ฌ ๋ชจ๋ธ์ ์ถ๋ก ์ ์ฐจ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ ๋ชจ๋ธ์ ์ฌ๊ณ ๊ณผ์ ์ ํ๊ฐํด์ ์ ์ฑ ์ด ๊ต์ฌ์ ์ฌ๊ณ ํ๋ฆ๊ณผ ์ผ์นํ๋๋ก ์กฐ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ํด์ ๋ณต์ ๋จ๊ณ์ ๊ฑธ์น ๋ ผ๋ฆฌ ์ถ๋ก ์ ํ์ง์ด ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์์ด์ ํธ์ ์กฐ์ง, ๊ณํ, ๊ทธ๋ฆฌ๊ณ ์์ฅ
๐๐ Magentic Marketplace - ๋๊ท๋ชจ ์์ด์ ํธ ์์ฅ์ ์คํํ ์ ์๋ ์คํ์์ค ํ๊ฒฝ (Microsoft)
Microsoft๋ ๋ณด์กฐ ์์ด์ ํธ์ ์๋น์ค ์์ด์ ํธ๊ฐ ํจ๊ป ์๋ํ๋ ์๋ฉด ์์ฅ(Two-sided Market)์ ์๋ฎฌ๋ ์ด์ ํ ์ ์๋ ์คํ์์ค ํ๊ฒฝ์ ๊ณต๊ฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด์ ๋ณต์ง(Welfare), ํธํฅ(Bias), ์กฐ์(Manipulation), ๊ฒ์(Search)์ ๋ค์ด๋๋ฏน์ค๋ฅผ ๋๊ท๋ชจ๋ก ๋ถ์ํ ์ ์์ต๋๋ค. ์์ด์ ํธ๋ค์ด ์ํธ์์ฉํ๋ฉด์ ํ์ฑํ๋ ๊ฒฝ์ ์ ยท์ฌํ์ ํจํด์ ์ฐ๊ตฌํ ์ ์๋ ์๋ก์ด ๊ธฐ๋ฐ์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: Magentic Marketplace
๐ The Era of Agentic Organization - ์ธ์ด๋ชจ๋ธ์ด ์ค์ค๋ก ์กฐ์ง์ ๋ฐฐ์ฐ๋ ์๋ (Microsoft)
Microsoft ์ฐ๊ตฌํ์ ์ธ์ด๋ชจ๋ธ์ด ์ค์ค๋ก ์กฐ์ง์ ๊ตฌ์ฑํ๊ณ ์ด์ํ๋๋ก ํ์ต์ํค๋ ์คํ์ ์งํํ์ต๋๋ค. ์กฐ์ง์(Organizer)์ ์์ ์(Workers)์ ๋น๋๊ธฐ์ ์ฌ๊ณ ๋ฅผ ์กฐ์จํ๋ ํ๋กํ ์ฝ์ ์ค๊ณํ๊ณ , ๊ฐํํ์ต์ ํตํด์ ์ต์ ์ ๊ตฌ์กฐ๋ฅผ ์ฐพ์๋์ต๋๋ค. ์ด๋ฅผ ํตํด์ ์ถ๋ก ์ ํ๋๋ ๋์ด๊ณ ์๋ต ์ง์ฐ์ ์ค์์ต๋๋ค. AI๊ฐ ํ๋์ ์กฐ์ง์ฒ๋ผ ์ค์ค๋ก ํ์ ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์์์ ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]ReCode: Unify Plan and Action for Universal Granularity Control - ๊ณํ๊ณผ ํ๋์ ํ๋์ ์ฝ๋๋ก ํตํฉํ๋ ๋ณดํธ์ ์ถ๋ก ๊ตฌ์กฐ
ReCode๋ ๊ณํ์ ์ฌ๊ท์ ์ฝ๋(Recursive Code) ํํ๋ก ํํํ๊ณ , ๊ทธ ์์ Placeholder ํจ์๋ฅผ ์ค์ ํ๋(Action)์ผ๋ก ํ์ฅํฉ๋๋ค. ์ด๋ฅผ ํตํด์ ๋ชจ๋ธ์ ์ํฉ์ ๋ฐ๋ผ ๊ฒฐ์ ์ ์ธ๋ฐํจ(Granularity)์ ์์ ๋กญ๊ฒ ์กฐ์ ํ ์ ์์ผ๋ฉฐ, ์ ๋ต์ ๊ณํ์์ ๊ตฌ์ฒด์ ์คํ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ด๋ํ ์ ์๋ ํตํฉ์ ์ถ๋ก ํ๋ ์์์ ์ ๊ณตํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ํคํ ์ฒ ๋ฐ ํจ์จ์ฑ(Attention, Routing, Long Context)
Knocking-Heads Attention - ํค๋ ๊ฐ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ์ดํ ์ ๊ตฌ์กฐ
Knocking-Heads Attention์ ์๋ก ๋ค๋ฅธ ์ดํ ์ ํค๋๋ค์ด ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ์ง ์๊ณ , ๊ณต์ ๋ ๋๊ฐ์ ์ด๊ธฐํ ํ๋ก์ ์ (Shared Diagonally-initialized Projection)์ ํตํด์ ์๋ก โ๋ถ๋ชํ๋ฉฐ(Knock)โ ์ํธ์์ฉํ ์ ์๋๋ก ์ค๊ณ๋ ๊ตฌ์กฐ์ ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํ์ต ์ด๊ธฐ์ ๋ชจ๋ธ์ ๋ ์์ ์ ์ผ๋ก ์๋ ด์ํค๊ณ , ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์์ผ์ค๋ค๊ณ ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Sparser Block-Sparse Attention via Token Permutation - ํ ํฐ ์ฌ๋ฐฐ์ด์ ํตํ ๋ธ๋ก ๋จ์ ํฌ์ ์ดํ ์ ์ต์ ํ
์ด ์ฐ๊ตฌ๋ ํ ํฐ์ ์ฌ๋ฐฐ์ด(Permutation)ํด์ ์์กด์ฑ์ด ๋ธ๋ก ๋ด์ ๋ ์ง์ค๋๋๋ก ๋ง๋ค์ด์, ๋ธ๋ก ๋จ์ ํฌ์์ฑ(Block-level Sparsity)์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ธด ๋ฌธ๋งฅ ์ ๋ ฅ ์ ํ๋ฆฌํ ๋จ๊ณ๋ฅผ ๊ฐ์ํํ ์ ์๊ณ , ์ด๋ฅผ ์ํด์ ๋ง์ถคํ Permuted-FlashAttention ๊ธฐ๋ฒ์ ํจ๊ป ์ฌ์ฉํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Parallel Loop Transformer for Efficient Test-Time Computation Scaling - ์ถ๋ก ๋จ๊ณ์ ํจ์จ์ ์ฐ์ฐ ํ์ฅ์ ์ํ ๋ณ๋ ฌ ๋ฃจํ ํธ๋์คํฌ๋จธ
์ด ํธ๋์คํฌ๋จธ๋ ๋ฃจํ ์ฐ์ฐ(Looped Computation)์ ํ ํฐ ๋จ์๋ก ๋ณ๋ ฌํ(Parallelize)ํ๊ณ , ์ฒซ ๋ฒ์งธ ๋ฃจํ์ KV ์บ์๋ฅผ ์ฌ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฒ์ดํฐ๋ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ (Gated Sliding-Window Attention)์ ๊ฒฐํฉํด์, ์ง์ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๊ฑฐ์ ๊ธฐ์กด ์์ค์ผ๋ก ์ ์งํ๋ฉด์ ํ ์คํธ ์ ์ฐ์ฐ ํ์ฅ์ฑ(Computation Scaling)์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance - ๋ช ์์ ๋ผ์ฐํ ์ผ๋ก ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ(MoE) ํ์ฅํ๊ธฐ
์ด ์ฐ๊ตฌ๋ Diffusion Transformer(DiT)์์์ ์ ๋ฌธ๊ฐ ํผํฉ(Mixture-of-Experts) ๋ผ์ฐํ ์ ๊ฐ์ ํ๊ธฐ ์ํด์, ์กฐ๊ฑด๋ถ(Conditonal) ๋ฐ ํ๋กํ ํ์ (Prototypical) ๊ธฐ๋ฐ์ ๋ผ์ฐํ ๊ณผ ๋ผ์ฐํ ๋๋น ์์ค(Routing Contrastive Loss)์ ํจ๊ป ์ ์ฉํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ๋ ๋ช ํํ๊ฒ ๋ถํ๋์ด ImageNet ์ฑ๋ฅ์ ๋ํญ ํฅ์์์ผฐ๋ค๊ณ ํ๊ณ , MoE ๊ตฌ์กฐ์์ ๋ผ์ฐํ ์ค๊ณ๊ฐ ์ฑ๋ฅ ํ์ฅ์ ํต์ฌ ์์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!

Reply