- Turing Post Korea
- Posts
- ๐FOD#108: 2025แแ งแซ แแ กแผแแ กแซแแ ต, AIแแ ด แแ กแฏแแ ฅแซ แแ กแผแแ ฃแผแแ ณแฏ แแ กแ แ ตแแ ตแแ ณแซ แแ งแซแแ ฎ 8้ธ
๐FOD#108: 2025แแ งแซ แแ กแผแแ กแซแแ ต, AIแแ ด แแ กแฏแแ ฅแซ แแ กแผแแ ฃแผแแ ณแฏ แแ กแ แ ตแแ ตแแ ณแซ แแ งแซแแ ฎ 8้ธ
แแ กแผแแ ตแซแแ ต AI แแ งแซแแ ฎแแ กแแ ก แแ ฆแซแแ ตแแ ตแแ ฅแแ ก แแ กแแ ตแ แ กแแ ฉ แแ กแฏแแ กแแ ฎแฏ แแ กแซแแ กแซ, แแ ณแธแแ งแจแแ กแแ ฆ แแ กแฏแ แ กแแ ตแแ ฉ แแ ตแปแแ ณแซ AIแแ ด แแ กแฏแแ ฅแซ แแ กแผแแ ฃแผ
์ง๋ ์ฃผ ๋ง์๋๋ฆฐ ๊ฒ์ฒ๋ผ, ํ๋ง ํฌ์คํธ๋ ์ผ๋ ์ ์ ๋ฐ์ด ์ง๋ ์์ , 7์์ ๋ง์ ์ด์ง ์ฌ๋ก์ฐํ๊ฒ ์์ง์ด๋ ๋ชจ๋๋ก ์ง๋ ๋ฐ ๋ ๊ฐ์ ๋ค๋์๋ณด๊ณ ํ๋ฐ๊ธฐ๋ฅผ ๊ณํํ๊ณ ์์ต๋๋ค.
์ด๋ฒ ์ฃผ์๋, ๊ทธ ๋์ FOD์์ ์ธ๊ธํด ์๋ ์๋ง์ โ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ๋คโ ์ค์ ๋ณํํ๋ AI์ ๋ฐ์ ๋ฐฉํฅ์ ์ ๋ณด์ฌ์ฃผ๋ ํต์ฌ์ ์ธ ์ฐ๊ตฌ 8๊ฐ์ง๋ฅผ ๋ค์ ํ ๋ฒ ์ฌ๋ฌ๋ถ๋ค๊ณผ ๋์๋ณด๊ฒ ์ต๋๋ค.
๋ค์ ํ ๋ฒ ์ธ๊ธํ๊ณ ๊ธฐ์ตํ ๋งํ, 2025๋ ์๋ฐ๊ธฐ ํต์ฌ ์ฐ๊ตฌ - 1๋ถ
๋ค์ ๋ง์๋๋ฆฌ์๋ฉด ์ ์ด ์ํ ์ ๋์ ๋๋ค๋ง (^.^;), 2025๋ AI์ ๋ฐ์ ์๋๋ ์ ๋ง ๋๋ผ์ธ ์ ๋์ ๋๋ค. ์๋ก์ด ์ฐ๊ตฌ, ์๋ก์ด ๋ํ๊ตฌ(Breakthrough)๊ฐ ์ฐ๋ฆฌ๋ค์ด ๋ฐ๋ผ์ก๊ธฐ๋ ์ ์ ๋งค์ฃผ ์์์ง๊ณ ์์ฃ . ๊ทธ๋ ๊ธฐ ๋๋ฌธ์์ผ๋ง๋ก, ์ง๊ธ ์ด๋ค ๋ณํ๊ฐ ์ค์ ๋ก ์ด ๊ฑฐ๋ํ ๋ถ์ผ๋ฅผ ๋ฐ๊ฟ๊ฐ๊ณ ์๋์ง, ํ ๊ฑธ์ ๋ฌผ๋ฌ์์ ์ดํด๋ณด๊ณ ๊ธฐ์ตํ๋๊ฒ ์ค์ํ๋ค๊ณ ์๊ฐํฉ๋๋ค.
์ฌํด์ ์ ๋ฐ์ด ์ง๋ ์ง๊ธ, AI์์ ์ค์ํ ํต์ฌ ์ญ๋์ด ๋ญ์ง๋ฅผ ์ฌ์ ์ํ๋ค๊ฑฐ๋, ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ด๊ฑฐ๋, ์์ผ๋ก ์ค์ํด์ง ๊ธฐ์ ์คํ์ ์ฌํธํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋ ผ๋ฌธ๋ค์ด ๋ง์ด ๋ฑ์ฅํ๋๋ฐ์.
์ฌ๊ธฐ์ ๊ทธ ์ค ์ผ๋ถ๋ฅผ ๋ชจ์ ํ๋ ์ด์ ๋ฆฌ์คํธ, 1๋ถ๋ฅผ ๋จผ์ ์๊ฐํฉ๋๋ค - AI๋ก ๋ญ๊ฐ๋ฅผ ์ง์ ๋ง๋ค๊ณ ์๋ค๋ฉด ๋น์ฐํ ๊ด์ฌ์ด ๋ง์ผ์ค ๊ฑฐ๋ผ๊ณ ๋ณด์ง๋ง, ๊ฐ๋ฐ์๊ฐ ์๋๋ผ๋ โAI ๊ธฐ์ ์ด ์ด๋ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋๊ณ ์๊ตฌ๋โํ๋ ๊ฐ์ ์ก์ผ์๊ธฐ์ ๋์์ด ๋๋ฆฌ๋ผ ์๊ฐํฉ๋๋ค.
1๏ธโฃ Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought (Meta-CoT)
์ด ๋
ผ๋ฌธ์ Meta-CoT๋ผ๋ ์๋ก์ด ํ๋ ์์์ ์๊ฐํ๋๋ฐ์. ์ด ํ๋ ์์์, ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์ค์ค๋ก ์งํํ๋ ์ถ๋ก ๊ณผ์ ์ ๋๋์๋ณด๋ฉด์ ์๊ฐ์ ํ ์ ์๊ฒ๋ ์ค๊ณ๋ ๊ฒ๋๋ค. ์ฌ์ธต์ ์ด๊ณ , ๋๋ฆฐ ์ฌ๊ณ ๋ฅผ ๋ปํ๋ ๋ง์ด์ฃ ? โSystem 2โ ์ฌ๊ณ ๋ฐฉ์์์ ์๊ฐ์ ๋ฐ์์, ๋ณต์กํ ๋ฌธ์ ์ ๋ํด์๋ ์ฌ๋ฌ ๋ฒ ์๊ฐํ๊ณ ๊ฒํ ํ๋ ๊ณผ์ ์ ๊ฑฐ์น ์ ์๋๋ก ํ์๋ ์์ด๋์ด์ฃ .
์ด ์ฐ๊ตฌ๋ SynthLabs.ai, ์คํ ํผ๋, UC ๋ฒํด๋ฆฌ์ ์ฐ๊ตฌ์ง์ด ๊ณต๋์ผ๋ก ์งํํ๋๋ฐ, ์ถ๋ก ๊ณผ์ ์ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ด๋ผ๋ ํ์ ๋ฌธ์ ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ , ํ๋ก์ธ์ค ๊ธฐ๋ฐ ๋ณด์ ๋ชจ๋ธ๊ณผ ๋ฉํ ๊ฐํํ์ต(meta-RL)์ ํตํด์ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค.
๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, ๊ฐํํ์ต ๊ธฐ๋ฐ์ผ๋ก ํ๋ จํ ๋ชจ๋ธ์ด, ๊ธฐ์กด์ ์ง์ ๊ธฐ๋ฐ(Instruction-Tuned) ๋ชจ๋ธ๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค - ์ด๊ฒ ๋ฐ๋ก 2025๋
AI ์ฐ๊ตฌ์ ์ ๋ฐ์์ ๋ํ๋๋ ๊ฑฐ๋ํ ํ๋ฆ, ์ฆ, ์กฐ๊ธ ๋๋ฆฌ์ง๋ง ๊ฒ์ฆํ ์ ์๋ ์ถ๋ก , ๊ทธ๋ฆฌ๊ณ ๊ฐํํ์ต์ ์ค์์ฑ ํ๋๋ผ๋ ํ๋ฆ๊ณผ๋ ์ผ์นํ์ฃ .
๊ฒฐ๊ตญ, ์ด ์ฐ๊ตฌ๋ ์ฐ๋ฆฌ๊ฐ 2025๋
๋ค์ด์ ์์ฒญ๋๊ฒ ์์ฃผ ์ธ๊ธํด ์จ ์ฃผ์ , โ์ด์ ์ข ๋๋ฆฌ๋๋ผ๋ ํ์คํ ์ถ๋ก ์ด ์ค์ํ๋คโ๋, AI ๊ธฐ์ ํ์ ์ ๋ฐฉํฅ์ ์ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก์
๋๋ค.
์ด ์ฐ๊ตฌ๋, ํ์ฌ AI ๋ถ์ผ์์ ๊ฐ์ฅ ์ค์ํ ๊ณผ์ ์ค ํ๋์ธ, ์ธ์ด ๋ชจ๋ธ์ ์ง์ง โ์ฌ๊ณ ๋ฅ๋ ฅโ, ์ฆ โ์ฌ๋์ฒ๋ผ ๋ ผ๋ฆฌ์ ์ด๊ณ ์ฒด๊ณ์ ์ผ๋ก ์ถ๋ก ํ๋ ๋ฅ๋ ฅโ์ ํค์ฐ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋๋ฐ์. ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ๋ฟ ์๋๋ผ ์ํ ์ธ์ด ๋ชจ๋ธ์๋ ํด๋น๋๋ ์ฃผ์ ๋ก, ์ต๊ทผ์ ํต์ฌ์ ์ฐ๊ตฌ ์ฑ๊ณผ๋ค์ ์๋์ ๊ฐ์ด ์ ๋ฆฌํ๊ณ ์์ต๋๋ค:
๐ง rStar-Math
1.5์ต~7์ต ๊ฐ ์ ๋ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๊ฐ ๋๋ ์ํ ์ธ์ด ๋ชจ๋ธ๋ ์ฌ๋์๊ฒ ์ถ๋ก ์ ํ ์ ์๊ฒ๋ ์ค๊ณ๋ ์์คํ ์ธ๋ฐ, ์๋์ ๊ธฐ์ ๋ค์ด ํต์ฌ์ ๋๋ค:
๋ชฌํ ์นด๋ฅผ๋ก ํธ๋ฆฌ ํ์(MCTS)
์ฒด์ค๋ ๋ฐ๋์์ ์ ๋ต์ ์ธ์ธ ๋ ์ฐ๋ ๋ฐฉ์์ธ๋ฐ, AI๊ฐ ๋ค์ํ โ์ถ๋ก ์ ๊ฒฝ๋กโ๋ฅผ ํ์ํ๊ฒ๋ ํด ์ค๋๋ค.ํ๋ก์ธ์ค ์ค์ฌ์ ํผ๋๋ฐฑ (Process-level Supervision): ๋จ์ํ๊ฒ ์ ๋ต์ด ์๋๋ผ, โ์ด๋ป๊ฒ ์๊ฐํ๋๊ฐโ์ ๊ธฐ์ค์ ๋๊ณ ์ง๋ํ๊ณ ํผ๋๋ฐฑ์ ์ฃผ๋ ๋ฐฉ์์ ๋๋ค.
๋ฐ๋ณต์ ์๊ธฐ๊ฐ์ (Iterative Self-improvement): ๋ชจ๋ธ์ด ์ค์ค๋ก์ ์ค๋ฅ๋ฅผ ํ์ตํ๋ฉด์, ์ ์ ๋ ๋์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ฐพ์ ์ ์๋๋ก ํฉ๋๋ค.

Image Credit: New Methods for Boost Reasoning in Small and Large Models
๐ง Logic-RL ํ๋ ์์
Logic-RL์, AI๊ฐ ๋จ์ํ ์ ๋ต๋ง ๋งํ๋ ๊ฒ ์๋๋ผ, ์ ๋ต์ ์ด๋ฅด๋ ๊ณผ์ ๊น์ง ์ ํํด์ผ๋ง ๋ณด์์ ๋ฐ๋ ์์ฃผ ์๊ฒฉํ ํ๋ จ ๋ฐฉ์์ ๋๋ค. ๊ธฐ์กด์ ๋ง์ AI ๋ชจ๋ธ์ ์ ๋ต๋ง ๋งํ๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋๋๊น, ๊ฐ๋์ ์ฐ์ฐํ ๋งํ๊ฑฐ๋, ์๋ฑํ ๋ฐฉ์์ผ๋ก ๋ต์ ๋ด๋ ๊ทธ๋ฅ ๋์ด๊ฐ๊ณค ํ๊ฒ ์ฃ . ํ์ง๋ง Logic-RL์์๋ โ์ ๊ทธ๋ ๊ฒ ์๊ฐํ๋์งโ, โ์ด๋ค ๋ ผ๋ฆฌ์ ํ๋ฆ์ผ๋ก ๋ต์ ๋์ถํ๋์งโ๊น์ง ๊ผผ๊ผผํ ๋ฐ์ ธ๋ด ๋๋ค.
์ด ๋ฐฉ์์ AI๊ฐ ์ ๋๋ก ์ฌ๊ณ ํ๋ ์ต๊ด์ ๋ค์ด๊ฒ ๋ง๋๋ ํ๋ จ๋ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ถ๋ก ๊ณผ์ ์ด ์์ฑํ๋ฉด ๋ณด์์ ๋ชป ๋ฐ๊ณ , ๋ ผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๊ณผ์ ์ ๊ฑฐ์ณ์ผ๋ง ๊ธ์ ์ ์ธ ํผ๋๋ฐฑ์ ๋ฐ์ผ๋๊น, ๊ฒฐ๊ตญ ๋ชจ๋ธ์ด ์ ์ ๋ ์ฌ๋์ฒ๋ผ ๋ ผ๋ฆฌ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ ๋ฐฉ์์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฒ ๋๋ค๋ ๊ฑฐ์ฃ . AI์ โ์ถ๋ก ์ ๋ขฐ์ฑโ์ ๋์ด๋ ๋ฐ ์์ฃผ ์ค์ํ ์ ๊ทผ์ ๋๋ค.
๐ง LIPS
LIPS๋, AI๊ฐ ์ด๋ ค์ด ์ํ ๋ฌธ์ , ํนํ โํญ์ ์ด๋ค ์๊ฐ ๋ ํฌ๊ฑฐ๋ ์๋คโ๋ ๋ถํ๋ฑ ์ฆ๋ช (Inequality Proof) ๋ฌธ์ ๋ฅผ ์ ํ ์ ์๊ฒ ์ค๊ณํ ์์คํ ์ ๋๋ค. ๋ณดํต ์ธ์ด ๋ชจ๋ธ์ ๊ฒฝํ, ํจํด์ ๋ฐํ์ผ๋ก ๋ต์ ์์ธกํ๋ ๊ฑด ์ ํ์ง๋ง, ์ํ์ฒ๋ผ ์ ํํ ๋ ผ๋ฆฌ์ ์ฆ๋ช ์ด ํ์ํ ๋ถ์ผ์์๋ ํ๊ณ๊ฐ ์์์ฃ . ๊ทธ๋์ LIPS๋ ๋ ๊ฐ์ง ๋ฅ๋ ฅ์ ๊ฒฐํฉํฉ๋๋ค: ํ๋๋ ์ฌ๋์ฒ๋ผ ์ง๊ด์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ดํดํ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๋ ฅ, ๋ค๋ฅธ ํ๋๋ ๋ ผ๋ฆฌ์ ๊ท์น์ ๋ฐ๋ผ ์ ํํ๊ฒ ๊ณ์ฐํ๋ ๊ธฐํธ ๊ธฐ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋๋ค.
์ด ๋ ๊ฐ์ง๋ฅผ ํฉ์น๋ฉด, AI๋ ๋จผ์ ๋ฌธ์ ๋ฅผ ์ ์ฒด์ ์ผ๋ก ํ์ ํ๊ณ (โ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์งโ), ๊ทธ ๋ค์์ ์ํ์ ์ผ๋ก ์ณ์ ๋ฐฉ์์ผ๋ก ํ ๋จ๊ณ์ฉ ๋ ผ๋ฆฌ์ ์ผ๋ก ํ์ด๊ฐ๋๋ค. ์๋ฅผ ๋ค์ด์, ์ธ์ด ๋ชจ๋ธ์ด โ์ด ๋ฌธ์ ๋ ์ด๋ฐ ์ ํ์ด์ผโ๋ผ๊ณ ๊ฐ์ ์ก๊ณ , ๊ธฐํธ ๋ ผ๋ฆฌ๊ฐ โ๊ทธ๋ฌ๋ฉด ์ด๋ ๊ฒ ์ฆ๋ช ํด์ผ ํดโ๋ผ๊ณ ์ ํํ๊ฒ ๋ฐ์ ธ๋ณด๋ ์์ ๋๋ค. ์ด๋ ๊ฒ ํด์, LIPS๋ ๋จ์ํ ์ ๋ต์ ๋งํ๋ ๊ฒ ์๋๋ผ, ์ ๊ทธ ์ ๋ต์ด ๋ง๋์ง๋ฅผ ์ค๋ช ํ ์ ์๋ AI๋ก ๋์๊ฐ๊ณ ์์ต๋๋ค.
๐ง Chain-of-Reasoning (CoR)
Chain-of-Reasoning(C0R)์ AI๊ฐ ์์ฐ์ด(๊ธ), ์ฝ๋(ํ๋ก๊ทธ๋๋ฐ), ์ํ(๊ธฐํธ ๋ ผ๋ฆฌ)์ฒ๋ผ ์๋ก ๋ค๋ฅธ ๋ฐฉ์์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๋๋ก ์ฐ๊ฒฐํด์ ์ฌ์ฉํ๋ ๊ธฐ์ ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ฌ๋ ์ค์ ์ธ์์ ๋ฌธ์ ๋, ๊ฝค ์ฌ๋ฌ ์์ญ์ ๊ฑธ์ณ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์์. ์๋ฅผ ๋ค์ด์, โ๋๊ตฌ์ ๊ธ์ฌ๊ฐ ๋ ๋์์งโ๋ฅผ ์์ฐ์ด๋ก ์ค๋ช ํ๊ณ , ์ค๊ฐ์ ๊ณ์ฐ์ ์ฝ๋๋ก ์คํํ๊ณ , ๋ง์ง๋ง์๋ ์ํ์ ๋ ผ๋ฆฌ๋ก ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๋ ์์ด์ฃ . ๊ธฐ์กด์ AI๋ ์ด๊ฑธ ๊ฐ๊ฐ ๋ฐ๋ก๋ฐ๋ก ์ฒ๋ฆฌํ์ง๋ง, CoR์ ์ด ์ ๊ณผ์ ์ ํ ์ค๊ธฐ ํ๋ฆ์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ค๋๋ค.
์ด ๋ฐฉ์์ ๊ฐ์ฅ ํฐ ์ฅ์ ์, AI๊ฐ ๋ฌธ์ ๋ฅผ ๋ ๋๊ฒ, ๋ ๊น๊ฒ ์ดํดํ ์ ์๊ฒ ๋ง๋ ๋ค๋ ๊ฒ๋๋ค. ์ด๋ค ๋ฌธ์ ๊ฐ ๊ธ๋ก ์ค๋ช ๋ผ ์๋ , ์์์ผ๋ก ํํ๋ผ ์๋ , ์๋๋ฉด ํ๋ก๊ทธ๋จ์ฒ๋ผ ์ฐ์ฌ ์๋ , CoR์ ๊ทธ๊ฑธ ๊ตฌ๋ถํ์ง ์๊ณ ํ์ํ ๋๋ง๋ค ์์ฐ์ค๋ฝ๊ฒ ์ธ์ด, ์ฝ๋, ์ํ ์ฌ์ด๋ฅผ ๋๋๋ค๋ฉด์ ์ฌ๊ณ ํฉ๋๋ค. ๊ทธ๋์ CoR์ ์ด AI๋ ๋ณต์ก ๋ค๋จํ ๋ฌธ์ ๋ ์ฌ๋์ฒ๋ผ ๋จ๊ณ์ ์ผ๋ก ์ถ๋ก ํ๊ณ , ๋ ์ ํํ๊ณ ์ผ๊ด๋ ๋ต์ ๋ผ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ ์๊ฐ๋ ๋ชจ๋ ์ฐ๊ตฌ๋ค์, โAI์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ด๋ป๊ฒ ์งํํ๊ณ ์๋์งโ ์ดํดํ๋ ๋ฐ ๊ผญ ์ฐธ๊ณ ํ ๋งํ ๊ฐ์น๊ฐ ์๋ ์๋ฃ๋ค์ ๋๋ค. AI๋ ์ด์ ๋จ์ํ๊ฒ ์ ๋ณด๋ฅผ ์์ฑํ๋๊ฒ ์๋๋ผ, ์ด์ฐ๋ณด๋ฉด '์๊ฐํ๋ ์กด์ฌ'๋ก ์งํํ๋ ๋จ๊ณ์ ์ ์ด๋ค์๋ ํ๋ ๋๋์ด ๋ค๊ธฐ๋ ํ๋ค์.
์ด ๋ ผ๋ฌธ์ ์ฃผ๋ชฉํด์ผ ํ๋ ์ด์ ๋, ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ํ ์คํธ์ ์ด๋ฏธ์ง ์ถ๋ก ๊ณผ์ ๋ฅผ ์ด๋ป๊ฒ ์ผ๋ฐํ(Generalization)ํ๋์ง์ ๋ํด์ ์ง๊ธ๊น์ง ์ค ๊ฐ์ฅ ๋ช ํํ๊ณ ๋ ํฌ๊ด์ ์ธ, ์ค์ฆ์ ์ธ ๋ถ์์ ๋ด๊ณ ์๊ธฐ ๋๋ฌธ์ธ๋ฐ์. ํ์ฝฉ๋, UC ๋ฒํด๋ฆฌ, ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋, NYU, ์จ๋ฒํ๋ ์ฐ๊ตฌ์ง์ด SFT(Supervised Fine-Tuning, ์ง๋ํ์ต ๊ธฐ๋ฐ ํ์ธํ๋)๊ณผ RL(๊ฐํํ์ต)์ ๋น๊ต ๋ถ์ํ๋๋ฐ, ๊ทธ ๊ฒฐ๊ณผ RL์ด ํ๋ จ ๊ณผ์ ์ ์๋ ์๋ก์ด ๋ฐ์ดํฐ(Out-of-Distribution)์ ๋ ์ ์ผ๋ฐํ๋ ๋ฟ ์๋๋ผ, ์๊ฐ์ ์ธ ์ธ์ ๋ฅ๋ ฅ๊น์ง๋ ๋ ๋ง์ด ํฅ์์ํจ๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์คฌ์ต๋๋ค. ๋ฐ๋ฉด์, SFT๋ ์ฃผ๋ก ํ๋ จ ๋ฐ์ดํฐ ์์ฒด๋ฅผ โ์๊ธฐโํ๋๋ก ํ๋ ๊ฒฝํฅ์ด ๊ฐํ์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ฅผ ํตํด์, ๊ฐํํ์ต ์ค์ฌ์ ์ ๊ทผ ๋ฐฉ์์ด ์ข ๋ ์ ์ฐํ๊ณ ๊ฐ๊ฑดํ ๋ฒ์ฉ AI ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐ ํต์ฌ์ ์ด๋ผ๋ ๊ฒ์ ๋ค์ ํ ๋ฒ ํ์ธํ ์ ์์ต๋๋ค. ์๋ก์ด ๊ณผ์ ์ ์ ์ํ ์ ์๋ AI๋ฅผ ๋ง๋ค๊ธฐ ์ํด์๋, ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ํ๋ ๋ฐฉ์์์ ๋ฒ์ด๋์, ์ค์ค๋ก ์ฌ๊ณ ํ๊ณ ์กฐ์ ํ ์ ์๋๋ก ์ค๊ณ๋ ํ์ต ๋ฐฉ์, ์ฆ RL ์ค์ฌ์ ํ์ต์ด ํ์์ ์ด๋ผ๋ ํ๋ฆ์ด ๋ช ํํด์ง๋ ๊ฒ ์๋๊น ์ถ์ต๋๋ค - ๊ฐํํ์ต๋ณด๋ค ๋ ํฉ๋ฆฌ์ ์ด๊ณ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ญ๊ฐ๊ฐ ๋ฑ์ฅํ์ง ์๋๋ค๋ฉด์.
๊ฐ์ธ์ ์ผ๋ก ์์ฃผ ์ธ์์ ์ด๋ผ๊ณ ์๊ฐํ ๋ ผ๋ฌธ์ธ๋ฐ์. ๋ธ๋ผ์ด๋์ ์ฝ๋ฌ๋ ์ฐ๊ตฌ์ง์ด, ๋ง์ ์ฌ๋๋ค์ด ๊ฐ์ง๊ณ ์๋ ์ผ์ข ์ ํต๋ , โGAN์ ํ์ต์ด ์ด๋ ต๋คโ๋ ์๊ฐ์ ๋์ ์ฅ์ ๋์ง๋๋ค. ์ฐ๊ตฌ์ง์ด ์๋ก์ด ๋์์ผ๋ก ์ ์ํ ๊ฑด R3GAN์ด๋ผ๋ ๋ชจ๋ธ์ธ๋ฐ, GAN ํ๋ จ์ ๋ถ์์ ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ ๊ทํ๋ ์๋์ ์์ค ํจ์(Regularized Relativistic Loss)๋ผ๋ ๊ฐ๋ ์ ๋์ ํ๊ณ , ์ด ๋๋ถ์ ํ๋ จ์ด ํจ์ฌ ๋ ์์ ์ ์ด๊ณ ์๋ ด ๊ฐ๋ฅํด์ก๋ค๊ณ ํฉ๋๋ค.
์ด ๋ฐฉ์์ ํฐ ์ฅ์ ์, ์ด์ ๋ณต์กํ ํด๋ฆฌ์คํฑ(๊ฒฝํ์ ์กฐ์ ๊ธฐ๋ฒ)์ ์์กดํ ํ์ ์์ด, ์ต์ ์ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ๋ GAN์ ์์ ๋กญ๊ฒ ํ์ฉํ ์ ์๊ฒ ๋์๋ค๋ ์ ์ ๋๋ค. ์ฆ, R3GAN์ ๊ธฐ์กด์ GAN ํ๋ จ ๋ฐฉ์์์ ๋ฌธ์ ๊ฐ ๋์๋ ์ฌ๋ฌ ๋ถ์์ ์์๋ค์ ํด๊ฒฐํ๋ฉด์, ๋ ์ค์ฉ์ ์ด๊ณ ๋ฒ์ฉ์ ์ธ GAN ๊ฐ๋ฐ์ ํ ์ ์๊ฒ ํด ์ฃผ๋ ์ค์ํ ์ง์ ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
์ง๊ธ ๋๋ถ๋ถ AI ๋ชจ๋ธ์ ๊ทผ๊ฐ์ด๋ผ๊ณ ํ ์ ์๋ ํธ๋์คํฌ๋จธ(Transformers). 2025๋ ์๋ ์ด ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์๋ ๋ณํ๊ฐ ์ผ์ด๋๊ณ ์์ต๋๋ค. FAIR(๋ฉํ AI ์ฐ๊ตฌ์), NYU(๋ด์๋ํ๊ต), MIT, ํ๋ฆฐ์คํด๋ํ๊ต์ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ์ด ๋ ผ๋ฌธ์์๋, ์์ ์ ์ด๊ณ ๊ฐ๋ ฅํ ํธ๋์คํฌ๋จธ๋ฅผ ํ์ต์ํค๊ธฐ ์ํด์ โ์ ๊ทํ(Normalization)โ๊ฐ ๋ฐ๋์ ํ์ํ ๊ฒ์ ์๋๋ค๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค - ์ ๊ทํ๋ ์ ๊ฒฝ๋ง์ด ์์ ์ ์ผ๋ก ํ์ต๋๋๋ก, ๊ฐ ์ธต์ ์ถ๋ ฅ ๊ฐ์ ์ผ์ ํ ๋ฒ์๋ก ์กฐ์ ํด์ฃผ๋ ๊ธฐ์ ์ด์ฃ
๋ฉํ(Meta)๋ Dynamic Tanh(DyT)๋ผ๋ ์๋ก์ด ๊ธฐ๋ฒ์ ์ ์ํ๋๋ฐ์. ์ด ํจ์๋ ์์ฃผ ๋จ์ํ๊ณ ๊ณ์ฐ ํจ์จ์ด ๋ฐ์ด๋๋ฉด์๋, ๊ธฐ์กด์ ์ ๊ทํ ๊ณ์ธต์ด ์ํํ๋ ๊ธฐ๋ฅ์ ํ๋ด๋ ๋๋ค.
DyT๋ ์ต์ํ ๊ธฐ์กด์ ์ ๊ทํ ๊ณ์ธต๋งํผ ์ ์๋ํ๊ณ , ์ด๋ค ๊ฒฝ์ฐ์๋ ๊ทธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ๋ ํฉ๋๋ค.
์ถ๊ฐ์ ์ธ ๊ณ์ฐ์ด ํ์์๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ ์์์ด ์ ์ฝ๋ฉ๋๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ ์ค์ ์ ๋ณต์กํ๊ฒ ์กฐ์ ํ ํ์๊ฐ ์ ์ด์ ธ์, ํ๋์ ๋ถ๋ด์ด ์ค์ด๋ญ๋๋ค.
์ด๋ฏธ์ง ์ฒ๋ฆฌ, ์์ฐ์ด ์ฒ๋ฆฌ, ์ง๋ ํ์ต(Supervised Learning), ์ฌ์ง์ด ์๊ธฐ์ง๋ํ์ต(Self-Supervised Learning)๊น์ง ๋ค์ํ ํ์ต ์ธํ ์์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํฉ๋๋ค.
์ฆ, DyT๋ ์ ๊ทํ ์์ด๋ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ๋ฐฉ์์ผ๋ก, ํธ๋์คํฌ๋จธ์ ํจ์จ์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ ๋์ฑ ๋์ฌ์ค ์ ์๋ ์ ๋งํ ๋์์ผ๋ก ๋ ์ค๋ฅด๊ณ ์์ต๋๋ค.

Image Credit: Transformers without Normalization ์ค๋ฆฌ์ง๋ ๋ ผ๋ฌธ
LLM์ ์ฐ๋ฆฌ๊ฐ ์ง๋ฌธํ์ ๋ ๋๋ตํ๋ ๋ด์ฉ๋ณด๋ค ์ค์ ๋ด๋ถ์ ์ผ๋ก ๋ ๋ง์ ์ฌ์ค์ ์๊ณ ์์๊น์? ํ ํฌ๋์จ(Technion)๊ณผ ๊ตฌ๊ธ ๋ฆฌ์์น ์ฐ๊ตฌ์ง์ ์ด โ์๋ค(Knowing)โ๋ ๊ฒ ๋ญ ์๋ฏธํ๋ ๊ฑด์ง ๋ช ํํ๊ฒ ์ ์ํ๊ณ , ์ค์ ๋ก ๊ทธ๋ฐ ํ์์ด ์กด์ฌํ๋์ง - ๋ด๋ถ์ ์ผ๋ก ๋ ๋ง์ ์ฌ์ค์ ์๊ณ ์๋์ง - ๋ฅผ ๋ถ์ํ์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, LLM์ ๋๋ตํ๋ ๊ฒ๋ณด๋ค ์ค์ ๋ก ์ต๋ 40% ๋ ๋ง์ ์ ๋ณด๋ฅผ ์๊ณ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ํ์ง๋ง ๊ทธ ์ ๋ณด๋ฅผ ์ ๋ฐ์ผ๋ก ๋์ด๋ด๋ ๊ฒ, ์ฆ ๋ชจ๋ธ์ด ์๊ณ ์๋ ๋ด์ฉ์ ์ค์ ๋ต๋ณ์ ๋ฐ์ํ๊ฒ ๋ง๋๋ ์ผ์ ์๊ฐ๋ณด๋ค ํจ์ฌ ์ด๋ ต๊ณ ์ฌ์ธํ ์์ ์ด๋ผ๋ ์ ๋ ํจ๊ป ๋๋ฌ๋ฌ์ต๋๋ค. ์ฌ๋ฏธ์๋ ๋ ผ๋ฌธ์ด์ฃ ?
๋๊ฐ ๋ญ๋๋ DeepSeek ๋ชจ๋ธ์ ์ฌํด AI ์์ญ์์ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ๋ชจ๋ธ ์ค ํ๋์ฃ . DeepSeek์ ๋ ผ๋ฌธ์, AI ๋ถ์ผ์ ์ต์ ํธ๋ ๋๋ฅผ ๋ฐ๋ผ์ก๊ณ ์ถ๋ค๋ฉด ํ ๋ฒ ๊ผญ ์ฝ์ด๋ด์ผ ํ ํ๋ ์๋ฃ๋ผ๊ณ ํ ์ ์๊ตฌ์. ํนํ ์ด ์ฐ๊ตฌ๋, ํ๋์จ์ด์ ๋ชจ๋ธ์ ํจ๊ป ์ค๊ณ(Co-design)ํด์ ์ด๋ํ LLM์ ์ผ๋ง๋ ํจ์จ์ ์ผ๋ก ํ์ฅํ ์ ์๋์ง๋ฅผ ๋ค๋ฃจ๊ณ ์๊ฑฐ๋ ์. ์ค์ํ ๋ณ๋ชฉ ์ง์ ์ธ ๋ฉ๋ชจ๋ฆฌ, ์ฐ์ฐ ํจ์จ, ๋คํธ์ํฌ ๋์ญํญ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ง์ค์ ์ผ๋ก ํ๊ตฌํฉ๋๋ค - GPU ๊ณต๊ธ์ด ๋ฌธ์ ์ธ ์ํใ ์ ๊ณ ์ก์ง์ฑ ์ผ๋ก ๊ณ ์ํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์๋ ์๊ฒ ์ง๋ง, โ์ ์ฝ ์กฐ๊ฑดโ์ด ์๋ ์ฌ๋์ ์์์์?
DeepSeek์์ ๋ชจ๋ธ์ ๋ง๋ค๋ฉด์ ๊ณ ์ํ ์๋ก์ด ๊ธฐ๋ฒ๋ค์ ๋ํด์๋ ์ด๋ฏธ ๋ณด์ ๋ถ๋ค๋ ๋ง๊ธด ํ๊ฒ ์ง๋ง, ์ด์จ๋ ๋ ผ๋ฌธ์์ ๋ค๋ฃจ๊ณ ์๋ ๊ฒ๋ค์ ์ด๋ฐ ๊ฒ๋ค์ ๋๋ค:
Multi-head Latent Attention (MLA)
๊ธฐ์กด์ ์ดํ ์ ๋ฐฉ์๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ธฐ ์ํด ๊ณ ์๋ ์๋ก์ด ์ดํ ์ ๊ตฌ์กฐ์ฃ . ๋ณต์กํ ์ ๋ ฅ๊ฐ์ ๋ ์์ถํ๋ฉด์ ์ฒ๋ฆฌํด์, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ํฌ๊ฒ ๋์ฌ์ค๋๋ค.Mixture of Experts (MoE)
๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์์ ์ฌ์ฉํ์ง ์๊ณ , ์ ๋ ฅ๊ฐ์ ๋ฐ๋ผ์ ์ผ๋ถ์ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ๋ง ์ ํ์ ์ผ๋ก ์ฌ์ฉํด์, ๊ณ์ฐ๋๊ณผ ํต์ ๋ ๊ฐ์ ๋ฐธ๋ฐ์ค๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค.FP8 Mixed-Precision Training
๊ธฐ์กด์ 16๋นํธ๋ณด๋ค ๋ ๋ฎ์ ์ ๋ฐ๋์ 8๋นํธ ๋ถ๋์์์ ์ฐ์ฐ(FP8)์ ์ผ๋ถ์ ์ ์ฉํด์, ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์์ ์ ์ฝํ๋ฉด์๋ ํ์ต ์ฑ๋ฅ์ ์ ์งํ ์ ์๊ฒ ํด ์ค๋ค.Multi-Plane Network Topology
๋ฐ์ดํฐ ์ผํฐ์์์ ๋คํธ์ํฌ ์ธํ๋ผ ๋ถํ๋ฅผ ์ค์ด๊ธฐ ์ํ ์๋ก์ด ์ฐ๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๊ณ ์ํด์, ๋๊ท๋ชจ LLM ํ๋ จ์ ํ์ํ ์ธํ๋ผ ์์์ ํจ์จ์ ๊ทน๋ํํฉ๋๋ค.
์ ๋ขฐ์ฑ(Trustworthiness). AI ๋ถ์ผ์์ ๋์์์ด ๋ ผ์๋๋ ํต์ฌ ์ฃผ์ ์ด๋ฉด์๋, ๊ฐ์ธ์ ์ผ๋ก๋ - ์์์ ์ด๋ ๋ฌด์์์ ์ด๋ - ํ์ฅ์์๋ ์์ฃผ โ๊ฐ๊ณผ๋๊ณ ๋ง๋โ ๋ถ์ผ๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์์ฑํ AI ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ โ๋ค์ด๋๋ฏน ๋ฒค์น๋งํน ํ๋ซํผโ์ ์ ์ํ๋๋ฐ์. ๊ธฐ์กด์ฒ๋ผ ๊ณ ์ ๋ ํ ์คํธ๋ง ๊ฐ์ง๊ณ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฐ๋ ์ ๋์ด์, ์ธ์ด ๋ชจ๋ธ(LLM), ๋น์ -์ธ์ด ๋ชจ๋ธ, ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ ๋ฑ ๋ค์ํ ํํ์ ์์ฑํ AI๋ฅผ ๋์์ผ๋ก, ์ง์ค์ฑ(Truthfulness), ์์ ์ฑ(Safety), ๊ณต์ ์ฑ(Fairness), ๊ฒฌ๊ณ ์ฑ(Robustness) ๊ฐ์ ์ฌ๋ฌ ํ๊ฐ ํญ๋ชฉ์ ๋ค์ด๋๋ฏนํ๊ฒ ๋ค๋ฃน๋๋ค.
ํนํ ์ด ํ๋ซํผ์ ๊ธฐ์ ์ ์ค๊ณ ๋ฐฉํฅ๊ณผ ๋ด์ฉ์ ํ์ฌ๋ ์ ์ธ๊ณ์ ์ผ๋ก ๋ ผ์๋๋ ๊ท์ ๋ํฅ, ๊ทธ๋ฆฌ๊ณ ์ค๋ฆฌ ๊ธฐ์ค์ ์ ๋ง์ถ๋๋ฐ(์ ๋ ฌ; Alignment) ์ค์ ์ ๋๊ณ ์์ต๋๋ค. ๋จ์ํ AI์ โ์ฑ๋ฅโ๋ง ๋ณด๋ ๊ฒ ์๋๋ผ, ์ค์ ์ ์ฑ ๊ณผ ์ฌํ์ ์๊ตฌ์ ๋ถํฉํ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ์ค๊ณํ๊ณ ํ๊ฐํ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค๋ ์ ์์ ์ด ๋ ผ๋ฌธ์ ์๋ฏธ๋ ํฝ๋๋ค. ์ด ์ฐ๊ตฌ๋ AI ๊ธฐ์ ์ ๊ฐ๋ฐ๊ณผ ์ค์ ๊ท์ ใป์ค๋ฆฌ์ ์ค์ฒ ์ฌ์ด์ ๊ฐญ(Gap)์ ๋ฉ์ฐ๊ณ ์ ํ๋ ์ค์ํ ์๋๋ก ๋ณผ ์ ์์ต๋๋ค.
์ด๋ ๊ฒ, ์ฌํด ์๋ฐ๊ธฐ์ ์ฃผ๋ชฉํ ๋งํ AI ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ณด์ฌ์ฃผ๋ 8๊ฐ์ ๋ ผ๋ฌธ์ ํ ๋ฒ ํจ๊ป ๋ฆฌ๋ง์ธ๋ํด ๋ดค๋๋ฐ์.
2025๋ ์ด๋ฐ์ AI ์ฐ๊ตฌ๋ ๋ชจ๋ธ์ โ์ฌ๊ณ ๋ ฅโ๊ณผ โ์ ๋ขฐ์ฑโ์ ์ค์ ๋ก ๊ตฌํํ๊ณ ํ์ฅํ๋ ๋ฐฉํฅ์ผ๋ก ๋น ๋ฅด๊ฒ ์์ง์ด๊ณ ์์ต๋๋ค. LLM๊ณผ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋์์ผ๋ก ํด์, ๋จ์ํ๊ฒ ์ ๋ต์ ์์ธกํ๋ ๊ฑธ ๋์ด์ ์ถ๋ก ๊ณผ์ ์ ์ ํ์ฑ, ๋ค์ํ ๋๋ฉ์ธ ๊ฐ์ ์ผ๋ฐํ ๋ฅ๋ ฅ, ์ ๊ตํ ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ์ต์ ํ, ๊ทธ๋ฆฌ๊ณ ์ฌํ์ ์ฑ ์ ๊ธฐ์ค์ ์ถฉ์กฑํ๋ ํ๊ฐ์ฒด๊ณ๊น์ง ํฌํจํ๋ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ๊ฒ ์งํ ์ค์ ๋๋ค. ํนํ ๊ฐํํ์ต(RL; Reinforcement Learning), ํ๋ก์ธ์ค ๊ธฐ๋ฐ์ ๋ณด์, ๋ค์ด๋๋ฏน ๋ฒค์น๋งํฌ, ํ๋์จ์ด-๋ชจ๋ธ ๊ณต๋ ์ค๊ณ(Co-design) ๊ฐ์ ์ ๊ทผ์, AI๊ฐ ๋ ๊น์ด ์ฌ๊ณ ํ๊ณ , ๋ ์ ์๋ ฅ ์๊ฒ, ๊ทธ๋ฆฌ๊ณ ๋ ์ ๋ขฐ๋ฐ์ ์ ์๋๋ก ๋ง๋๋ ํต์ฌ ๊ธฐ์ ์ถ์ผ๋ก ๋ถ์ํ๊ณ ์๋ค๊ณ ์ ๋ฆฌํด ๋ด ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply