- Turing Post Korea
- Posts
- ๐FOD#102: แแ ฎแ แ ฉแซ (Reasoning) แแ ฉแแ ฆแฏแแ ณแซ แแ ตแแ กแแ ตแแ ฆ แแ กแญแแ ต แแ ขแผแแ กแจแแ กแแ ก?
๐FOD#102: แแ ฎแ แ ฉแซ (Reasoning) แแ ฉแแ ฆแฏแแ ณแซ แแ ตแแ กแแ ตแแ ฆ แแ กแญแแ ต แแ ขแผแแ กแจแแ กแแ ก?
+ แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
AI ์์ญ์์ ๋ค์ ํ ๋ฒ โํจ์จ์ฑโ์ ํฅํ ๊ฒฝ์์ด ์งํ๋๊ณ ์์ต๋๋ค - ๋ฐ๋ก โ์ถ๋ก (Reasoning)โ์ ํจ์จ์ฑ์ธ๋ฐ์.
โ์ถ๋ก (Reasoning)โ์ ์ด์ ๋ช ์ค๊ณตํ ํ๋์ ์ธ LLM์ด ๊ฐ์ ธ์ผ ํ ํต์ฌ์ ์ธ ๋ฅ๋ ฅ์ด ๋์ฃ . ๊ทธ๋ฐ๋ฐ, ์ด๋ฐ โ์ถ๋ก โ ๋ชจ๋ธ๋ค์ด, ๊ณผ์ฐ โ์ธ์ ์๊ฐ์ ๋ฉ์ถฐ์ผ ํ๋์งโ ๋ฐฐ์ธ ์๋ ์์๊น์?

Overthinking ์ด์๋ฅผ ๋ณด์ฌ์ฃผ๋ ์๋ฃ. ์ผ์ชฝ ๊ทธ๋ฆผ์์๋, ์ค๋ฅธ์ชฝ์ ์์นํ ๋นจ๊ฐ ์์ ์ถ๋ก ํ ๋ชจ๋ธ๋ค์ด ํจ์ฌ ๋ ๋ง์ ํ ํฐ์ ์ฌ์ฉํฉ๋๋ค. Image Credit: Tencent AI Lab
์๊ฐํ๋, ์ฆ ์ถ๋ก ํ๋ ๋ชจ๋ธ๋ค์ด ์ข ์ข - ์๋นํ - ์ง๋์น๊ฒ ๊ธธ๊ฒ, ๋๋ ์ง๋์น๊ฒ ๋ง์ด ์๊ฐ์ ํ๋ โOverthinkingโ ๋ฌธ์ ๋ ์ด๋ฏธ ์ ์๋ ค์ ธ ์์ฃ . ๋, ๋จ์ํ โOverthinkingโํ๋ ๊ฒ์ ๋์ด์, ํนํ ์์ด์ ํธ ํ๊ฒฝ์์๋ผ๋ฉด ๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ์ด โ์ธ๋ถ ํ๊ฒฝํ๊ณ ์ํธ ์์ฉ์ ํ๋ฉด์ ๋ต์ ์ฐพ์๋๊ฐ๊ธฐ๋ณด๋ค๋ ๋ด๋ถ์ ์ธ ์๋ฎฌ๋ ์ด์ ์ ์ฐ์ ํด์ ๊ณ์ ๋๋ฆฌ๋๋ผ ํ๋์ ํ์ง ์๋ ํจํด์ ๋ณด์ธ๋คโ๋ ๊ด์ฐฐ๋ ์๊ณ , ์ด๊ฑธ โReasoning-Action Dilemmaโ๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํฉ๋๋ค - ์ฆ, ์ค์ ์์คํ ์ ๋ฐ์์ ๋ด ๊ฐ๋ฉด์ ์ ์ํ๋ฉด ๋ ์ข์ ํ ๋ฐ, ์์ธก๋ ํ๋์ ๋ํด์ ๋ณต์กํ ์ฐ์ ์ฌ์ฌ์ ๊ตฌ์ฑํ๋๋ฐ ๋ ๋ง์ ์์๊ณผ ์๊ฐ์ ํ ๋นํ๋๋ผ ํ๋ ๊ฑฐ์ฃ .
์ด์ ๋ํ ๋๋ต์ค ํ๋๋ก, ์ง๋ ์ฃผ์ Thinkless, AdaptThink, ASRR, Self-Braking Tuning ๋ฑ ๋ค์ํ ๋ ผ๋ฌธ๋ค์ด ์์์ ธ ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ๋ค์ ๋ชจ๋ โ๊ฐ์ ๊ณ ๋ฏผ์ ์ง์ โ์ ์ด์ผ๊ธฐํ๊ณ ์๋๋ฐ์. ๋ฐ๋ก:
์ถ๋ก (Reasonng)์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ฅ๋ ฅ์ด๋ค
๋๋ถ๋ถ์ ์์ ์๋ ์ฌ์ค์ ๋ณต์กํ๊ฒ 500๊ฐ ์ ๋๊น์ง ํ ํฐ์ ์ฌ์ฉํด์ ์๊ฐ์ ํ (CoT๋ฅผ ํ )ํ์๊ฐ ์๋ค
๋ ๊ฒ๋๋ค.
์์์ ์ด์ผ๊ธฐํ ๋ ผ๋ฌธ์ ํ๋ ์์๋ค์ ์ถ๋ก ์ ๊น์ด๋ฅผ ์ ํํ๊ฑฐ๋ ์ค๋ณต๋๋ ๋จ๊ณ๋ฅผ ์ต์ ํด์ ๋ชจ๋ธ์ด ์ค์ค๋ก ์กฐ์ ์ ํ๋๋ก ๊ฐ๋ฅด์น๋๋ฐ, ์ ๊ทผ ๋ฐฉ์์ ๋ค์ํฉ๋๋ค. Thinkless๋ AdaptThink๋ โ์ ์ด ํ ํฐโ๊ณผ โ๊ฐํํ์ตโ์ ํจ๊ป ํ์ฉํ๋ ๋ฐฉํฅ์ด๊ณ , ASRR์ด๋ SBT (Self-Braking Tuning)๋ ๋ด๋ถ์ ์ธ ํผ๋๋ฐฑ ๋ฃจํ๋ก ๊ณผ๋ํ ์ฌ๊ณ ๋ฅผ ํ์ง๋ ์๋์ง ํ๋จํ๊ณ ํต์ ํ๋ ๋ฐฉ์์ด์์. ํ์ง๋ง ๋ชฉํ๋ ๊ฐ์ฃ : ์ ํ๋๋ฅผ ์ ์งํ๊ฑฐ๋ ๋์ด๋ฉด์, ์ถ๋ก ์ โํจ์จ์ฑโ์ ๊ทน๋ํํ๋ ๊ฒ๋๋ค.
๊ทธ๋ฐ๋ฐ, ๋ชจ๋๊ฐ โํจ์จ์ฑโ์ ๊ธฐ์น๋ก ๋น์ทํ ์ฑ๊ณผ๋ฅผ ์ถ๊ตฌํ๊ฒ ๋๋ฉด์, ์ด๋ฐ ๋ค์ํ ๋ ผ๋ฌธ๋ค์ด ๋๊ฐ์ด โ์ ์ง์ฃผ์โ์ ํ๊ณ๋ ๋๋ฌ๋ด๊ฒ ๋๋ ๊ฑฐ ์๋๊ฐ ํ๋ ์๊ฐ๋ ๋ญ๋๋ค.

MIT ๋ฏธ๋์ด๋ฉ์ ๋์ฝ๋ผ์ค ๋ค๊ทธ๋กํฐํ ๊ฐ ํ ๋ง. Image Credit: QuoteFancy
์ ๋ฐ๋ฐ๋ฅ์ ํค์ง์ด ๋ณด๋ฉด, 4๊ฐ์ ๋ ผ๋ฌธ ๋ชจ๋ ๊ฐ์ ๋ชฉํ (โAI๊ฐ ๋ถํ์ํ๊ฒ ์ค๋ ์๊ฐํ์ง ์๊ฒ ํ์โ), ๋น์ทํ ๋ฐฉ๋ฒ (ํ ํฐ ์ ํ, ์ ์ํ ์ ์ด, ๋ค์ด๋๋ฏนํ ์ฌ๊ณ )์ ์ทจํ๊ณ ์๊ณ ๊ทธ์ ๊ธฐ์ ์ ๋ํ ์ผ๋ง ์ฝ๊ฐ์ฉ ๋ค๋ฅผ ๋ฟ์ด๋๊น์. ๋ง์น, ๊ตํต ์ฒด์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋๋ก๋ฅผ ์กฐ๊ธ์ฉ ๋ ๋ํ๊ฑฐ๋ ์ ํธ๋ฑ ํ์ด๋ฐ์ ์กฐ์ ํ๋ ๊ฒ ๊ฐ์ ํด๊ฒฐ์ฑ ์ ๋ด๋ ๊ฒ ๊ฐ์ ๋๋์ด์ฃ .
ํ์ง๋ง ๊ฒฐ๊ตญ์, โ๋ ํฐโ, โ๋ ๊ทผ๋ณธ์ ์ธโ ์ง๋ฌธ์ ๋์ ธ์ผ ํ ๋๊ฐ ๊ณง ์ฌ ๊ฒ๋๋ค - ๋ฐ๋ก, โ๋ชจ๋ธ์ ์ ์ด๋ฐ ๋ฐฉ์์ผ๋ก ์๊ฐํ๋ ๊ฑธ๊นโ ํ๋ ์ง๋ฌธ์ด์ฃ . ํจ์จ์ฑ ๊ด์ ์์ โ๋ชจ๋ธ์ด ๋ช ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ์ ์๊ฐํด์ผ ํ ๊นโ๊ฐ ์๋๋ผ โ์ ๊ทธ๋ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ์ ์๊ฐํ๊ฒ ๋๋ ๊ฑธ๊นโ ํ๋ ์ง๋ฌธ ๋ง์ ๋๋ค.
์์ ์ด์ผ๊ธฐํ 4๊ฐ์ ๋ ผ๋ฌธ์ ๋น๋กฏํ ์ถ๋ก ์ โํจ์จ์ฑโ์ ํฅํ ์ค๊ฐ ๋จ๊ณ๋ค์, โ๊ถ๊ทน์ ์ผ๋ก AI๊ฐ ์ค์ค๋ก์ ์ฌ๊ณ ๊ณผ์ ์ ๊ด์ฐฐํ๊ณ ์กฐ์ ํ ์ ์๋โ, ์ฆ โ์๊ธฐ ์ฑ์ฐฐ์ ํ ์ ์๋โ ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ์ง๋จ์ ์ธ ํ๋ฆ์ ์์์ ์๋ฏธํ๋ ๊ฑธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค์.
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
JEPA (Joint Embedding Predictive Architecture)๋ ํ์ฌ Meta AI์ ์๋ ์ ๋ฅด์ฟค์ด ์๊ฐํ AI ๋ชจ๋ธ์ ๊ตฌ์ถ ๊ธฐ๋ฒ์ด์ฃ .
์ ๋ฅด์ฟค์ด, โ์์ฑํ ๋ชจ๋ธ์ ๊ถ๊ทน์ ์ธ AI์ ๋ชจ๋ธ์ด ์๋๋คโ๋ผ๋ ๊ด์ ์ ๊ฐ์ง๊ณ ๊ณ์ ๊ฑด ๋ง์ด ์๊ณ ๊ณ์ค ํ ๊ณ , ๊ทธ๋ฐ ๊ด์ ์์ โ๋ค์ ํ ํฐ์ด๋ ํฝ์ ์ ์์ธกํ๋๊ฒ ์๋๋ผ, ์ ๋ ฅ๊ฐ์ ๋๋ฝ๋ ๋ถ๋ถ์ด๋ ์ ๋ ฅ๊ฐ์ด ๋ฏธ๋์ ๊ฐ์ง๊ฒ ๋ ์ผ๋ถ๋ถ์ ํํ (Representation)์ ์์ธกโํ๋ ์ ๊ทผ์ผ๋ก ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ์ฐจ๋ณํํฉ๋๋ค.
๊ถ๊ทน์ ์ผ๋ก๋ ๋จ์ํ ์ ์ฐจ์์ โํจํด ๋งค์นญโ์ ๋์ด์ โ๊ฐ๋ ์ ์ดํดโ๋ฅผ ํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ธ ์ด JEPA ์ํคํ ์ฒ๋ โ์ถ์์ ์ธ ์ถ๋ก โ์ ํ ์ ์๋ AI๋ฅผ ํฅํด ๋์๊ฐ๊ณ ์์ต๋๋ค.
์ค๋์, JEPA๋ก๋ถํฐ ํ์๋์ด ๋์จ 12๊ฐ์ง ์ ํ์ ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค:
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
์๋ง์กด์ด ์ฌ๋ ๊ด๋ฆฌ์ ๋์ ์ ์ค์บ๋, ์นด๋ฉ๋ผ, ์์ฒด์ธ์ ๊ธฐ์ ๋ฑ์ ํฌํจํ ํตํฉ์ ์ธ AI ์์คํ ์ ํ์ฉํด์ ์์ ์์ ์์ฐ์ฑ์ ์ค์๊ฐ์ผ๋ก ๋ชจ๋ํฐ๋งํ๊ณ ๋นํ๋ ์๊ฐ์ ๊ธฐ๋กํด์ ๊ฒฝ๊ณ ยทํด๊ณ ๋ฅผ ์๋ํํ๋ค๊ณ ํ๋ค์. ์ด๋ฐ ๊ฐ์ ๋๊ตฌ๋ ๋ ธ๋์์ ํ๋์ ํต์ ํ ๋ฟ ์๋๋ผ, ๊ณตํฌ, ๊ณ ๋ฆฝ๊ฐ์ ์กฐ์ฑํด์ ์์ ์๋ค ๊ฐ์ ์ ๋ขฐ, ์ฐ๋ ํ์ฑ์ ๋ฐฉํดํ๋ค๊ณ ํฉ๋๋ค.
๋, ์๋ง์กด์ ๋ฐ ๋ ธ์กฐ์ ๋ฉ์์ง๋ฅผ ๋ ธ๋์๋ค์๊ฒ ์ ์กํด์ ์กฐ์งํ ์๋๋ฅผ ๋ฐฉํดํ๊ธฐ๋ ํ๊ณ , ์ด ๊ณผ์ ์์ Amazon Q ๊ฐ์ ์์ธก ์์คํ ๋ ํ์ฉํด์ ๋ฐ๋ ธ์กฐ ์ ์ , ์ํ ๋ถ๋ฅ, ๊ฒฉ๋ฆฌ ์กฐ์น๊น์ง๋ ํ๋ค๊ณ ํฉ๋๋ค.
์๋ง์กด, ์๊ณ ๋ฆฌ์ฆ์ ์ธ ํต์ ์ ๋ต์ผ๋ก ๊ทผ๋ก์ ๊ฐ์ ์ฐ๋๋ฅผ ๋ฐฉํดํ๊ณ ์ฌ์ค์ ๋ ธ๋์ด๋์ ๋ฌด๋ ฅํํ๊ณ ์๋ค๊ณ ๋ด์ผ ํ ๊ฒ ๊ฐ์ต๋๋ค.
AI, ๋ด์ค๊ฐ ์๋น๋๋ ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ณํ์ํฌ ์ ์์ฃ . ์ ํต์ ์ธ ๋ด์ค ๋ฏธ๋์ด์ ๊ฐ์น ์ฌ์ฌ์ ์์ฐ, ์ ํต, ์๋น ์ด๋ ๊ฒ ๊ตฌ์ฑ๋๋๋ฐ, ๊ทธ ์ค์ โ์ ํตโ์ ์ด๋ฏธ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ํฌ๊ฒ ๋ณํํ์ต๋๋ค. ๊ทธ๋ฐ๋ฐ โ์๋นโ์ ์ธก๋ฉด์ ์ฌ์ ํ ๋ณํ๊ฐ ๋ณ๋ก ์๋ค๊ณ ๋ด๋ ๊ณผ์ธ์ด ์๋๋ฐ์.
์ฌ๊ธฐ์ โAI Intimacy Dividendโ๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํฉ๋๋ค - ์ฌ๋๋ค์ด AI์ ๋ํํ๋ฉด์ ๋ ๊ฐ์ธ์ ์ด๊ณ ๋ ๋ ์ง์ ์ฑ์๊ฒ ์ ๋ณด๋ฅผ ์๋นํ๊ณ , ๋ด์ค๋ ์ ๋ณด๋ฅผ ๋ ๊น์ด ์ดํดํ๋ ค๊ณ ํ๋ ๊ฒฝํฅ์ ๋ปํด์. ์ข ๋ ๊น์ด ๊ณ ๋ฏผํด ๋ด์ผ๊ฒ ์ง๋ง, ์ด๋ฐ ๋ฐฉํฅ์ ๋ณํ๋ ๋ด์ค๋ฅผ ๋ ๋ฅ๋์ ์ผ๋ก ์์ฉํ๋ฉด์ ์๋ฏธ๋ฅผ ํ์ฑํ๊ฒ๋ ํ ์ ์๋ ๊ทธ๋ฐ ์ ์ฌ๋ ฅ์ ์ง๋๊ณ ์์ต๋๋ค. ๊ทธ๋ฐ ๋งํผ, ๊ธฐ์ ์ , ์ค๋ฆฌ์ , ์ฌํ์ ์ฑ๋ฆฐ์ง๊ฐ ์๊ฒ ์ฃ ? ์ด์ ๋ํด์๋ ์ ์คํ ์ ๊ทผ์ด ํ์ํ ๊ฒ ๊ฐ์ต๋๋ค.
OpenAI has an unsubtle communications strategy by Dave Karpf
์คํAI - ์ด ์๋์ AI ์คํํธ์ ์ด๋ผ๊ณ ํด๋ ๊ณผ์ธ์ด ์๋ ์ด ํ์ฌ. ์ด ๊ธ์์๋ ์คํAI๊ฐ โ์ง์ ํ ๊ธฐ์ ํ์ โ๋ณด๋ค๋ โ๋ฏธ๋ ์งํฅ์ฑโ, โ๋น์ โ ๋ฑ์ ๊ฐ์กฐํ๋ฉด์ ๊ธ์ต ์์ฅ์์์ ๊ฐ์น๋ฅผ ๋์ด๊ณ , ํฌ์์๋ค์๊ฒ ์ดํํ๋ ค๋ ์ ๋ต์ ์ทจํ๊ณ ์๋ค๊ณ ์ง์ ํ๊ณ ์์ต๋๋ค.
์ค์ ์ ๊ธฐ์ ์ ์ง๋ณด๋ณด๋ค๋, ๋ง์ผํ ๊ณผ ์ด๋ฏธ์ง ๊ด๋ฆฌ์ ์ค์ ์ ๋๋ ์ปค๋ฎค๋์ผ์ด์ ์ ๋ต์ด๋ผ๋ ์ด์ผ๊ธฐ์ผ ํ ๋ฐ์. ๊ธ์์, ํ๋จ์ ์ฌ๋ฌ๋ถ๊ป ํ ๋ฒ ๋งก๊ฒจ๋ณด๊ฒ ์ต๋๋ค.
How Does Claude 4 Think? by Dwarkesh Patel with Sholto Douglas & Trenton Bricken
Sholto Douglas์ Trenton Bricken์ด ์ฐธ์ฌํ Dwarkesh์ ํ์บ์คํธ ์ํผ์๋์ ๋๋ค.
์ด๋ฒ์ ๋ฐํ๋ ์ค์ฐ๋กํฝ์ Claude 4์ ๋ํด์ ์ด์ผ๊ธฐ๋ฅผ ๋๋๋๋ฐ, ์ฑ๊ณต์ ์ธ ๊ฐํํ์ต์ ์ ์ฉ/ํ์ฅ์ผ๋ก ์ํ๊ณผ ํ๋ก๊ทธ๋๋ฐ ๋ถ์ผ์์ ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ , ๋ชจ๋ธ์ ์ฌ๊ณ ๋ฐ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ํ ์ถ์ ๋ฐ ์ญ์ค๊ณ ๊ณผ์ , ์์ ์์จ ์์ด์ ํธ ๊ฐ๋ฐ ๊ฒฝ๊ณผ์ ํ์ฌ ์์ค, AGI ๋๋์ ๋๋นํ ๊ตญ๊ฐ, ์ฌํ์ ์ค๋น ์ฌํญ ๋ฑ์ ๋ํด์ ์ด์ผ๊ธฐํฉ๋๋ค.
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
๋ง์ดํฌ๋ก์ํํธ ๋น๋ 2025, ๊ตฌ๊ธ I/O 2025 ์์์ ์ ์ธํ๋ฉด, ๊ธ์ฃผ์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ ๋ ์์์ ์๋ฌด๋๋ ๊ตฌ๊ธ์ AlphaEvolve, ๊ทธ๋ฆฌ๊ณ ์คํAI์ Codex์๋
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
๐๐ BAGEL์ ๋ค์ํ๊ฒ ๊ต์ฐจ ๋ฐฐ์น๋ Multimodal ๋ฐ์ดํฐ๋ก ํ๋ จํ ์คํ์์ค Foundation ๋ชจ๋ธ๋ก, ์ถ๋ก , ์ดํด ๋ฑ์ ์์ญ์์ ๋๊ธ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ ์ค์ฐ๋กํฝ์ Claude Opus 4 & Sonnet 4๋ ๋ณ๋ ฌ์ ์ผ๋ก ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ค๊ฑฐ๋ ๋ก์ปฌ ํ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์งํ๊ณ , SWE-Bench ๋ฐ ์์ด์ ํฑ ์ํฌํ๋ก์ฐ๋ฅผ ๋๋ฆด ๋ ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ Extended Thinking ๋ชจ๋์ Hybrid ๋ชจ๋๋ฅผ ๋์ ํ ์๋ก์ด ๋ชจ๋ธ์ ๋๋ค. โ [๋ ๋ณด๊ธฐ]
๐ ์ค์ฐ๋กํฝ์ Claude Code๊ฐ IDE ํตํฉ ๊ธฐ๋ฅ, ๋ฐฑ๊ทธ๋ผ์ด๋ GitHub ์์ ๊ธฐ๋ฅ, ์ปค์คํ ์์ด์ ํธ๋ฅผ ์ง์ํ๋ SDK์ ํจ๊ป ์ ์์ผ๋ก ์ถ์๋์์ต๋๋ค. ๊ธฐ์กด Claude์ ๋ฅ๋ ฅ์ ์ค๋ฌด ๊ฐ๋ฐ์ ์ฌ์ฉํ ์ ์๋ ๋๊ตฌ ๋ ๋ฒจ๋ก ํ์ฅํฉ๋๋ค. โ [๋ ๋ณด๊ธฐ]
๐ ๊ตฌ๊ธ์ Gemma 3n์ 4B ๋ฉ๋ชจ๋ฆฌ Footprint๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , Latency-Quality ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ํ ๋ค์ด๋๋ฏน Submodel์ ์์ฑ, ๋ก์ปฌ ์ถ๋ก ์ฉ์ผ๋ก ์ค๊ณํ Mobile-First์ Multimodal ๋ชจ๋ธ์ ๋๋ค. โ [๋ ๋ณด๊ธฐ]
๋ง์ดํฌ๋ก์ํํธ ๋ฆฌ์์น์ ์นญํ๋๊ฐ ํจ๊ป ์ฐ๊ตฌํ Reward Reasoning Model์ ์ ์ํ Test-Time Computing๊ณผ ํจ๊ป CoT Reward Modeling์ ์ ์, ์์ฒด์ ์ผ๋ก ์ถ๋ก ๊ณผ์ ์ ์งํ์์ผ ๋ Alignment๊ฐ ์ ๋ง๋๋ก ํด ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ R3: Robust Rubric-Agnostic Reward Models๋ ๊ณ ์ ๋ Rubric ์์ด ํด์ ๊ฐ๋ฅํ๊ณ ์ผ๋ฐํํ ์ ์๋ Reward Modeling์ ๋์ , Alignment์ ์ ์ฐ์ฑ๊ณผ ํฌ๋ช ์ฑ์ ๊ฐ์ ํด ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Neurosymbolic Diffusion Models๋ Discrete Diffusion์ ํ์ฉ, Dependency๋ฅผ ๋ชจ๋ธ๋งํด์ ์ฌ๋ณผ๋ฆญ ์ถ๋ก ์ ์ ํ๋๋ฅผ ํฅ์์ํค๊ณ , ๋ณด์ ๊ณผ ์ผ๋ฐํ๊ฐ ๋ ์ ๋๊ฒ๋ ํด ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Datadog์ Toto๋ Observability ์งํ๋ฅผ ์ฌ์ฉํ ์๊ณ์ด ์์ธก์ ํ๊ธฐ ์ํด ๋ง๋ค์ด์ง, 1์ต 5์ฒ 1๋ฐฑ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง Decoder ์ ์ฉ Foundation ๋ชจ๋ธ์ ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ถ๋ก (Reasoning) ํจ์จ์ฑ ๊ฐ์ ๋ฐ ์ต์ ํ
๐ Soft Thinking์ ์ฐ์ ๊ณต๊ฐ์์ ํ๋ จ์ด ์์ด๋ Soft Token์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ถ์์ ์ธ ์ถ๋ก ์ ๋ชจ๋ฐฉํ๊ณ LLM์ ์ ํ๋์ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Reasoning Path Compression์ ์ฌํ๋ จ์ ํ์ง ์๊ณ ์๋ฏธ๋ก ์ ์ธ ์ถ๋ก ์ Trace๋ฅผ ์์ถ, ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์๋ ์ถ๋ก ์ฒ๋ฆฌ๋์ ํฅ์์์ผ์ฃผ๋ ๊ธฐ๋ฒ์ ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ General-Reasoner๋ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ์ ๊ณผ ์์ฑ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ต๋ณ์ ๊ฒ์ฆํด์, ๋ค์ํ ๋๋ฉ์ธ์์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ์ฑ๋ฅ์ ๊ฐํํด ์ค๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ํฉ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๋ฉํฐ๋ชจ๋ฌ ๋ฐ ๋ค์ํ ๋๊ตฌ๋ฅผ ํ์ฉํ ์ถ๋ก (Reasoning)
๐ Learning to Reason via Mixture-of-Thought๋ ์์ฐ์ด, ์ฝ๋, ๊ธฐํธ ๋ ผ๋ฆฌ๋ฅผ ๊ฒฐํฉํด์ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ฑ๋ฅ์ ๊ทน์ ์ผ๋ก ๋์ฌ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Tool-Star๋ ๊ฐํํ์ต๊ณผ ๋ฐ์ดํฐ ํฉ์ฑ ๊ธฐ๋ฒ์ ํ์ฉํด์ Multi-tool ์ถ๋ก ์์คํ ์ ๊ตฌ์ถํฉ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
Pixel Reasoner๋ ๊ฐ์ฒด๋ก ๋ณํํ์ง ์๊ณ , ํฝ์ ๋จ์์์ ์ค๊ณผ ํ๋ ์ ์ ํ ๊ฐ์ ์์ ์ ํตํด์ ํฝ์ ๊ณต๊ฐ์์ ์๊ฐ์ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํด ์ค๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฌํํ๋ จ ํต์ ๋ฐ ํ๋ ์ ๋ต
Two Experts Are All You Need (RICE)๋ MoE ์ํคํ ์ฒ์์ ๋ ํจ์จ์ ์ผ๋ก ์ถ๋ก ์์ ์ ํ ์ ์๋ ํต์ฌ์ ์ธ Cognitive Experts๋ฅผ ์๋ณ, ํ์ฉํฉ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ Be Careful When Fine-tuning์ ํ์ธํ๋ ๋ฐ์ดํฐ๋ฅผ ๋๋๋นํ ์ ์๋ ๋ฐฑ๋์ด ์ทจ์ฝ์ ์ ๋ฐํ๋ ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๐ QwenLong-L1์ SFT์ RL์ ๊ฒฐํฉ, ์ปค๋ฆฌํ๋ผ ๊ธฐ๋ฐ์ ์ค์ผ์ผ๋ง์ ํ์ฉํด์ Long-Context ์ง์ ์ถ๋ก ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์์จํ ์์ด์ ํธ ๋ฐ ๊ณผํ์ ์ฐ๊ตฌ๊ณผ์ ์๋ํ
NovelSeek์ ์์จํ ๊ณผํ ์ฐ๊ตฌ๋ฅผ ์ํ ํ์ํ (Closed-Loop) ๋ฉํฐ ์์ด์ ํธ ์์คํ ์ ๊ตฌ์ถํฉ๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
Efficient Agent Training for Computer Use๋ ์ฌ๋์ด ๋ ์ด๋ธ๋งํ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํฉ์ฑ ์์ฑ์ผ๋ก ๊ฐํํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์, Computer Use ์์ด์ ํธ๋ฅผ ํ๋ จ์ํต๋๋ค. โ [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply