- Turing Post Korea
- Posts
- ๐FOD#89: แแ ฅแผแแ ณแท แแ กแแ กแแ ฉแซ AIแแ ด แแ ตแ แ ข: AI แแ ฆแซแแ ตแแ ตแแ ฅ, แแ กแแ ก แแ ตแซแแ ช แแ ฉแแ ฆแฏ, แแ ฒแแ ฅแแ ฉแแ ตแแ ณ แ แ ฉแแ ฉแบ
๐FOD#89: แแ ฅแผแแ ณแท แแ กแแ กแแ ฉแซ AIแแ ด แแ ตแ แ ข: AI แแ ฆแซแแ ตแแ ตแแ ฅ, แแ กแแ ก แแ ตแซแแ ช แแ ฉแแ ฆแฏ, แแ ฒแแ ฅแแ ฉแแ ตแแ ณ แ แ ฉแแ ฉแบ
แแ งแซแแ ตแฏแ แ ฉ แแ ณแฏแแ ฅแแ ฉแแ ฉ แแ ตแปแแ ณแซ แแ ฌแแ ตแซแแ ด AI แแ ตแแ ฎแฏแแ ณแฏ + แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
์ง๋ ์ฃผ, ํ๋ง ํฌ์คํธ์ Ksenia๊ฐ ๋ด์์์ ์ด๋ฆฐ AI Engineer Summit์ โAgent Engineeringโ ํธ๋์์ ๊ณต๋ ์งํ์ ๋งก์์ต๋๋ค. ์ด Summit์์ ํ์ธํ ์ฌ๋ฏธ์๋ ์์๋ค๋ ๊ณง ๊ณต์ ํด ๋๋ฆฌ๋๋ก ํ ํ ๋ฐ์.
Ksenia๊ฐ ๊ฐ์ฅ ๋๋๋ ๊ฑด, 2022๋ ๋ง ์ฑGPT๊ฐ ์์ฑํ AI ์๋๋ฅผ ์ด์ด์ ํ ์ดํ, ์ ๋ง ์์ฒญ๋ ๋ณํ๊ฐ ์์๊ตฌ๋ ๋ค์ ํ ๋ฒ ๋๊ผ๋ ๊ฑฐ๋ผ๊ณ ํด์.
์ฌ์ค, โ๋จธ์ ๋ฌ๋โ ์์ฒด๋ ๊ทธ ์ค์ฉ์ฑ์ ์ฆ๋ช ํ์ง ๊ฝค ๋์๋ค๊ณ ๋ด์ผ ํ๊ณ , ๊ธ๋ก๋ฒ์ ํฐ ๊ธฐ์ ๋ค์๋ ๋ง์ ๊ฒฝ์ฐ์ ๋จธ์ ๋ฌ๋ ํ์ด ์์์ต๋๋ค. ๊ทธ๋ ์ง๋ง 2023๋ ์ด๋ถํฐ๋ ํจ์ฌ ๋ ๋ง์ ๊ธฐ์ ๋ค์ AI ๋ด๋น ํ์ด ์๊ธฐ๊ธฐ ์์ํ๊ณ , ๋ง์ ํ์ฌ๋ค์ด ๋ ํ๋ฅญํ AI ์ธ์ฌ๋ค์ ํ๋ณดํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ ๋ชจ์ต์ Summit์์ ํ์ธํ ์ ์์๋ค๊ณ ํฉ๋๋ค - Jane Street, BlackRock, Morgan Stanley ๋ฑ์์๋ ์์ ๋ค์ด ์ด๋ค AI ์ฐ๊ตฌ๋ฅผ ํ๋์ง ํผ์ณ๋๊ณ โ์ด๋ฐ ๋ฉ์ง ์ผ์ ์ฐ๋ฆฌ๊ฐ ํ๊ณ ์์ผ๋, ํจ๊ป ํฉ์๋คโ๋ ๋ฉ์์ง๋ฅผ ๊ฐ๋ ฅํ๊ฒ ์ ๋ฌํ๋ค๊ณ ํฉ๋๋ค.
๋จ์ ๊ฐ๋ฐ ์ธ๋ ฅ์ AI ๋๋ฌธ์ ์ค์ง ์๊ธฐ์ ์๋ค๊ณ ํ๋ ๋ฐ๋ฉด์, AI ์์ง๋์ด, ๊ฐ๋ฐ์์ ๋ํ ์์๋ ๊พธ์คํ ์ฆ๊ฐํ๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฌผ๋ก , ์๊ตฌํ๋ ์ธ์ฌ์ ์์ค์ ๋์์. ๋งํฌ๋์ธ์ Xiaofung Wang์ด ์ด์ผ๊ธฐํ ๊ฒ์ฒ๋ผ, ๊ธฐ์ ๋ค์ด ์ํ๋ ์ด์์ ์ธ AI ํ์ ํ๋ณด๋ โ์ธํ๋ผ ํตํฉ์ ๋ฅ์ํ๋ฉด์๋, ๋ฐ์ด๋ ์ํํธ์จ์ด ์์ง๋์ด์ฌ์ผ ํ๊ณ , ์ธํฐํ์ด์ค ์ค๊ณ ๊ฒฝํ๋ ํ๋ถํ๋ฐ, AI์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์ ์ง์๊ณผ ๋ฐฐ๊ฒฝ์ ๊ฐ์ถ ์ฌ๋์ด, ์๋ก์ด ๊ธฐ์ ์ ํธ๊ธฐ์ฌ๋ ๋ง๊ณ ๋นจ๋ฆฌ ๋ฐฐ์ฐ๊ณ , ๋ณํํ๋ ํธ๋ ๋์ ์ ์ ์ํ๋โ ๊ทธ๋ฐ ์ฌ๋์ด๋ผ๊ณ ํ๋๊น์ - ๋ญ, ์ด ์ ๋๋ฉด โ์ ๋์ฝโ ๊ทธ ์์ฒด ์๋๊ฐ์? ^.^;
์, ๋ ๋๋ผ์ด ๊ฑด, ์ค์ ๋ก ๊ทธ๋ฐ ์ฌ๋์ด ๋๋ ๊ฒ โ์์ ํ ๋ถ๊ฐ๋ฅํ ๋ฏธ์ โ์ด ์๋๋ผ๋ ์ ์ด์ฃ . ์คํ์์ค ๋ชจ๋ธ, ๊ต์ก ์๋ฃ, ๊ทธ๋ฆฌ๊ณ ์ง์ ์ฌ์ฉํ๊ณ ์ฒดํํด ๋ณผ ์ ์๋ ๋๊ตฌ๋ค์ด ์ฌ๋ฐฉ์ ๋๋ ค(?) ์๋ค๊ณ ํด๋ ๊ณผ์ธ์ด ์๋๋๋ค. ์์ฑํ AI ๊ธฐ์ ์ ๋ํ ์ ๊ทผ์ฑ, ๊ทธ ์ด๋ ๋๋ณด๋ค๋ ๋์์ก์ต๋๋ค.
์ง๊ธ, ์ด ์๋, AI ๊ฐ๋ฐ์, AI ์ ํ ๊ฐ๋ฐ์, AI ์ฌ์ ๊ฐ, ๋ญ๋ผ๊ณ ๋ถ๋ฌ๋ ์ข์ต๋๋ค. ๊ทธ๋ฐ ์ฌ๋์ด ๋๊ธฐ ์ ๋ง ์ข์ ์๊ธฐ๊ณ , ๋น๋ถ๊ฐ์ ๊ทธ ๊ธธ์ ์ด๋งค๋ ์์ฃผ ๋ฌ์ฝคํ ๊ฒ ๊ฐ์ต๋๋ค.
์ฐ๋ฆฌ๊ฐ ์ค์ค๋ก์ ๊ธฐ์ ์ ๊ฐ๊ณ ๋ฆ๋๋ค๋ฉด, AI๋ ๊ฐ๋งํ ์์ง๋ ์์ฃ . ๋์ฑ ์ค์ฉ์ ์ผ๋ก, ๋ ๊ณ ๋๋ก ๋ณํํ๊ณ ์์ต๋๋ค.
์ต๊ทผ์ ๋ฐ์ ์ํฉ ์ค์ ์ผ๋ถ๋ง ๋ณผ๊น์?
์ผ๋ณธ์ AI ์คํํธ์ , ์ฌ์นด๋ AI์ โAI CUDA Engineerโ๋ฅผ ์๋ก ๋ค์ด ๋ณผ๊ป์. ์ด๊ฑด โAI ์์ฒด๋ฅผ ์ต์ ํโํ๋ AI๋ผ๊ณ ํ ์ ์์ต๋๋ค.

High-Level Overview of The AI CUDA Engineer Agentic Framework. Image Credit: ์ฌ์นด๋ AI
โ์งํ๋ก ์ ์ต์ ํ (Evolutionary Optimization) ์๊ณ ๋ฆฌ์ฆโ์ ์ด์ฉํด์, ํ์ดํ ์น ์ฝ๋๋ฅผ โ์ด-์ต์ ํ๋ CUDA ์ปค๋โ๋ก ๋ณํ, GPU ์ฐ์ฐ ์๋๋ฅผ 10๋ฐฐ์์ 100๋ฐฐ๊น์ง ํฅ์์ํค๋ ์์จํ ์์ด์ ํธ์ ๋๋ค.
์ด๋ฐ ๊ฒ ๋ง๊ณ , ๋ด ์ผ์์ํ์ ๋์๋๋, ์๋ฅผ ๋ค์ด AI๊ฐ ๋นจ๋๋ฅผ ๊ฐ์ฃผ๋ ๊ฑธ ์ํ์ ๋ค๋ฉด? ๋ก๋ด ํ์ฌ ๋ ๊ตฐ๋ฐ - Figure์ 1X Technologies - ์์ ํฅ๋ฏธ๋ก์ด ๋ก๋ด ๋ฐ๋ชจ๋ฅผ ๊ณต๊ฐํ์ต๋๋ค.
๋จผ์ , Figure๋ ์ง๊ฐ, ์ธ์ด ์ดํด, ๋ฅ์ํ ์ ์ด ๊ธฐ๋ฅ์ ํตํฉํ๋ ๋ฒ์ฉ VLA (Vision-Language-Action) ๋ชจ๋ธ โHelixโ๋ฅผ ์๊ฐํ์ต๋๋ค.

Figure๊ฐ ๊ฐ๋ฐํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์๋ํ๋ Helix๋, ๋ก๋ด์๊ฒ ์ค์ ์ธ๊ณ์์ ์ ์ฉํ ์ ์๋ โ์ง๋ฅโ์ ๊ฐ์ ธ๋ค ์ค๋๋ค - ์ด์ ์ ๋ณธ ์ ์๋ ๋ฌผ๊ฑด์ ์ง์ด ์ฌ๋ฆฌ๊ณ , ๋ค๋ฅธ ๋ก๋ด๊ณผ ํ๋ ฅํ๊ณ , ์ถ๊ฐ์ ์ธ ํ๋ จ ์์ด๋ ์์ฐ์ด๋ก ๋ ๋ช ๋ น์ ์๋ตํ ์ ์๊ฒ ํฉ๋๋ค.
1X ํ ํฌ๋๋ก์ง์ค๋ ์์ฌ์ ๋ก๋ด, โNEO Gammaโ๋ฅผ ์์ฐํ์ต๋๋ค. ์์ฐ์ค๋ฌ์ด ๊ฑธ์๊ฑธ์ด๋ก ๊ฑท๊ณ , ๋ฌผ๊ฑด์ ์ง์ด ์ฌ๋ฆฌ๊ณ , ์์์ ์๊ธฐ๋ ํ๊ณ , ์์ฒด ๊ฐ๋ฐํ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํด์ ๋ํํ ํ๋กฌํํธ๋ฅผ ์ดํดํ๊ธฐ๋ ํฉ๋๋ค. ์์ ์ ์ํ ๋ถ๋๋ฌ์ด ์ปค๋ฒ, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ์ ํํํ๋ ๊ท์ ๋ง ๋ชจ์๊น์ง ๊ฐ์ถ๊ณ ์์ต๋๋ค. ๋ณด๋ค๋ณด๋, ๋ก๋ด์ด ์ฐ๋ฆฌ ์ํ์ ๊น์์ด ๋ค์ด์จ๋ค๋ฉด, ์ฝ๊ฐ์ ๊ฐ์ฑ์ ๊ฐ์ถ๋ ๊ฒ๋ ์ข์ง ์ถ๋ค์.

๋ชจ๋ ์ฐ์ ๋ถ์ผ, ๋ชจ๋ ์์ญ์์ ์ง์ง ์ ๋๋ก ๋ AI ์ธ์ฌ๋ฅผ ๋์์ฑ์ ๊ฐ์ด ์ผํ๊ธฐ๋ฅผ ์ํ๋ ์๋ง์ ํ์ฌ๋ค. AI ์ค์ค๋ก๋ฅผ ์ต์ ํํ๋ AI. ์ฐ๋ฆฌ ์ง์ ๊ณง ๋ค์ด์ฌ ๊ฒ๋ง ๊ฐ์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด.
2025๋ ์์๋ ์ง ์ผ๋ง ๋์ง ์์์ง๋ง, ์ด๋ฏธ ์ ์ ์ด ์์ ์ ๋๋ก, AI์ ๋ฐ์ ์๊ณผ ํ์ฝ์ผ๋ก ๊ฐ๋ ์ฐจ ๊ฐ๊ณ ์์ต๋๋ค. โํน์ด์ โ์ด ๊ณง ์จ๋ค๋ ์์ ์ด์ผ๊ธฐ๋ฅผ ํ ์๊ฐ์ ์๋ค๋ ๊ฑธ ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ๋ถ๋ค์ด์๋ผ๋ฉด ์ด๋ฏธ ์์๊ฒ ์ง๋ง, โ์ํ ๊ฐ์์ ๋ฒ์นโ์ ๋ฐ๋ผ ์ ์ ์๋ก์ด ๊ธฐ์ ์ด ๋ฑ์ฅํ๋ ์๋๊ฐ ๋นจ๋ผ์ง๋ ์ง๊ธ, โ๋ณํ์ง ์๋ ๊ฒโ, โ์ง์ผ์ผ ํ ๊ฒโ, โ์์ง ๋ง์์ผ ํ ๊ฒโ์ ์ด๋ค ๊ฒ๋ค์ผ๊น์?
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
AI ์์ด์ ํธ, ์ฌํด ๊ฐ์ฅ ํซํ AI ์์ญ์ ์ค์ ํ ํฝ ์ค์ ํ๋๋ผ๊ณ ํด๋ ๊ณผ์ธ์ด ์๋์ฃ ? ์ฌ๋ฌ๋ถ๋ค๋ ์์ด์ ํธ์ ๋ง์ ๊ด์ฌ์ ๊ฐ์ง๊ณ ๊ณ์ค ๊ฑฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
์ค๋์ ์ด โ์์ด์ ํธโ์ ์ด๋ก ์ ์ธ, ๊ทธ๋ฆฌ๊ณ ์ค์ฉ์ ์ธ ์ธก๋ฉด์ ๋ํด์ ๋ ๊น๊ฒ ์ดํดํ๋๋ก ๋์์ฃผ๋ 8๊ฐ์ง ์๋ฃ๋ค์ ๋ชจ์ ๋ดค์ต๋๋ค:
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
๋ง์ดํฌ๋ก์ํํธ์ ์์ ๋๋ฐ, ์์ฅ์ ๋คํ๋ค๋ค
๋ง์ดํฌ๋ก์ํํธ์ ๋ง์๋ผ๋ (Majorana) 1 ์์ ์ปดํจํ ์นฉ์ด ์์คํธ๋ฆฌํธ๋ฅผ ๋ค์ฉ์ด๋ฉด์, ์์ ์ปดํจํ ๊ธฐ์ ์ธ IonQ, Rigetti, D-Wave์ ์ฃผ๊ฐ๊น์ง๋ ๋์ด์ฌ๋ ธ์ต๋๋ค. ๋ง์ดํฌ๋ก์ํํธ๊ฐ ์์ฌ๊ฐ ๋ง๋ ์นฉ์ด ์ค๋ฅ ๋ฐ์๋ฅ ์ด ๋ฎ๊ณ ์ค์ ์์ฉ๊น์ง ์ด์ด์ง ๊ฐ๋ฅ์ฑ์ด ๋ ๋๋ค๊ณ ์ฃผ์ฅํ๋ฉด์, ์์ ์ปดํจํ ์ ์์ฉํ ์์ ์ ๋ํ ๋ ผ์์ด ํจ์ฌ ๋ ํฅ๋ฏธ์ง์งํด์ก๋ค๊ณ ๋ ํ ๊น์? ์๋น๋์์ ์ ์จ ํฉ์ CES ์ดํ ์์ ์ปดํจํ ์ ๋จ๊ธฐ์ ์ธ ์ํฅ๋ ฅ์ ๋ฎ๊ฒ ํ๊ฐํ์ง๋ง, ๋ง์ดํฌ๋ก์ํํธ, ์ํ๋ฒณ, ๊ทธ๋ฆฌ๊ณ IBM์ ์๊ฐ์ ์ข ๋ค๋ฅธ ๊ฒ ๊ฐ๊ธฐ๋ ํฉ๋๋ค. ๊ฒฐ๊ตญ ๋๊ฐ ์ณ์๋ค๊ณ ์์ฅ์ ํ๋จํ ๊น์? ๋ค๋ฅธ ์๊ฐ์ ๊ฐ์ง ๋ฏํฉ๋๋ค. ๋๊ฐ ์ณ์ ๊ฑธ๊น์? ์์ฅ์ด ์ง์ผ๋ณด๊ณ ์์ต๋๋ค.
์ง๊ธ ๋์๋ค๋๋ ๋ฏธ์คํ ๋ฆฌ ๋ชจ๋ธ, GPT-4.5์ธ๊ฐ?
Reddit์์, ๋ง์ ์ฌ๋๋ค์ด ์ง๊ธ ๋์๋ค๋๋ Mystery Model์ด ๊ธ์ฃผ์ ๊ณต๊ฐ๋ GPT-4.5๊ฐ ์๋๋๋ ์์๋ค์ ํ๊ณ ์๋ค์. ์ด Mystery Model์ด ์์ฑํ ์ด๋ฏธ์ง ํฌ์คํ ์ด ์คํAI ์ง์๋ค์ด โ์ข์์โ๋ฅผ ๋ง์ด ๋๋ฅด๊ณ ์๋ค๊ณ ๋ ํ๊ตฌ์ ^.^; ์์ฑ๋ ๊ทธ๋ฆผ์ ํ์ง์ ๋ณด๋ฉด, Claude 3.7 Sonnet๋ ๋์์ง ์์ต๋๋ค๋ง ๋น๊ต ์์ฒด๊ฐ ์ข ์ด๋ ค์ ๋ณด์ด๊ธฐ๋ ํ๋ค์. Claude 3.7๋ ๋์จ์ง ๋ฉฐ์น ๋์ง ์์๋๋ฐโฆ
์ด์จ๋ ๊ทธ ์ง์๋ ์๋ง๋ ๊ธ์ฃผ ๋ด์ ํ์ธํ๊ฒ ๋์ง ์์๊น ํฉ๋๋ค.

Mystery Model๊ณผ Claude 3.7 Sonnet์ด ์์ฑํ XBox ์ปจํธ๋กค๋ฌ ์ด๋ฏธ์ง. Image Credit: Reddit
์ค์ฐ๋กํฝ, โํ์ด๋ธ๋ฆฌ๋ AIโ Claude 3.7 Sonnet ๊ณต๊ฐ
์คํธ๋กํฝ์์ ์ฌ์ธต์ ์ธ ์ถ๋ก ๊ณผ ์ค์๊ฐ์ ์๋ต์ ํจ๊ป ํ๋๋ก ํตํฉํ Claude 3.7 Sonnet์ ๊ณต์์ ์ผ๋ก ๋ฐํํ์ต๋๋ค. ํ๋์ ์ธํฐํ์ด์ค๋ก ๋ค์ํ ๋ชจ๋์ ์ฌ๊ณ ๋ฅผ ํ๋๋ก ๋ช ๋ นํ ์ ์๋ ์ ์ธ๋ฐ์.
์ผ๋จ Claude 3.7 Sonnet์ ์ถ๋ก ๊ธฐ๋ฅ์ ์ ๋ฃ ์ฌ์ฉ์์๊ฒ๋ง ์ ๊ณต๋์ง๋ง, ์ ์ฒด์ ์ธ ์ฑ๋ฅ๋ ๊ธฐ์กด์ 3.5 ๋ฒ์ ๋ณด๋ค ๊ฐ์ ๋์๋ค๊ณ ํฉ๋๋ค.
ํนํ ์ด ๋ชจ๋ธ์ โSWE Bench (์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฒค์น๋งํฌ)โ์์ ์คํAI์ โo3-miniโ๋ณด๋ค ๋์ 62.3% ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉด์, ๋ณต์กํ ์ฝ๋๋ฒ ์ด์ค๋ฅผ ์ ๋ค๋ฃฌ๋ค๋ ํ๊ฐ๋ฅผ ๋ฐ๊ณ ์๊ธฐ๋ ํฉ๋๋ค.

Image Credit: ์ค์ฐ๋กํฝ
๊ธ์์, ๊ธ์ฃผ์ GPT-4.5๊ฐ ๊ณต๊ฐ๋ ๊ฒ ๊ฐ๊ณ , GPT-5๊ฐ ๋์ค๋ฉด ๋ ์์๊ฐ ์ด๋ป๊ฒ ๋ฐ๋์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง, Claude๋ โ์ฝ๋ฉโ ์์ญ์ ์์ด์ ๋์ ํ์ง๋ก ์ธ์ ๋ฐ๊ณ ์๋ ๋ชจ๋ธ์ด ๋์ด๊ฐ๊ณ ์๋ ๋ฏ ํฉ๋๋ค.
์คํAI์ o1-preview์ DeepSeek-R1, ์ฒด์ค๋ฅผ ๋๋ค๊ฐ ์์์๋ฅผ ์ฐ๋ค
์ต๊ทผ์ ์๋ก ๋์จ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์ถ๋ก ๋ชจ๋ธ๋ค์ ๋จ์ํ ๊ท์น์ ๋ฐ๋ฅด๊ธฐ๋ง ํ๋๊ฒ ์๋๋ผ ๊ท์น์ ๋ค์ ์ฐ๊ธฐ๋ ํฉ๋๋ค. ์คํAI์ o1-preview๋ DeepSeek-R1 ๊ฐ์ ๋ชจ๋ธ๋ค์ด ๊ท์น๋๋ก ๊ณต์ ํ๊ฒ ํ๋ ์ด๋ฅผ ํ๋ ๊ฒ์ด ์๋๋ผ ๋์ ์ฒด์ค ๊ฒ์ ๊ฐ์ ๊ฑธ ํ ๋ ๊ฒ์ ํ๊ฒฝ ์์ฒด๋ฅผ ํดํนํ๋ ๋ฐฉ์์ผ๋ก ๋ง์ด ํ๋ฅด๊ฒ ๋๋ค๋ ๊ฑธ ๋ฐ๊ฒฌํ์ต๋๋ค. GPT-4o๋ Claude 3.5 sonnet ๊ฐ์ด ๋ โ์ ํต์ ์ธโ ๋ชจ๋ธ๋ค๋, ๊ท์น์ ์ด๊ธฐ๊ฒ ํ๊ธฐ ์ํด์ ์๊ทน์ ์ฃผ๊ณ ํธ์ฌ๋ฅผ ํด์ผ ํ์ง๋ง, ๊ฒฐ๊ตญ์๋ ๊ฐ์ ๋ชจ์ต์ ๋ณด์๋ค๊ณ ํฉ๋๋ค.
์๋ก์ด ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด AI ์ถ๋ก ๋ชจ๋ธ๋ค์ ๊ท์น์ ๋จ์ํ ๋ฐ๋ฅด๊ธฐ๋ง ํ๋ ๊ฒ์ด ์๋๋ผ, ๊ท์น์ ๋ค์ ์๋๋ค. ์ฐ๊ตฌ์ง์ OpenAI์ o1-preview์ DeepSeek-R1๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค์ด ๊ณต์ ํ ํ๋ ์ด ๋์ ์ฒด์ค ๊ฒ์ ํ๊ฒฝ์ ํดํนํ๋ ๊ฒ์ ์์ฃผ ์์กดํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. GPT-4o์ Claude 3.5 Sonnet๊ณผ ๊ฐ์ ๋ณด๋ค ์ ํต์ ์ธ LLM๋ค์ ๊ท์น์ ์ด๊ธฐ๋๋ก ์ฝ๊ฐ์ ์๊ทน์ด ํ์ํ์ง๋ง, ๊ฒฐ๊ตญ์๋ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
์ด์ง๋ฅ ์์ด์ ํธ, ํ๋ฉธ์ ์ธ ์ํ์ ์ด๋ํ ์๋ - โScientist AIโ๋ผ๋ฉด ๋ค๋ฅผ๊น?
MILA-Quebec AI ์ฐ๊ตฌ์, ๋ชฌํธ๋ฆฌ์ฌ ๋ํ๊ต, ์บ๋ฆฌํฌ๋์ ๋ฒํด๋ฆฌ ๋ํ๊ต์ ์ฐ๊ตฌ์๋ค์, ์์์ ์ด์ผ๊ธฐํ ๊ฒ์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์์์๊น์ง ์ฐ๋ AI๊ฐ ์ด์ง๋ฅ์ ์ธ ์์ด์ ํธ๊ฐ ๋์ด์ ์๋ํ ๋ ์ผ๊ธฐํ ์ ์๋ ์์ฒญ๋ ์ํ ์์์ ๋ํด์ ๊น์ด ์ฐ๋ คํ๊ณ ์๋ค๊ณ ํฉ๋๋ค. ์ฌ๊ธฐ์ ๋์ํด์, โ๋ชฉํ๋ฅผ ๋ฌด์ง์ฑ์ ์ผ๋ก ์ซ๊ธฐโ๋ณด๋ค๋, โ์ดํดโ๋ฅผ ๊ทธ ์ฃผ ๋ชฉ์ ์ผ๋ก ํ๋, Non-Agentic AI๋ก์ โScientist AIโ๋ผ๋ ๊ฐ๋ ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ง, ์๊ธฐ ๋ณด์กด, ๊ถ๋ ฅ ์ถ๊ตฌ ๋ฑ์ ์ํ์ด ์์ ์ ์๋ค๊ณ ๋ณด์ด๋ Agentic AI์๋ ๋ค๋ฅด๊ฒ, Scientist AI๋ โ์ธ๊ณผ ๋ชจ๋ธ (Causal Model)โ์ ๊ตฌ์ถํ๊ณ โ๋ถํ์ค์ฑ์ ๊ณ ๋ คํด ๊ฐ๋ฉด์ ์ง๋ฌธ์ ๋ต๋ณโ์ ํฉ๋๋ค. ๋ฐ๋ผ์, AI ์์คํ ์ ์ํ ์์์ ๋ํด ์ผ์ ์ ๋์ ์์ ์ฅ์น๊ฐ ๋ง๋ จ๋๊ณ , ๊ณผํ์ ๋ฐ๊ฒฌ์ ํ๋๋ก ์ง์ํ๋ฉด์, ์ฐ๋ คํ๋ ์ค์กด์ ์ธ ์ํ์ด ์์ด AI ์์ ์ฑ์ ๋ํ ์ฐ๊ตฌ๋ ์งํํ ์ ์์ต๋๋ค. ์ด๋ฐ โ๋ฒ ์ด์ง์โ์ ํด์ ๊ฐ๋ฅํ ์์คํ ์ AI์ ๋ํ ์ง๋์น ๊ณผ์ ์ ํ์ง ์๋๋ก ํด ์ค๋๋ค.
๊ตฌ๊ธ ๋ฆฌ์์น, AI Co-Scientist ๋ฐํ
์์์ ์ด์ผ๊ธฐํ โScientist AIโ์๋ ๋ค๋ฅธ ๊ฑด๋ฐ์. ๊ตฌ๊ธ ๋ฆฌ์์น๊ฐ โ๊ณผํ์ ์ธ ๋ฐ๊ฒฌ (Scientific Discovery)โ์ ๊ฐ์ํํ๋๋ก ๋์์ค, Gemini 2.0์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถํ ๋ฉํฐ ์์ด์ ํธ ์์คํ , โAI Co-Scientistโ๋ฅผ ๊ณต๊ฐํ์ต๋๋ค.
๊ฐ์ค์ ๋ง๋ค๊ณ , ์ฐ๊ตฌ ์ ์์๋ฅผ ๊ฐ์ ํ๊ณ , ๋ฐ์ด์ค ๋ฉ๋์ปฌ ์์ญ์ ํ์ ์ ์ง์ํ๋ค๋ ๋ชฉํ๋ก ์ค๊ณ๋์๊ณ , ์ด๋ฏธ ๋ฐฑํ๋ณ์ด๋ผ๋ ๊ฐ ํญ๊ท ์ ํญ์ฑ ์ฐ๊ตฌ๋ฅผ ์ํ ์ฝ๋ฌผ Repurposing์ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค. ์ ๋ฌธ๊ฐ๋ฅผ ์ด ๊ณผ์ ์ ์ฐธ์ฌ์ํค๋ ์ ๊ทผ ๋ฐฉ์, ๊ทธ๋ฆฌ๊ณ ์ค์ ์ฐ๊ตฌ ํ๊ฒฝ์์ ๋์์ด ๋๋์ง ํ์ธํ๋ โTrusted Testerโ ํ๋ก๊ทธ๋จ์ ์ด์ํ๋ฉด์, ๋จ์ํ ๋๊ตฌ๊ฐ ์๋๋ผ ์ง์ง ํ๋ ฅ์๋ก์ AI Co-Scientist๊ฐ ๋ฐ์ ํ๋๊ฒ ๋ชฉํ๋ผ๊ณ ํฉ๋๋ค.
๊ณต๋ ๊ณผํ์๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๊ฐ์ค ์์ฑ, ์ฐ๊ตฌ ์ ์์ ๊ฐ์ , ์์ํ์ ํ์ ์ง์์ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, ์ด๋ฏธ ๋ฐฑํ๋ณ ๋ฐ ํญ๊ท ์ ํญ์ฑ ์ฐ๊ตฌ๋ฅผ ์ํ ์ฝ๋ฌผ ์ฌ์ฐฝ์ถ์ ๊ธฐ์ฌํ์ต๋๋ค. ์ ๋ฌธ๊ฐ ์ฐธ์ฌ ์ ๊ทผ ๋ฐฉ์๊ณผ ์ ๋ขฐํ ์ ์๋ ํ ์คํฐ ์ก์ธ์ค๋ฅผ ํตํด ๊ตฌ๊ธ์ AI๋ ๋จ์ํ ๋๊ตฌ๊ฐ ์๋ ์ง์ ํ ํ๋ ฅ์๊ฐ ๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
Thinking Machines Lab: ์๋ก์ด AI ํ์ํ์ฐ์ค๋ก ๋ ์ค๋ฅผ๊น
์คํAI์ ๋ฉํ, ์บ๋ฆญํฐ AI, ๋ฅ๋ง์ธ๋ ๋ฑ์์ ์ผํ๋ ์ฐ๊ตฌ์๋ค์ด ๋ง์ถคํํ ์ ์๋ AI, ๋ฉํฐ๋ชจ๋ฌ ์์คํ , ๊ทธ๋ฆฌ๊ณ ํฌ๋ช ์ฑ๊ณผ ์์ ์ฑ์ ์ด์ ์ ๋ง์ถฐ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ์ Thinking Machines Lab์ด๋ผ๋ ์๋ก์ด ํ์ฌ๋ฅผ ์ค๋ฆฝํ์ต๋๋ค. ์คํAI์ CTO์๋ ๋ฏธ๋ผ ๋ฌด๋ผํฐ, ๊ทธ๋ฆฌ๊ณ ์กด ์๋จผ์ด ์ด๋๋ ํ์ฌ์ธ๋ฐ์. ์์ง ์ ํํ๊ฒ ๋ญ ํ ์ง๋ ๋ช ํํ์ง ์์๋ฐ๋, ํฌ์์๋ค์ ๊ด์ฌ์ ๋ชฐ๋ ค๋๋ ๊ฒ ๊ฐ๋ค์.
I started Thinking Machines Lab alongside a remarkable team of scientists, engineers, and builders. We're building three things:
- Helping people adapt AI systems to work for their specific needs
- Developing strong foundations to build more capable AI systems
- Fostering aโฆ x.com/i/web/status/1โฆโ Mira Murati (@miramurati)
6:33 PM โข Feb 18, 2025
์๋ฆฌ๋ฐ๋ฐ, ๋น๋์ค ์์ฑ AI ๋ชจ๋ธ โWAN 2.1โ ์คํ์์ค๋ก ๊ณต๊ฐ
์๋ฆฌ๋ฐ๋ฐ๊ฐ Text-to-Video / Image-to-Video ๋ชจ๋ธ์ธ WAN 2.1์ ์คํ์์ค ๋ฒ์ ์ผ๋ก 26์ผ์ ๊ณต๊ฐํ์ต๋๋ค. ๊นํ๋ธ, ํ๊น ํ์ด์ค ๋ฑ์์ ๋ค์ด๋ก๋ํ ์ ์๋ค๊ณ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๊ณ ํ์ง ์์์ ์ ์์ฑํ ์ ์๋๋ก ํ ๋ฟ ์๋๋ผ, ์ฌ๋์ ์ด๋ฏธ์ง๋ฅผ ์์์ผ๋ก ๋ง๋ค๊ฑฐ๋ ํ์ , ์ ํ, ๊ตฌ๋ฅด๊ธฐ ๋ฑ ์ธ๋ฌผ์ด๋ ์บ๋ฆญํฐ์ ๋ค์ํ๊ณ ๋ณต์กํ ์์ง์์ ์์ ์ ์ผ๋ก ์ ํํํ๋ค๋ ํ๊ฐ๊ฐ ์์ต๋๋ค.
๋น๋์ค ์์ฑ AI ํ๊ฐ๋ฅผ ํ๋ Vbench์์ ์ด์ 86.22%๋ก, ์คํAI์ ์๋ผ (84.28%)๋ ๋ฃจ๋ง (83.61%) ๋ฑ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๊ทผ์ํ ์ฐจ์ด๋ก ์์๋ฉด์ 1์์ ์ฌ๋์ต๋๋ค.
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
AI Engineer Summit์ ๋ผ์ด๋ธ ์คํธ๋ฆผ (by Swyx, Ben Dunphy)
AI Engineer Summit์ AI ์์ง๋์ด๋ง ๋ถ์ผ์ ์ต์ ๊ธฐ์ ๊ณผ ํธ๋ ๋๋ฅผ ๊ณต์ ํ๊ณ ๋ ผ์ํ๋ ํ์ฌ์ฃ . ๋ด์์์ ์ด๋ฆฌ๊ณ ์๋ AI Engineer Summit 2025์ ๋ ๋ฒ์งธ ๋ , โAgent Engineeringโ์ ๋ํด ์ฃผ๋ก ๋ค๋ฃจ๋, 8์๊ฐ 30๋ถ์ ๋ฌํ๋ ๋์์์ ๋๋ค. Timestamp ์์ ์ ๋ชฉ๋ง ๋ด๋ ํฅ๋ฏธ๋ก์ด ๋ฐํ ๋ด์ฉ์ด ๋ง์ ๋ณด์ด๋ค์.

The Ultra-Scale Playbook: Training LLMs on GPU Clusters (a book by HuggingFace)
๊ณ ์ฑ๋ฅ์ LLM์ ์ด๋ป๊ฒ ๊ตฌํํ๋์ง์ ๋ํ ํฌ๊ด์ ์ด๊ณ ์ข ํฉ์ ์ธ ์ดํด๋ฅผ ํ ์ ์๋๋ก, ๋ค์ํ ๊ธฐ๋ฒ์ ์ด๋ก ๊ณผ ๊ฐ๋ , ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ฒ, ๋ณ๋ ฌํ ๋ฑ์ ๊ธฐ๋ฒ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ ๋ฑ์ ๋ค๋ฃจ๋ ํ๊น ํ์ด์ค์ ์ข ํฉ ์๋ด์์ ๋๋ค. PDF๋ก ๋ค์ด๋ฐ์ ๋ณผ ์๋ ์๋ค์. ์๋ ๋น์ฃผ์ผ์ ํ๊น ํ์ด์ค์์ ์ต๋ 512๊ฐ์ GPU์์ 4,000๋ฒ ์ด์์ Scaling ์คํ์ ์งํํ๊ณ Throughput (๋ง์ปค ํฌ๊ธฐ)๊ณผ GPU ์ฌ์ฉ๋ฅ (๋ง์ปค ์์)์ ์ธก์ ํ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํํ ๊ฑฐ๋ผ๊ณ ํฉ๋๋ค.

๋ง์ดํฌ๋ก์ํํธ CEO ์ฌํฐ์ ๋๋ธ๋ผ ์ธํฐ๋ทฐ (by Dwarkesh Patel)
์ง๋ 2์ 20์ผ, AI, ๊ธฐ์ , ๊ณผํ ๋ถ์ผ์์ ๋๋ฆฌ ์๋ ค์ง ํ์บ์คํฐ Dwarkesh Patel์ด ๋ง์ดํฌ๋ก์ํํธ์ CEO ์ฌํฐ์ ๋๋ธ๋ผ์ ์ธํฐ๋ทฐ๋ฅผ ํ์ต๋๋ค. ๊ตญ๋ด์๋ ๊ทธ ๋ด์ฉ๋ค ์ค ์ผ๋ถ๊ฐ ๋ค์ํ ๊ธฐ์ฌ๋ก ์๊ฐ๋์๋๋ฐ์. ๋ค์ด๋ณผ ๋งํ ๋ด์ฉ์ด ๋ง์ผ๋, 1์๊ฐ 30๋ถ ์ ๋ ๋์ง๋ง ํ ๋ฒ ์๊ฐ๋ด์ด ๋ค์ด๋ณด์๊ธฐ๋ฅผ ๊ถํฉ๋๋ค.
์์ฃผ ๊ฐ๋จํ, ์ฃผ์ ๋ด์ฉ์ ๋ฝ์๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค:
AI์์ฅ, ๋จ์ํ ์น์ ๋ ์ ์์ฅ์ด ์๋๋ค
AI ๋ถ์ผ์๋ ์คํ์์ค์ ๋ค์ํ ๋ชจ๋ธ์ด ๊ณต์กดํ๊ณ , B2C ์์ฅ์๋ ์น์ ๋ ์ ํ์์ด ์์ ์๋ ์์ง๋ง B2B ์์ฅ์์๋ ๊ทธ๋ฐ ์ผ์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ด ๊ทนํ ์ ๋ค - ๊ธฐ์ ๊ณ ๊ฐ๋ค์ ๋จ์ผํ ๊ณต๊ธ์๊ฐ ์์ฅ์ ์ฅ์ ํ๋ ๊ฑธ ์์น ์๋๋ค.โAGIโ์ ์๋ฏธ, ์ค์ ์ฐ์ ๊ณผ ๊ฒฝ์ ์ ์ผ๋ง๋ ์ํฅ์ด ์๋๋๊ฐ ์ค์
AGI์ ๋๋ฌํ๋ค๊ณ ์ฐ๋ฆฌ๊ฐ ์ค์ค๋ก ์ฃผ์ฅํ๋ ๊ฑด ์๋ฌด๋๋ ํฐ๋ฌด๋ ์์ด ์์ ๋๊ฐ๋, ์ผ์ข ์ โ๋ฒค์น๋งํฌ ์กฐ์โ์ ๋ถ๊ณผํ ์ ์๋ค. ๋จ์ํ AI์ ์ฑ๋ฅ์ด ์ด๋ป๋ค๊ฐ ์๋๋ผ, ์ค์ ๊ฒฝ์ ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ด์ผ ํ๊ณ , ์ง์ ํ ๋ฒค์น๋งํฌ๋ ์๋ง โ์ธ๊ณ ๊ฒฝ์ ๊ฐ 10% ์ฑ์ฅํ๋ ๊ฒโ์ผ ๊ฒ์ด๋ค.์์ ์ปดํจํ ์ โํธ๋์ง์คํฐ ๋ชจ๋จผํธโ
๋ง์ดํฌ๋ก์ํํธ์์๋ ์ต๊ทผ โMajorana Zeroโ ์นฉ๊ณผ ๊ฐ์, ์์ ์ปดํจํ ๋ถ์ผ์์ ์ค์ํ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค. ์ด ๊ธฐ์ ๋ก, ํฅํ ์๋ฐฑ๋ง ํ๋นํธ ๊ท๋ชจ์ ์์ ์ปดํจํฐ ๊ตฌ์ถ์ด ๊ฐ๋ฅํ๊ฒ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋๋ฐ, ์ฝ 4๋ ๋ด โ์ ํธ๋ฆฌํฐ ๊ท๋ชจ์ ์์ ์ปดํจํฐ ๊ตฌ์ถโ์ ํ ์ ์๋ค.Muse AI, ๊ฒ์ ์ฐ์ ์ ๊ฑฐ๋ํ ์ํฅ์ ๋ฏธ์น ๊ฒ
2์ ๋ฐํํ, ๊ฒ์ ์ฐ์ ์ ํ์ ํ ์ธ๊ณ ์ต์ด์ ์์ฑํ AI ๋ชจ๋ธ Muse AI. ๊ฒ์ ๊ฐ๋ฐ ๊ณผ์ ์ ํ์ ํ๊ณ ๋ ๋ชฐ์ ๊ฐ์๋ ๊ฒฝํ์ ์ ๊ณตํ๊ฒ ๋ ๊ฒ์ด๋ค.AI์ ๋ฒ์ ์ฅ๋ฒฝ ๋ฐ ์์ ์ฑ ํ๋ณด์ ๋ํ ์ค๋น ํ์
๋ฒ์ , ๊ท์ ์ ์ฅ์ ๋ฌผ์ด ํด๊ฒฐ๋๊ธฐ ์ ์๋ ๊ฐ๋ ฅํ AI๊ฐ ๊ด๋ฒ์ํ๊ฒ ํ์ฉ๋๊ธฐ ์ด๋ ค์ธ ๊ฒ์ด๋ฏ๋ก, ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ณต์กฐ๊ฐ ํ์ํ๋ค. ๋๋ถ์ด, AI๋ฅผ ์์ ํ๊ฒ ๊ฐ๋ฐํ๊ณ ์ฌ์ฉํ๊ธฐ ์ํด์ AGI ์์ ์ฑ์ ๋ํ ์ฒ ์ ํ ๊ฒํ , ๋๋น๊ฐ ํ์ํ๋ค.
The Handoff to Bots (by Kevin Kelly)
์ธ๊ตฌ์ ๊ฐ์์ AI, ๋ก๋ด์ ๋ถ์์ผ๋ก ์ธํ ๊ฒฝ์ ๋ณํ, ์ฌํ์ ๋ณํ๊ฐ ์ด๋ป๊ฒ ์ผ์ด๋ ๊น์ ๋ํ ๊ธ์ ๋๋ค. ์ธ๊ตฌ๊ฐ ๊ฐ์ํจ์ ๋ฐ๋ผ์ AI์ ๋ก๋ด์ด ๊ฒฝ์ ์ ์ฃผ์ ์์ฐ์ ๋ฐ ์๋น์๊ฐ ๋๊ณ , ์ฌ๋์ ์ฐฝ์์ ์ธ ํ๋์ ์ง์คํ ์ ์๊ฒ ๋ ๊ฑฐ๋ผ๊ณ ์ ๋งํ๊ณ ์๋๋ฐ์. ์ฃผ๋ก ์ฌ๋๊ณผ ๊ธฐ๊ณ ๊ฐ์ ์ํธ ๋ณด์์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์กฐํ๋ ๊ด์ ์์ ์์ฑ๋ ๊ธ์ธ๋ฐ, ์ด๋ฐ ๋ฐฉํฅ์ผ๋ก ๊ฐ ์ ์๋ค๋ฉด ๋์์ง ์์ ๊ฒ ๊ฐ์๋ฐ, ์ด๋จ๊น์?
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
Claude 3.7 Sonnet and Claude Code โ ์ค์ฐ๋กํฝ์ ์ฒซ ๋ฒ์งธ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ๋๋ค. ๋น ๋ฅด๊ฒ ์๋ต์ ๋ฐ์ ๊ฑด์ง, ์ฌ์ธต์ ์ธ ์ฌ๊ณ ๋ฅผ ๊ฑฐ์น ์๋ต์ ๋ฐ์ ๊ฑด์ง ์ฌ์ฉ์๊ฐ ์ ํํด์ ์ ํํ ์ ์๊ฒ ํฉ๋๋ค. SWE-bench Verified (70.3%) ๋ฐ TAU-bench์์ SOTA ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ์ฝ๋ฉ ์์ ์ ํ์ํฉ๋๋ค. ๋ชจ๋ธ์ ์ด์ ๊ฐ๊ฒฉ ๊ทธ๋๋ก์ธ ์ ๋ ฅ 100๋ง ํ ํฐ๋น 3๋ฌ๋ฌ, ์ถ๋ ฅ 100๋ง ํ ํฐ๋น 15๋ฌ๋ฌ์ ๋๋ค.
Microsoftโs Muse โ ๊ฒ์ํ๋ ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ตํด์ ์ธํฐ๋ํฐ๋ธ ๋์์ธ ๊ด์ ์์ ์ฐฝ์์ ์ธ ์์ด๋์ด๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ์ํ ๋์ฒด ๊ฒ์ ์ํ์ค๋ฅผ ์์ฑํ๋๋ก ํ, ์์ฑํ AI ๋ชจ๋ธ์ ๋๋ค.
SmolVLM2 โ ๋ค์ํ ์ฌ์์ ๊ฐ์ง ์ฅ์น์์ ํจ์จ์ ์ผ๋ก ์๋ํ๋๋ก ์ต์ ํ๋, ์์ง๋ง ๊ฐ๋ ฅํ ๋น๋์ค-์ธ์ด ๋ชจ๋ธ ์ ํ๊ตฐ์ผ๋ก, ์ค์๊ฐ ๋น๋์ค ๋ถ์ ๋ฐ Semantic Search๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
InfiR โ ์ถ๋ก ์ ์ต์ ํ๋ ์ํ ์ธ์ด๋ชจ๋ธ๋ก, ๋น์ทํ ๊ท๋ชจ์ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํ๊ณ ์ฃ์ง ๋๋ฐ์ด์ค์๋ ํจ์จ์ ์ผ๋ก ๋ฐฐํฌํ ์ ์์ต๋๋ค.
Multimodal Mamba โ ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์๋ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ์ถ๋ก ๋น์ฉ์ ์ค์ฌ์ฃผ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋๋ค.
Magma โ ๋์งํธ ๋ฐ ๋ก๋ณดํฑ์ค ์์ญ์ ์ ์ฉํ๊ธฐ ์ํ, ๋น์ , ์ธ์ด ๋ฐ ํ๋ ๊ณํ์ ํตํฉํ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๋ค.
๋ฉํฐ๋ชจ๋ฌ, ์ธ์ง, ๋น์ -์ธ์ด๋ชจ๋ธ
๐ SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding โ ๋ค๊ตญ์ด ํ์ต, ๊ทธ๋ฆฌ๊ณ ํฅ์๋ Zero-shot ๋ฅ๋ ฅ์ ๊ฐ์ง ์ ์๋๋ก ๋น์ -์ธ์ด ํ์ต์ ๋ฐ์ ์ํต๋๋ค.
๐ Intuitive Physics Understanding Emerges from Self-Supervised Pretraining on Natural Videos โ ์ง๊ด์ ์ธ ๋ฌผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ๊ธฐ ์ํด์, ๋น๋์ค ํ๋ ์ ์์ธก ๋ชจ๋ธ์ ํ์ตํ๋๋ก ํฉ๋๋ค.
LLM ์ต์ ํ, ๋ฉ๋ชจ๋ฆฌ, ํจ์จ์ฑ
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models โ ์ฅ๊ธฐ์ ์ธ ๊ธฐ์ต ๋ฐ ๊ฒ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ RAG ๊ธฐ๋ฒ์ธ HippoRAG 2๋ฅผ ์๊ฐํฉ๋๋ค.
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? โ Low-Rank Adaptation (LoRA) ๊ธฐ๋ฒ์ ์ฌ์ฉํด์ ์๋ก์ด ์ง์์ LLM์ ํตํฉํ ๋์ ์ฅ๋จ์ ์ ๊ฒํ ํฉ๋๋ค.
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models โ ์ ์ฌ์ ํ๋์จ์ด์์ ๊ฑฐ๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์๊ฒ ํ๋, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ํ์ธํ๋ ๊ธฐ๋ฒ์ธ LORAM์ ๊ฐ๋ฐ, ๊ฒํ ํฉ๋๋ค.
๐Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention โ Long-Context ๋ชจ๋ธ์ ์ํ Sparse Attention์ ์ต์ ํํด์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๊ฐํํ์ต, ์๊ธฐ ๊ฐ์ (Self-Improvement) ๋ฐ ์์ฌ ๊ฒฐ์
๐ S2R: Teaching LLMs to Self-verify and Self-correct via RL โ ์๊ธฐ ๊ฒ์ฆ, ๊ทธ๋ฆฌ๊ณ ์๊ธฐ ์์ ์์ ์ ํ์ตํด์ LLM ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ํ๋ ์์์ ๊ฐ๋ฐํฉ๋๋ค.
Discovering Highly Efficient Low-Weight Quantum Error-Correcting Codes with RL โ ๊ฐํ ํ์ต์ ์ฌ์ฉํด์ ์์ ์ค๋ฅ (Quantum Error) ์์ ์ฝ๋๋ฅผ ์ต์ ํ, ๋ฌผ๋ฆฌ์ ์ธ ํ๋นํธ ์ค๋ฒํค๋๋ฅผ ์ค์ฌ ์ค๋๋ค.
๐OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning โ ๋ค๋จ๊ณ (Multi-step) ์์ฌ ๊ฒฐ์ ๋ฐ ๊ตฌ์กฐํ๋ ๋๊ตฌ ์ฌ์ฉ์ ์ํ ๋๊ตฌ ๊ธฐ๋ฐ ์์คํ ์ ๊ฐ๋ฐํฉ๋๋ค.
Thinking Preference Optimization โ ์ถ๋ก ๋จ๊ณ์์ ์ ํธ๋ ๊ธฐ๋ฐ ์ต์ ํ ์์ ์ ๊ฐ์ ํด์ LLM ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ธฐ๋ฒ์ ์ฐ๊ตฌํฉ๋๋ค.
LLM ์ ๋ขฐ์ฑ, ์์ , Alignment
๐ReLearn: Unlearning via Learning for Large Language Models โ LLM์ด ๋ง์ ์ ์ ์ ํ๋ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์, ๋ฏผ๊ฐํ ์ง์์ ์ ๊ฑฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.
๐ On the Trustworthiness of Generative Foundation Models โ ์ง์นจ๊ณผ ํ๊ฐ ๊ธฐ์ค, ๊ด์ ๋ฑ, ์์ฑํ AI ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ํ๋ ์์์ ๊ฐ๋ฐํฉ๋๋ค.
Rethinking Diverse Human Preference Learning through Principal Component Analysis โ ๋ LLM Alignment๋ฅผ ์ ํ๊ธฐ ์ํด์ PCA (Principal Component Analysis) ๊ธฐ๋ฒ์ ์ฌ์ฉ, ์ฌ๋์ ์ ํธ๋ ๋ชจ๋ธ๋ง์ ๊ฐ์ ํฉ๋๋ค.
์ฝ๋ ์์ฑ, ์ํํธ์จ์ด ๊ณตํ, ์น ํฌ๋กค๋ง
๐ S Test Time Scaling for Code Generation โ ๋ฐ๋ณต์ ์ธ ๋๋ฒ๊น ์ผ๋ก LLM ๊ธฐ๋ฐ์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ Test-Time Scaling ํ๋ ์์์ ์๊ฐํฉ๋๋ค.
Craw4LLM: Efficient Web Crawling for LLM Pretraining โ ๊ฐ์ฅ ์ํฅ๋ ฅ ์๋ ํ์ด์ง๋ฅผ ๋์ ์ฐ์ ์์๋ก ์ง์ ํด์, LLM ํ์ต์ ์ํค๊ธฐ ์ํ ์น ํฌ๋กค๋ง์ ์ต์ ํํฉ๋๋ค.
๐Autellix: An Efficient Serving Engine for LLM Agents as General Programs โ ์์ฒญ ์ค์ผ์ค๋ง์ ์ต์ ํํด์, ์์ด์ ํธ ์ ํ๋ฆฌ์ผ์ด์ ์ LLM ์๋น์ค ํจ์จ์ฑ์ ํฅ์์ํต๋๋ค.
์ํ์ ์ถ๋ก , ๋ ผ๋ฆฌ์ ์ฌ๊ณ , Test-Time ์ต์ ํ
LLMs and Mathematical Reasoning Failures โ ์ํ ๋ฌธ์ ๋ฅผ ์๋กญ๊ฒ ์ค๊ณํด์ LLM์ ํ๊ฐ, ๋ค๋จ๊ณ (Multi-step) ๋ฌธ์ ํด๊ฒฐ ๊ธฐ๋ฒ์ ์ด๋ค ๋ฌธ์ ๊ฐ ์๋์ง ๋ฐํ๋ ๋๋ค.
Small Models Struggle to Learn from Strong Reasoners โ ์์ LLM์ด ํฐ ๋ชจ๋ธ์ CoT Distillation์ผ๋ก๋ถํฐ ์ป๋ ์ด์ ์ ํ๊ณ๊ฐ ์๋ค๋ ๊ฒ์ ๋ฐํ๋ ๋๋ค.
๐Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering โ ์ถ๋ก ์ค์ผ์ผ๋ง์ ํ๋ฉด, LLM์ด ํ์ ์ด ์๋ ์ง๋ฌธ์ ๋ํด์ ์ ํ์ ์ผ๋ก ๋ต๋ณํ๋๋ฐ ์ด๋ป๊ฒ ๋์์ด ๋๋์ง ๊ฒํ ํฉ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply