- Turing Post Korea
- Posts
- ๐FOD#116: แแ ฆแซแแ ตแแ กแแ ตแผแแ ด แแ จแแ ฅแฏ - AIแแ ด แแ ขแ แ ฉแแ ฎแซ แแ ฅแจแแ ฉแ แ ณแฏ แแ กแทแแ ฎแแ กแซแแ ก
๐FOD#116: แแ ฆแซแแ ตแแ กแแ ตแผแแ ด แแ จแแ ฅแฏ - AIแแ ด แแ ขแ แ ฉแแ ฎแซ แแ ฅแจแแ ฉแ แ ณแฏ แแ กแทแแ ฎแแ กแซแแ ก
+ แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
๋ฒค์น๋งํน์ ์์ฆ
๋ชจ๋ธ ์ถ์ ์์์ ํ๋ก์ฐ์ ํ๋๋ผ ๋ฐ๋นด๋ ์ง์ง๋ ์ฃผ๊น์ง์๋ ๋ค๋ฅด๊ฒ, ์ง๋ ์ฃผ์ AI ์ฌ์, ๋ชจ๋ธ ์ถ์๋ผ๋ ์ธก๋ฉด์์๋ ๋น๊ต์ ์กฐ์ฉํ๋ค ์ถ์ต๋๋ค.
๊ทธ ์ค์ ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ์์์ Gemini 2.5 Flash Image(โ๋๋ ธ ๋ฐ๋๋โ)์ ์ถ์์๋ ๊ฒ ๊ฐ๊ตฌ์. ๊ฐ์ธ์ ์ผ๋ก๋ Gemini์ ๋ง์ผํ ํ์ด โ๋๋์ด!โ ์ด๋ฆ์ ์ ๋๋ก ์ง์ ๊ฒ ์๋๊ฐ ์ถ์ด์. ์ด๋ฏธ ๋๋ ธ ๋ฐ๋๋์ ๋ํด์๋ ๋ง์ ๋ถ๋ค์ด ์๊ณ ๊ณ์์ง๋ง, ๊ฐ์ฅ ํฌ๊ฒ ๊ด์ฌ๋ฐ๋ ๊ฑด ์ญ์ โ์บ๋ฆญํฐ์ ์ผ๊ด์ฑ์ ์ ์ ์งํ๋คโ๋ ์ธก๋ฉด์ธ ๊ฒ ๊ฐ์ต๋๋ค.

Image Credit: Global Newswire
์ธ๋ฌผ์ด ํค์ด์คํ์ผ์ ๋ฐ๊พธ๋ , ์์ธ๋ฅผ ๋ฐ๊พธ๋ , ์์์ ๋ฐ๊พธ๋ , ๋ณธ๋ ์ธ๋ฌผ๊ณผ ๊ฑฐ์ ๋๊ฐ์ด ์ธ์์ด ๋ฉ๋๋ค. ์ฌ๋ฌ ๋ฒ ํธ์งํ๋ ๊ณผ์ ์์๋ ์ผ๊ด์ฑ์ด ์ ์ ์ง๋์ด์, ๊ด๊ณ ์์ ์ ์ ๊ฐ์ ์์ญ์ ๊ฝค ์ํฉํธ๊ฐ ์์ ๊ฑธ๋ก ๋ณด์ ๋๋ค.
Microsoft AI๋ ์์ฒด์ ์ผ๋ก ๊ฐ๋ฐํ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ, MAI๋ฅผ ์ ๋ณด์๋๋ฐ์. ์ผ๋จ, ์ด ๋ชจ๋ธ์ ์ด๊ณ ์ ์ฒ๋ฆฌ, ์์ฐ์ค๋ฌ์ด ์์ฑ, ํจ์จ์ ํ๋ จ ๊ธฐ๋ฒ, ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ์์ฃผ ๊ฐ๋ ฅํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ์๋ํฉ๋๋ค. ์ฌ์ค MAI ๋ชจ๋ธ ์ถ์๋ ์คํAI์์ ๊ด๊ณ ๋ณํ์๋ ๋ฐ์ ํ ์ฐ๊ด์ด ์๋ค๊ณ ํด์ํ๋ ๋ถ๋ค์ด ๋ง์ต๋๋ค. ์ด๋ฒ์ ๋ฐํ๋ MAI-Voice-1, MAI-1-preview ์ด ๋ ๊ฐ์ง ๋ชจ๋ธ๋ ์คํAI์ ๋ํ ๊ธฐ์ ์์กด๋๋ฅผ ์ค์ด๋ ค๋ ์ ๋ต์ ์ผํ์ด๋ผ๊ณ ๋ด์ผ๊ฒ ์ฃ .
์คํAI vs. ๋ง์ดํฌ๋ก์ํํธ์ ๊ฐ๋ฑ์ ์ฌ๋ฌ ์ธต์์์ ์งํ๋๊ณ ์์ต๋๋ค. ์ง๋ถ ๋ฌธ์ ๋ฅผ ๋๊ณ ๋ ๊ณจ๋๋ง์ญ์ค, ๋ชจ๊ฑด์คํ ๋ฆฌ ๊ฐ์ ๊ธ์ต์ฌ๋ฅผ ํตํด์ ์ปจ์คํ ์ ๋ฐ๊ณ ์๋ค๊ณ ์๋ ค์ ธ ์๋๋ฐ, ์คํAI๊ฐ ์๋ฆฌ ๊ธฐ์ ์ผ๋ก ์ ํํ๋ ๊ณผ์ ์์ ๋ง์ดํฌ๋ก์ํํธ์ 49% ์ง๋ถ์จ๊ณผ ํฌ์ ์กฐ๊ฑด์ ๋ํ ์๊ฒฌ ์ฐจ์ด๊ฐ ํต์ฌ์ ์ธ ๊ฐ๋ฑ ์์๋ผ๊ณ ํด์. ๋ง์ดํฌ๋ก์ํํธ๋ ์๋ ์ฐ๋ก ๋ณด๊ณ ์์ ์ด๋ฏธ ์คํAI๋ฅผ ๊ฒฝ์์ฌ๋ก ๋ช ์ํ๊ณ , ๋ฐ๋ผ์ ๋ ํ์ฌ๋ ๊ฐ์ AI ๋ชจ๋ธ์ ํ๋งคํ๋ ค๊ณ ๊ณ ๊ฐ์ ๋๊ณ ๊ฒฝ์ํ๋ 'ํ๋ ๋ค๋ฏธ(Frenemies)' ๊ด๊ณ๊ฐ ๋์์ต๋๋ค. ์คํAI ์ธก์ ๋ง์ดํฌ๋ก์ํํธ๊ฐ ์ถฉ๋ถํ ์ปดํจํ ํ์๋ฅผ ์ ๊ณตํ์ง ์๋๋ค๊ณ ๋ถ๋ง์ ํ์ํ๊ณ ์๊ธฐ๋ ํฉ๋๋ค.
โ๋ชจ๋ธ ์ถ์โ๋ ์ด ์ ๋์ธ ๊ฒ ๊ฐ์ง๋ง, ๋์ ์ ๋์ ๋๋๊ฒ ์์์ต๋๋ค: ๊ฝค ๋ง์ โ๋ฒค์น๋งํฌโ, ๊ทธ๋ฆฌ๊ณ โํ๊ฐ ์์คํ โ์ด ๋ฑ์ฅํ๋ค๋ ๊ฒ๋๋ค.
ํ๋ง ํฌ์คํธ์์๋ ๋ฒค์น๋งํฌ์ ๊ด๋ จ๋ ์ฌ๋ฌ ๊ฐ๋์ ๋ง์์ ๋๋ฆฐ ์ ์ด ์์ง๋ง, ์ผ๋จ ๋ฒค์น๋งํฌ๋ ๊ฒ๋ณด๊ธฐ์๋ ๋ค๋ฅด๊ฒ ๋จ์ํ, ์ค๋ฆฝ์ ์ธ ์ ์ํ์ด ์๋์ฃ . ๋จผ์ , ๊ฐ๊ฐ์ ๋ฒค์น๋งํฌ๋ ๋๋ฆ์ ์ฒ ํ์ ๋ด๊ณ ์์ด์: ์ด๋ค ์์ ์ด ์ค์ํ์ง, ์ฑ๊ณต์ ๊ธฐ์ค์ ๋ญ์ง, ๋ญ๋ ๋ฌด์ํด๋ ๋ฌด๋ฐฉํ์ง ๋ฑ์ ๊ฐ์ ์ ์ํ๊ณ ์์ผ๋๊น์.
ImageNet์ด ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ์ฑ๊ณผ๋ฅผ ํ์ ์ ์ผ๋ก ๋์ด์ฌ๋ฆฌ๋๋ฐ ๊ธฐ์ฌํ๊ณ , SQuAD๋ - ์์ฝ๊ฒ๋ - ๋ชจ๋ธ๋ค์ด โ์ ๋๋ก ๋ ์ดํดโ๊ฐ ์์ด๋ ๋ต์ ํ ์ ์๊ฒ๋ ๋์ด ์์ด์ ์ผ์ข ์ ์๊ณก์ ์ด๋ํ๊ธฐ๋ ํ๊ณ , GLUE๋ ์ง๊ธ์ ํฌํ ์ํ์ ์ด๋ฅด๋ฌ์ ๋ ์ด์ ๊ทธ ์๋ฏธ๋ฅผ ์์ ๋ฒค์น๋งํฌ๋ผ๊ณ ํด์ผ๊ฒ ์ฃ . ์ข์ ๋ฒค์น๋งํฌ๋ฅผ ์ค๊ณํ๋ ๊ฑด ๋ชจ๋ธ ์ค๊ณ๋งํผ์ด๋ ์ด๋ ต๊ณ , ๋ ๊ทธ ํ๊ธ๋ ฅ๋ ์ด๋ง์ด๋งํฉ๋๋ค.
์ง๋ ํ ์ฃผ, ํ์๊ฐ์ด ์์์ง ๋ฒค์น๋งํฌ๋ค
์๊น ๋ง์๋๋ ธ๋ฏ์ด, ์ง๋ ์ฃผ์๋ง ๊ณต์์ ์ธ ๋ฒค์น๋งํฌ 7๊ฐ์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ์ ์คํ๋ ํ๊ฐ ์์คํ 6๊ฐ์ง๊ฐ ๋ฑ์ฅํ์ต๋๋ค. ๋จ์ํ ๋ฑ์ฅํ๋ค๋ ์์ฒด๊ฐ ์ค์ํ๋ค๊ธฐ๋ณด๋ค, ์ด ๋ด์ฉ์ ๋ค์ฌ๋ค๋ณด๋ฉด, ์ด ๋ฒค์น๋งํฌ์ ํ๊ฐ์์คํ ๋ค์ด ์์ผ๋ก AI๊ฐ ์ด๋ป๊ฒ ํ๋ฌ๊ฐ ๊ฒ์ธ์ง ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋ค๋๊ฒ ์๋ฏธ์์ต๋๋ค:
์์ด์ ํธ์ ์์ ๋ฒ์(Agentic Work)
MCP-Bench๋ ๋ชจ๋ธ ์ปจํ ์คํธ ํ๋กํ ์ฝ(MCP)์ ๊ธฐ๋ฐ์ผ๋ก ํด์ LLM์ ๋๊ตฌ ์ฌ์ฉ, ๋ค๋จ๊ณ ์์ ์ํ, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ ๊ณํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ข ํฉ ๋ฒค์น๋งํฌ์ธ๋ฐ์, ํนํ โ์์ด์ ํธ๊ฐ ์๋ฒ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํด์ ๋ค๋จ๊ณ์ ์์ ์ ์ํํ ์ ์๋์ง ํ ์คํธโํฉ๋๋ค.
ReportBench๋ ์ฐ๊ตฌ ์์ด์ ํธ์ ํ์ ๋ณด๊ณ ์ ์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด์ ์ค๊ณํ ๋ฒค์น๋งํฌ์ ๋๋ค. ๋จ์ํ ํด์ฆ๊ฐ ์๋ ํ๋ฌธ์ ๋ ธ๋์ ๊น์ด์ ์ง์ ์ธก์ ํฉ๋๋ค.๋๋ฉ์ธ ํนํ(Domain Specificity)
CMPhysBench๋ AI ๋ชจ๋ธ์ด ์์ง๋ฌผ์ง๋ฌผ๋ฆฌํ์ ๋ณต์กํ ๊ฐ๋ , ๊ทธ๋ฆฌ๊ณ ๋ฌธ์ ๋ฅผ ์ผ๋ง๋ ์ ์ดํดํ๊ณ ์ ์ฉํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
AetherCode๋ ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ ๋ฅ๋ ฅ์, MovieCORE๋ ์ํ์ ๋ํ ์ธ์ง์ ์ธ ์ถ๋ก ์ ํ๊ฐํ๋ค๊ณ ํฉ๋๋ค.
์ง๋ ๋ฒ ํ๋งํฌ์คํธ์์ ์ ๊น ์ธ๊ธํ๋, ๊ด๊ณ ์ฐ์ ์์ ์ฌ์ฉํ๊ธฐ ์ํด์ ๋ง๋ Creativity Benchmark๋ ์ญ์ ๋๋ฉ์ธ ํนํ ๋ฒค์น๋งํฌ๋ผ๊ณ ๋ณผ ์ ์๊ฒ ์ต๋๋ค.๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ถ๋ก (Reasoning across Modalities)
T2I-ReasonBench๋ Text-to-Image ์์ฑ ์์ ์์ AI์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด์, SEAM์ ์ธ์ด์ ๋น์ ๊ฐ์ ์๋ฏธ์ ๋๋ฑ์ฑ์ ํ์ธํ๊ธฐ ์ํด์ ๋ง๋ค์ด์ง ํ๊ฐ ๋ฒค์น๋งํฌ์ ๋๋ค.
SpotEdit๋ ๋น์ฃผ์ผ ํธ์ง์ ์ ๋ฐ๋๋ฅผ ํ ์คํธํ๋ ๊ธฐ์ค์ผ๋ก ํ์ฉํ๊ธฐ ์ํด ๋ง๋ค์ด์ง ๋ฒค์น๋งํฌ์ด๊ตฌ์.
์์ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ๋ AI๊ฐ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ํ๊ฒฝ์์ ํฉ๋ฆฌ์ ์ผ๋ก ์๋ํ๊ณ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์๋์ง๋ฅผ ์ข ํฉ์ ์ผ๋ก ์ธก์ ํ๋ ๋ฐ ๊ธฐ์ฌํ๋ ๊ฒ๋ค์ ๋๋ค.์์ ์ฑ๊ณผ ์ ์์ฑ(Safety and Adaptivity)
Mind the Third Eye!๋ ์ค๋งํธํฐ ์์ด์ ํธ์ ํ๋ผ์ด๋ฒ์ ์ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํด์ AI๊ฐ ๊ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๋ค๋ฃจ๋์ง ์ ๊ฒํ๋ ๋ฒค์น๋งํฌ๊ตฌ์.
InMind๋ AI ๋ชจ๋ธ์ด ๊ฐ๋ณ ์ฌ์ฉ์์ ๋ ํนํ ์ถ๋ก ์คํ์ผ์ ์ ์ํ ์ ์๋์ง๋ฅผ ํ ์คํธํ๋ ํ๊ฐ ๋๊ตฌ๋ก, ๋ง์ถคํ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ์ธก์ ํฉ๋๋ค.๋ ์ด๋ ค์ด ํ๋ก ํฐ์ด(Harder Frontiers)
UQ(Unsolved Questions)๋ AI ๋ชจ๋ธ์ด ๊ณ ์ ๋ ํ ์คํธ์ ์ด ์๋๋ผ ์์ง ํด๊ฒฐ๋์ง ์์ ๋ฌธ์ ์ ๋ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ํ์ ์ ์ธ ๋ฒค์น๋งํฌ์ธ๋ฐ, ๋จ์ํ ์๊ธฐ๋ ๋ต๋ณ์ ํผํ๊ณ ์ฐฝ์์ ๋ฌธ์ ํด๊ฒฐ์ ํ๊ฒ๋ ์ ๋ํฉ๋๋ค - AI๊ฐ ์ค์ ๋ก ๊น์ด ์๋ ์ฌ๊ณ ๋ฅผ ํ ์ ์๋์ง ํ์ธํ๊ณ ์ถ์ ๊ฑฐ์ฃ .๊ณผํ์ ์ถ๋ก ๋ถ๋ฆฌ(Scientific Reasoning Disentangled)
SCIREAS๋ ๋ชจ๋ธ์ด ๋จ์ํ ์ฌ์ค์ ๊ธฐ์ตํ๋ ๊ฒ ์๋๋ผ ๊ณผํ์ ์ผ๋ก "์๊ฐ"ํ ์ ์๋์ง, ๋๋ฉ์ธ ์ง์๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ๋ฆฌํด ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค.
์์์ ๋ง์๋๋ฆฐ, ์๋กญ๊ฒ ๋ฑ์ฅํ๊ณ ์๋ ๋ฒค์น๋งํฌ๋ค์, ๊ธฐ์กด์ ์ฐ๋ฆฌ๊ฐ ๋ง์ด ๋ค์ด์จ MMLU๋ GSM8K ๊ฐ์ ๋ฆฌ๋๋ณด๋ํ๊ณ ๋ ํฐ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด์ โ๋ฒค์น๋งํฌโ๋, โ๊ณ ์ ๋ ์ง๋ฌธ์์ ๋๊ฐ ์ต๊ณ ์ ์๋ฅผ ๋ด๋๊ฐโ๊ฐ ์๋๋ผ, ์์ด์ ํธ๊ฐ ์ํฌํ๋ก๋ฅผ ํ์ํ๊ณ , ํ๋ผ์ด๋ฒ์๋ฅผ ์ ์ ํ ์กด์คํ๊ณ , ์ ๋ฌธ ๋ถ์ผ๋ฅผ ์ ๋๋ก ๋ง์คํฐํ๊ณ , ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ ํ๊ฒฝ์์ ์ถ๋ก ์ ํ ์ ์๋๊ฐ๋ฅผ ๋ฌป๊ณ ์์ต๋๋ค.
๊ฒฐ๊ตญ, ๊ฒ์ผ๋ก๋ ๋จ์ํ ๋ฒค์น๋งํฌ์ฒ๋ผ ๋ณด์ผ์ง ๋ชจ๋ฅด์ง๋ง, ์ฌ์ค์ AI๊ฐ ๊ฐ์ ธ์ผ ํ๋ ์ง์ง ์ญ๋์ด ๋ฌด์์ด์ด์ผ ํ๋์ง์ ๋ํ ์๋ก์ด, ๊ณต๊ฒฉ์ ์ธ ์ฃผ์ฅ์ด๋ผ๊ณ ์๊ฐํด์. ์ด๋ฐ ์ฃผ์ฅ, ์ด๋ฐ ์๋ก์ด ๋ฒค์น๋งํฌ๋ค์ด ์์ผ๋ก AI์ ๋ฐ์ ๋ฐฉํฅ๊ณผ ํ๋ ์์ ์ค์ ํ๊ฒ ๋ ๊ฒ๋๋ค. ๊ทธ๋ฆฌ๊ณ , ์ด๋ค ๋ฒค์น๋งํฌ๋ฅผ ์ ํํ๋๋๊ฐ ์์คํ ๊ทธ ์์ฒด๋งํผ์ด๋ ํฐ ์ํฅ์ ๋ฏธ์น ์ ์๊ตฌ์.
์์ผ๋ก์ ์์ฆ, ๋ ํฅ๋ฏธ๋ก์ด ๋ฒค์น๋งํฌ, ๊ทธ๋ฆฌ๊ณ ํ๊ฐ ์์คํ ์ด ๋ฑ์ฅํ๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
ํ๋ง ํฌ์คํธ์ ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ์ค๋๋ง์ ์ฐพ์๋ต์ต๋๋ค!
์ด๋ฒ ์ฃผ, ๋ญ ๋งํ ๊ฒ ์์ด ๋ชจ๋ ๋ถ์ด ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ, ๊ทธ ์ค์๋ ํนํ ๊ตฌ๊ธ์ ๋๋ ธ ๋ฐ๋๋(Nano-Banana) ์ด์ผ๊ธฐ์ ์ด๊ดํ๊ณ ์๋๋ฐ์. ๊ทธ๋์ ์ค๋ ํ ๋ฒ ์ด๋ฏธ์ง ์์ฑ, ํธ์ง, ๋ฉํฐ ํด ์ด๋ฏธ์ง ์ ๋ฐ์ดํธ(Multi-turn Refinement) ์์ ์ด ํ์ํ๋ค๋ฉด ํ ๋ฒ ์ํํด ๋ณผ ๋งํ ์ด๊ฐ๋ ฅ ๋ชจ๋ธ 10๊ฐ๋ฅผ ์๊ฐํ๋ ค๊ณ ํฉ๋๋ค:
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
Can Machines Think? by Alejandro Piad Morffis
์ด ๊ธ์์๋ ์จ๋ฐ ํ๋ง์ด 1950๋ ์ ๋ฐํํ "Computing Machinery and Intelligence" ๋ ผ๋ฌธ์ ๋ฐํ์ผ๋ก ํด์ "๊ธฐ๊ณ๋ ์๊ฐํ ์ ์๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ํ๊ตฌํ๋๋ฐ, "์ด๋ฏธํ ์ด์ ๊ฒ์"(์ดํ์ ํ๋ง ํ ์คํธ๋ก ๋ฐ์ )์ ํตํด์ ์ ๊ทผํ๋ ํ๋ง์ ๋ ์ฐฝ์ ์ธ ์ ๊ทผ๋ฒ์ ์๊ฐํฉ๋๋ค. ์จ๋ฐ ํ๋ง์ ๊ธฐ๊ณ์ ์ธ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ช ํํ ๊ท์ ํ๊ธฐ๋ณด๋ค๋, ๊ธฐ๊ณ๊ฐ ์ธ๊ฐ์ฒ๋ผ ํ๋ํ ์ ์๋์ง๋ฅผ ํ๊ฐํจ์ผ๋ก์จ ์ฌ๊ณ ์ ๋ณธ์ง์ ๊ฐ์ ์ ์ผ๋ก ๋๋ฌ๋ด๋ ค ํ๋๋ฐ์, ์ด๋ AI๊ฐ ๋จ์ํ ๊ณ์ฐ ๋๊ตฌ๋ฅผ ๋์ด์ ์ง๋ฅ์ ๊ฒฝ๊ณ๋ฅผ ์ด๋ป๊ฒ ํ์ฅํ ์ ์๋์ง์ ๋ํ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด ๋ ผ์๋ AI์ ํ์ฌ์ ๋ฏธ๋๋ฅผ ์๊ฐํ๋ฉฐ ์ฐ๋ฆฌ์๊ฒ ๋ง์ ์๊ฐ์ ์ค ๊ฑฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
2021๋ ๋ถํฐ Madrona์์ Intelligent Applications๋ผ๋ ๋ฆฌ์คํธ๋ฅผ ๋ฐํํ๋ฉด์ AI ๋ถ์ผ์ ๋ฐ์ ์์ ํ๋ก์ฐ์ ํ๊ณ ์๋๋ฐ์. ์ฌํด๋ ์ญ์ AI ๊ธฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ํํธ์จ์ด์ ๋ฏธ๋๋ฅผ ๋ค์ ธ๊ฐ๋ 40๊ฐ์ ํ๋ผ์ด๋น ํ ํฌ ๊ธฐ์ ์ ์๊ฐํฉ๋๋ค. ์์ด์ ํธ ๊ธฐ๋ฐ ์ธํ๋ผ, ์ฐ์ ๋ณ AI ์ ํ๋ฆฌ์ผ์ด์ , ๊ทธ๋ฆฌ๊ณ ์๋น์ ์ธํฐํ์ด์ค์ ํ์ ์ ์ธ ๋ณํ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์คํํธ์ ๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. 340๊ฐ ์ด์์ ํ๋ณด ์ค 27๊ฐ๊ฐ ์ฒ์์ผ๋ก ์ด๋ฆ์ ์ฌ๋ ธ๊ณ , ๋จ ํ๋ Databricks๋ง์ด 2021๋ ๋ถํฐ ๋งค๋ ๋ฆฌ์คํธ์ ์ค๋ฅด๋ฉด์ ๊พธ์คํ๊ฒ ๊ทธ ์ด๋ฆ์ ์๋ํ๊ณ ์๋ค์.
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
FastVLM: Efficient Vision Encoding for Vision Language Models
FastVLM์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ ์ ์๋ ํจ์จ์ ์ธ ๋น์ ์ธ์ด ๋ชจ๋ธ(VLM)๋ก, ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ ๋น์ ์ธ์ฝ๋ FastViTHD๋ฅผ ๋์ ํด์ ์ธ์ฝ๋ฉ ์ง์ฐ์ ์ค์ด๊ณ , ์๊ฐ ํ ํฐ ์๋ฅผ ์ต์ํํด์ ์ ์ง์ฐ ๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ , ๊ธฐ์กด ๋ชจ๋ธ ๋๋น 85๋ฐฐ ๋น ๋ฅธ Time-to-First-Token(TTFT), 3.4๋ฐฐ ์์ ๋น์ ์ธ์ฝ๋ ํฌ๊ธฐ๋ก LLaVA-OneVision๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์ด ๋๋๋ฌ์ง ์ฐจ๋ณ์ ์ด๋ผ๊ณ ํฉ๋๋ค.
๐จ Apple just released FastVLM on Hugging Face - 0.5, 1.5 and 7B real-time VLMs with WebGPU support ๐คฏ
> 85x faster and 3.4x smaller than comparable sized VLMs
> 7.9x faster TTFT for larger models
> designed to output fewer output tokens and reduce encoding time for highโ Vaibhav (VB) Srivastav (@reach_vb)
4:49 PM โข Aug 29, 2025
OLMoASR: A series of open speech recognition models
์ฌ์ฏ ๊ฐ์ ์์ ํ ๊ณต๊ฐ๋ ASR ๋ชจ๋ธ(39M~1.5B ํ๋ผ๋ฏธํฐ)๊ตฐ์ผ๋ก, ์ต๋ 680K ์๊ฐ์ ์์ ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ์ ํ์ต๋๋ค. 21๊ฐ์ Unseen Test Set์ผ๋ก ๋ฒค์น๋งํนํ ๊ฒฐ๊ณผ, OLMoASR-medium.en์ ์งง์ ํ์/๊ธด ํ์์์ ๊ฐ๊ฐ 12.8%/11.0% WER์ ๋ฌ์ฑํ๋ฉด์ Whisper-medium.en๊ณผ ๋ง๋จน๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ ๋์ผํ ๋ฐ์ดํฐ๋ก ํ๋ จํ์ ๋ Whisper-large์์ WER ๊ฒฉ์ฐจ๋ฅผ 0.4%๋ก ์ค์์ต๋๋ค. 3M ์๊ฐ ํ์์ 1M ์๊ฐ์ผ๋ก ํํฐ๋ง๋ ๋ฐ์ดํฐ๋ก ๋ง๋ค์ด์ง OLMoASR๋ ์ฌํ์ฑ, ์๊ฒฉํ ๋ฐ์ดํฐ ํ๋ ์ด์ , ํฌ๋ช ์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
gpt-realtime and Realtime API updates for production voice agents
์ด Speech-to-Speech ๋ชจ๋ธ์ Big Bench Audio์์ 82.8% ์ ํ๋, MultiChallenge์์ 30.5% ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉด์ ์ด์ ๋ฒ์ ์ ๋ฅ๊ฐํ๊ณ ์์ต๋๋ค. ์ด๋ฏธ์ง ์ ๋ ฅ, SIP ์ ํ ํธ์ถ, ์๊ฒฉ MCP ์๋ฒ๋ฅผ ์ง์ํ๊ณ , ๊ธฐ๋ฅ ํธ์ถ ์ ํ๋๋ 66.5%๋ก ํฅ์๋์๊ณ , ๋ ๊ฐ์ ์๋ก์ด ๋ชฉ์๋ฆฌ Marin๊ณผ Cedar๊ฐ ์์ฐ์ค๋ฌ์์ ๋ํ๊ณ ์์ต๋๋ค. ์ ํต์ ์ธ ํ์ดํ๋ผ์ธ๊ณผ ๋ฌ๋ฆฌ ํ ๋จ๊ณ๋ก ์ค๋์ค๋ฅผ ์ฒ๋ฆฌํด์ ์ง์ฐ์ ์ค์์ต๋๋ค.
InternVL3.5: Advancing open-source multimodal models in versatility, reasoning, and efficiency
LLM ๊ธฐ๋ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ๋ก, Cascade Reinforcement Learning(์คํ๋ผ์ธ + ์จ๋ผ์ธ RL)์ ํตํด์ ์ถ๋ก ์ ๊ฐํํด์ MMMU๋ผ๋ ๊ฐ MathVista ๊ฐ์ ์์ ์์ +16.0%๋ผ๋ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. Visual Resolution Router(ViR)๋ ์๊ฐ ํ ํฐ ํด์๋๋ฅผ ๋ค์ด๋๋ฏนํ๊ฒ ์กฐ์ ํ๊ณ , Decoupled Vision-Language Deployment(DvD)๋ GPU ๋ถํ๋ฅผ ๊ท ํ ์๊ฒ ๊ด๋ฆฌํฉ๋๋ค. InternVL3.5-241B-A28B๋ 4.05๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์ฑ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์คํ์์ค ๋ชจ๋ธ ์ค ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ ์์ด์ ํธ ์์ ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
Hermes 4 technical report
ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก LLM ํจ๋ฐ๋ฆฌ๋ก, 5M ํฌ์คํธ ํธ๋ ์ด๋ ์ํ(19B ํ ํฐ)์ ์ฌ์ฉํด์ ๊ตฌ์ถ๋์๋๋ฐ, ๊ทธ ์ค 3.5M์ ์ต๋ 16K ํ ํฐ ๊ธธ์ด์ ์ถ๋ก ์ค์ฌ ์์ ์ ๋๋ค. DataForge๋ฅผ ํตํด์ ๊ตฌ์กฐํ๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , Atropos๋ก ์์ ๋ณ RL ํ๊ฒฝ์์ ๋ฆฌ์ ์ ์ํ๋ง์ ์งํํ๋๋ฐ, 14B/70B/405B ๋ชจ๋ธ์ AIMEโ24์์ 81.9%, LiveCodeBench์์ 61.3%๋ฅผ ๊ธฐ๋กํด DeepSeek-R1์ ๋ฅ๊ฐํ๋ฉด์๋ ๊ณผ๋ํ ์ถ๋ ฅ์ 78% ์ค์์ต๋๋ค. ๋ชจ๋ ๊ฐ์ค์น์ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๊ณต๊ฐ๋๋ ๋ชจ๋ธ์ ๋๋ค.
rStar2-Agent: Agentic reasoning technical report
์ด 14B ํ๋ผ๋ฏธํฐ ์ฌ์ด์ฆ์ ์ํ ์ถ๋ก ๋ชจ๋ธ์ ์์ด์ ํฑ RL๋ก ํ๋ จํ๋๋ฐ, GRPO-RoC๋ผ๋ RL ์ ๋ต์ ํตํด์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ฝ๋ ํ๊ฒฝ์ ์ ์ฒ๋ฆฌํฉ๋๋ค. ๋จ 64 MI300X GPU๋ง ์ฌ์ฉํด์ ํจ์จ์ ์ผ๋ก ํ๋ จ์์ผฐ๊ณ , 510๋ฒ์ RL ๋จ๊ณ๋ก AIME24์์ 80.6%, AIME25์์ 69.8%๋ฅผ ๋ฌ์ฑํด์ DeepSeek-R1(671B)์ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ชจ๋ธ์ Alignment, ๊ณผํ์ ์ถ๋ก , ์์ด์ ํธ์ ๋๊ตฌ ์ฌ์ฉ ์์ ๋ฑ์ ๋ํด์๋ ์ผ๋ฐํ๊ฐ ์ ๋๋ค๊ณ ํฉ๋๋ค.
ํจ์จ์ฑ ๋ฐ ๊ฐ์(Acceleration)
๐ Diffusion Language Models Know the Answer Before Decoding
๋ํจ์ ์ธ์ด ๋ชจ๋ธ(Diffusion Language Model)์ ์ถ๋ก ์๋๋ฅผ ๋์ด๊ธฐ ์ํด์, ์กฐ๊ธฐ ์๋ ด ํ์์ ๊ฐ์งํ๊ณ Full Refinement ์ ์ ํ ํฐ์ ํ์ (Commit)ํ๋ ๋ฐฉ๋ฒ์ ๋์ ํฉ๋๋ค.
โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
๋ฉ๋ชจ๋ฆฌ ๋ ์ด์ด ์ํคํ ์ฒ๋ฅผ ์๋กญ๊ฒ ์ค๊ณํด์, ์ ๋ฌธ๊ฐ ๋ชจ๋ธ(MoE: Mixture of Experts)์ ํจ์จ์ฑ๊ณผ ์ ์ฌํ ์์ค์ ๋ฌ์ฑํ๋ฉด์ ๋ ๊ธด ์ปจํ ์คํธ(Long Context)์ ๋ํด์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ ๋น์ฉ์ ๋ฎ์ ๊ธฐ๋ฒ์ ๊ตฌํํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]๐ Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
๋๊ท๋ชจ LLM ์๋น์ ์ต์ ํํ๊ธฐ ์ํด์ HeteroScale์ด๋ผ๋ ํ๋ ์์์ ๋์ ํฉ๋๋ค. ์ด ํ๋ ์์์ ์ด์ง์ ์ธ GPU๋ค ์ฌ์ด์์ ํ๋ฆฌํ(Prefill) ๋จ๊ณ์ ๋์ฝ๋(Decode) ๋จ๊ณ๋ฅผ ์กฐ์จํ๋ฉด์ ์๋ ์ค์ผ์ผ๋ง์ ์ํํฉ๋๋ค. ์ด๋ ๊ฒ ํด์ GPU ํ์ฉ๋ฅ ์ 26.6% ํฅ์๋๊ณ , ํ๋ฃจ ์์ญ๋ง GPU ์๊ฐ(GPU-Hours)์ ์ ์ฝํ ์ ์์ต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ถ๋ก ๊ฐ์ ๋ฐ ํต์
๐ StepWiser: Stepwise Generative Judges for Wiser Reasoning
์์ฑํ ๋ณด์ ๋ชจ๋ธ(Generative Reward Models)์ ํ๋ จ์์ผ์, ์ค๊ฐ ๋จ๊ณ๋ฅผ '๋ฉํ ์ถ๋ก (Meta-Reason)'ํ๊ฒ ๋ง๋ค์ด ํ๋จ ์ ํ๋์ ์ถ๋ก ํ์(Inference Search) ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]๐ ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
๊ณ์ฐ ๋น์ฉ๊ณผ ์ฑ๋ฅ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด์ ๊ณ (High), ์ค(Medium), ์ (Low) ์์ค์ ์ด์ฐ ์ถ๋ก ๋ชจ๋(Discrete Reasoning Modes)๋ฅผ ๊ตฌํํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?
์ฐ์ฑ ์ถ๋ก (Soft-Reasoning) ๊ณผ์ ์์ CoT(Chain-of-Thought) ๋ฐฉ์์ ์ถฉ์ค์ฑ(Faithfulness)์ ๋ถ์ํ๊ณ , ์ํฅ๋ ฅ(Influence)๊ณผ ์ ๋ขฐ์ฑ(Reliability)์ด ๋ฐ๋์ ์ผ์นํ์ง ์์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
๋๊ตฌ ์ฌ์ฉ ๋ฐ ์ฆ๊ฐ ํ์ต
๐ Provable Benefits of In-Tool Learning for Large Language Models
ํด๋ก ๋ณด๊ฐ๋ ๋ชจ๋ธ(Tool-Augmented Models)์ด Factual Recall์ ํ๋ผ๋ฏธํฐ์ ํ๊ณ๋ฅผ ๋์ด ํ์ฅํ ์ ์๋๋ก ํด ์ค๋ค๋ ๊ฑธ ์ ์ฆํ๊ณ , ๋ชจ๋ธ ๋ด๋ถ์ ์ ์ฅ๋ ์ง์(In-Weight Memorization)๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]๐ Understanding Tool-Integrated Reasoning
ํด ๊ธฐ๋ฐ์ ์ถ๋ก (Tool-Augmented Reasoning)์ ํจ๊ณผ์ ๋ํ ์ฒซ ์ด๋ก ์ ์ฆ๋ช (Theoretical Proof)์ ์ ์ํ๊ณ , ํด ํ์ฉ์ ๊ฐ์ ํ๊ธฐ ์ํ ASPO๋ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฝ๋, ์์, ๋ฉํฐ๋ชจ๋ฌ ์์คํ
๐ Mixture of Contexts for Long Video Generation
๊ธด ๋น๋์ค ์์ฑ ์์ ์์์ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด์ ๋ํจ์ ํธ๋์คํฌ๋จธ(Diffusion Transformer)์ ํฌ์ ์ดํ ์ ๋ผ์ฐํ (Sparse Attention Routing)์ ๋์ ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]Self-Rewarding Vision-Language Model via Reasoning Decomposition
์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM: Vision-Language Model)์์ ์ง๊ฐ(Perception)๊ณผ ์ถ๋ก (Reasoning)์ ๋ถ๋ฆฌํ๊ณ , ๋ ๋ฆฝ์ ์ธ ์ง๊ฐ(Self-Contained Perception)์ ๋ณด์์ ์ฃผ๋ ๋ฐฉ์์ผ๋ก ์๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]๐Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
Pairwise Preference Rewards์ ํตํฉ ๋ฒค์น๋งํฌ๋ฅผ ํตํด์ ํ ์คํธ-ํฌ-์ด๋ฏธ์ง ๊ฐํํ์ต์ ์์ ์ฑ์ ํ๋ณดํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์์ด์ ํธ์ ํ๋ จ
CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent
๊ณผํ ์ปดํจํ GUI ํ๊ฒฝ์์ ์ผ๋ฐ์ ์ธ ๊ณํ์์ ์ ๋ฌธ์ฑ์ ๊ฐ์ง ์คํ์๋ฅผ ๋ถ๋ฆฌ๋ ๊ฐํํ์ต(Decoupled Reinforcement Learning) ๋ฐฉ์์ผ๋ก ๊ฒฐํฉํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]UItron: Foundational GUI agent with advanced perception and planning
100๋ง ์คํ ์ด์์ ๊ฑธ์น SFT(Supervised Fine-Tuning)์ ์ปค๋ฆฌํ๋ผ ๊ฐํํ์ต(Curriculum Reinforcement Learning)์ ํตํด์, ๋ชจ๋ฐ์ผ ๋ฐ PC์ฉ ๋๊ท๋ชจ GUI ์์ด์ ํธ๋ฅผ ํ๋ จ์์ผ์ ์ค๊ตญ ์ฑ์ ์ง๊ฐ, ๊ทธ๋ผ์ด๋ฉ(Grounding), ๊ณผ์ ๊ณํ(Task Planning) ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์์ด์ ํฑ ์์คํ ์ ํ๋ผ์ด๋ฒ์, ์์ , ๋ณด์
๐ Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
MCP(Model Context Protocol) ์์ด์ ํธ์ ์ทจ์ฝ์ ์ ๋๋ฌ๋ด๋๋ฐ, ์ ์์ ์ธ ์์ ๋ค์ด ์ฒด์ด๋(Chaining)์ ํตํด ์๋น์ค ๊ฒฉ๋ฆฌ(Service Isolation)๋ฅผ ์ฐํํ๊ณ ๋ณด์์ ์ํํ๊ฒ ๋ ์ ์๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. โ> [๋ ผ๋ฌธ ๋ณด๊ธฐ]
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply