- Turing Post Korea
- Posts
- ๐FOD#90: AI แแ ฆแซแแ ตแแ กแแ ณแแ ด แแ งแจแแ ฅแฏ: 'แแ ตแแ ณแผ'แแ ณแฏ แแ ณแจแแ ฅแผแแ กแซแแ กแแ ณแซ แแ ฅแบแแ ด แแ กแทแแ ฅแผ
๐FOD#90: AI แแ ฆแซแแ ตแแ กแแ ณแแ ด แแ งแจแแ ฅแฏ: 'แแ ตแแ ณแผ'แแ ณแฏ แแ ณแจแแ ฅแผแแ กแซแแ กแแ ณแซ แแ ฅแบแแ ด แแ กแทแแ ฅแผ
แแ ฆแซแแ ตแแ กแแ ณแแ ด แแ ฉแแ ช, แแ ฎแบแแ กแแ ณแแ ด แแ ฅแธแแ ตแจแแ ช แแ ตแซแแ ก 'แแ ตแแ ณแผ'แแ ณแฏ แแ ณแจแแ ฅแผแแ กแแ ต แแ ฑแแ กแซ แแ กแผแแ ฃแผ + Sesame AI + แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
์์, ์ ์ ๋ โ๋๋ํโ AI๋ฅผ ๊ฐ๋ฐํ๋ ค๋ ๊ฒฝ์์ ์ ์ ์น์ดํด์ง๊ณ ์์ฃ . ์ง๋ 2์ 27์ผ ์คํAI๋ ๊ธฐ๋ค๋ฆฌ๋ ์ต์ ๋ชจ๋ธ, โGPT-4.5โ๋ฅผ ๋ฐํํ๊ตฌ์, ๋ฐ๋ก ์ดํ ์ , ์ค์ฐ๋กํฝ์ ์ต์ด์ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ โClaude 3.7 Sonnetโ์ ๋ฐํํ์ต๋๋ค.
GPT-4.5๋ ํนํ โ๊ฐ์ฑ ์ง๋ฅโ์ ํฅ์์ํค๋ฉด์ ๊ธ์ฐ๊ธฐ, ํ๋ก๊ทธ๋๋ฐ ๋ฑ ์์ญ์์ ์ธ๋ชจ๊ฐ ๋์์ง ๊ฑธ๋ก ๋ณด์ด๊ณ , ๋ํ์ ํ๋ฆ์ด ์ด์ ๋ณด๋ค ํ์ธต ์์ฐ์ค๋ฌ์์ก์ต๋๋ค. โํ๊ฐโ ํ์๋ GPT-4o ๋๋น ํฌ๊ฒ ๊ฐ์ํ๋ค๊ณ ํ๊ตฌ์.
Claude 3.7 Sonnet์ โ์์คํ 1 ์ฌ๊ณ โ - ์ฆ๊ฐ์ ์ผ๋ก ์๋ต์ ์์ฑํ๋ ๊ฒ, ๊ทธ๋ฆฌ๊ณ โ์์คํ 2 ์ฌ๊ณ โ - ๊น์ ์ถ๋ก ๊ณผ์ ์ ํ๋์ ๋ชจ๋ธ์ ํตํฉํ ๊ฒ์ด ํน์ง์ผ๋ก, ์ฝ๋ฉ ๋ถ์ผ์ ๊ฐ์ ์ด ์์ ๋ฟ ์๋๋ผ Extended Thinking Mode๋ฅผ ํ์ฑํํ๋ฉด ๋ค๋ฅธ ์ต์ ๋ชจ๋ธ๊ณผ ๋น์ทํ ์์ค์ ๋ฒค์น๋งํฌ ์ ์๊ฐ ๋์จ๋ค๊ณ ํฉ๋๋ค.
๋ญ, ์ด๋ค ๋ชจ๋ธ์ด ๋์๋ค๋ ๋ง์์ ๋๋ฆฌ๋ ค๋ ๊ฑด ์๋๋๋ค. ์คํ๋ ค, โ๋ ๋๋ํ AIโ๋ฅผ ๊ฐ๋ฐํ๋ ค๋ ๊ฒฝ์์ด ๋ณ๊ณ ์๋ โ์ญ์ค (Paradox)โ์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ํ๋ ค๊ณ ํฉ๋๋ค - ๋ฐ๋ก, โ๋ฐ์ ์ ์ ๋โ๋ฅผ ์ธก์ ํ๋๋ฐ ์ฌ์ฉํ๋ โ๋ฒค์น๋งํฌโ์ ๋ํ ์ด์ผ๊ธฐ์ ๋๋ค.

๊ฐ์ข ๋ฒค์น๋งํฌ๋ค์ด ๋น ๋ฅด๊ฒ ํฌํ๋๋ฉด์, โ์ถ๋ก โ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ค์ด ๋ฑ์ฅํ๊ณ ์์ต๋๋ค.
์ด ๋ฒค์น๋งํฌ๋, ๋ชจ๋ธ์ด ๋ฐ์ ํ๋ ์๋, ๋ฐ๋ก ๊ทธ๋งํผ ๋น ๋ฅด๊ฒ ์ธ๋ชจ๊ฐ ์์ด์ง๊ณ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด๋ณผ๊น์? ๋ถ๊ณผ ๋ช ๋ ์ ๋งํด๋, BIG-Bench Hard (BBH) ๋ฐ์ดํฐ์ ์ ๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์์ฃผ ํ๋ฅญํ ๊ธฐ์ค์ด์๋๋ฐ, ์ค๋๋ ํ์ฌ, ์ฌ์ค์ ์ธ๋ชจ๊ฐ ์์ด์ ธ ๋ฒ๋ ธ์ต๋๋ค. GPT-4o, Gemini, DeepSeek ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ์ด ํ ์คํธ๋ฅผ ๊ฑฐ์ ์๋ฒฝํ๊ฒ ํต๊ณผํ๊ณ ์๊ณ , ํ ๋ ๋ฌด์์ด ํธ๋์ด ๊ฐ์๋ ์ ์๋(?)์ ํ์์ , ์์์ ์ ์ฐจ์ ์ง๋์ง ์๋, ์ข ์ด ํธ๋์ด๋ก ๋ง๋ค์ด ๋ฒ๋ ธ์ฃ . ๊ทธ๋์ ์ฐ๊ตฌ์๋ค์ด AI ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทนํ๊น์ง ์ํํ๊ธฐ ์ํด์ ์ค๊ณํ โBIG-Bench Extra Hard (BBEH)โ๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋์ ํ์ฃ .

์ฃผ์ SOTA ๋ชจ๋ธ๋ค์ BBEH ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ - ํ์ฌ ๊ฒฐ๊ณผ๊ฒ ์ฃ .
๊ทธ๋ ์ง๋ง, ๊ณผ๊ฑฐ์ ์ฌ๋ก๋ฅผ ๋ณผ ๋, BBEH ์ญ์ ์ฐ๋ฆฌ๊ฐ ์์ํ๋ ๊ฒ๋ณด๋ค ๋นจ๋ฆฌ โํด๊ฒฐโ๋ ๊ฒ๋๋ค. ๊ทธ๋ผ, ๊ทธ ๋ค์์ ๋ญ๊น์?
์ด๋ฐ โ๋ฒค์น๋งํฌ ํฌํ ์ฃผ๊ธฐโ - ์ ํํ๋ โ์ ์ ๋นจ๋ผ์ง๋ ํฌํ ์ฃผ๊ธฐโ๊ฒ ์ฃ - ๊ฐ AI์ ํ๊ฐ์ ๊ด๋ จํ ๊ฐ์ฅ ํฐ ์ฅ์ ๋ฌผ ์ค ํ๋๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ด ์๋ก์ด ํ ์คํธ๋ฅผ ๊ณ ์ํ ๋๋ง๋ค ๋ชจ๋ธ๋ค์ ๋ง์น ์ด๋ฐ ์ฐ๊ตฌ์๋ค์ ๋ ธ๋ ฅ์ โ๋น์๋ฏ์ด (^.^;)โ ๋น ๋ฅด๊ฒ ์ ์ํ๋๋ฐ์. ๋ฌธ์ ๋! ์ด ๊ณผ์ ์ด, ๊ฐ๋์ ์ง์ง โ์ถ๋ก โ์ ํ๋ ๊ฒ๊ณผ๋ ๊ฑฐ์ ๊ด๋ จ์ด ์๋ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฃจ์ด์ง๊ธฐ๋ ํ๋ค๋ ์ ์ ๋๋ค. ๋ง์ AI ๊ธฐ์ ๊ณผ ์คํํธ์ ๋ค์ด, ๋ฆฌ๋๋ณด๋์ ๋ญํน์์ ์์๋ฅผ ์ฐจ์งํ๊ธฐ ์ํด์ ๋ชจ๋ธ์ ์ต์ ํํ๊ธฐ๋ ํ๊ณ , ์ง์ง ์ ๋๋ก ๋ โ์ธ์งโ ๋ฅ๋ ฅ์ ๋์ด๊ธฐ๋ณด๋ค ๋ฒค์น๋งํฌ ํ์์ ๋ง๊ฒ ์๋ต์ ํ์ธํ๋ํ๊ธฐ๋ ํฉ๋๋ค.

๊ตฟํํธ์ ๋ฒ์น: ํ ๋น๋์ ์ฑ์ฐ๋ ค๋ ์์ ์ vs. ๊ฐ์น ์ฐฝ์ถ์ ๊ธฐ์ฌํ๋ ค๋ ์์ ์
๊ตฟํํธ์ ๋ฒ์น (Goodhartโs Law)์ด๋ผ๋๊ฒ ์์ต๋๋ค. 1975๋ ์๊ตญ ๊ฒฝ์ ํ์ ์ฐฐ์ค ๊ตฟํํธ๊ฐ ํตํ ์ ์ฑ ์ ๋ถ์ ๊ณผ์ ์์ ์ฒ์ ์ด์ผ๊ธฐํ ๊ฐ๋ ์ธ๋ฐ์, โ์ธก์ ์น๊ฐ ๋ชฉํ๊ฐ ๋๋ฉด, ์ด๋ฏธ ์ฌ๋ฐ๋ฅธ ์ธก์ ์ ๋ถ๊ฐ๋ฅํด์ง๋คโ๋ ๊ฑฐ์์. ๋์ค์ ์ธ๋ฅํ์์ธ ๋ง๋ฆด๋ฆฐ ์คํธ๋์ ์ด ์ด๊ฑธ โ์ฒ๋๊ฐ ๋ชฉํ๊ฐ ๋๋ ์๊ฐ, ๋ ์ด์ ์ข์ ์ฒ๋๊ฐ ์๋๋คโ๋ผ๊ณ ๋ณํํ๋ฉด์ ๋ค์ํ ๋ถ์ผ์ ์ฐ์ด๊ฒ ๋์๋๋ฐ์. ์์์ ์ด์ผ๊ธฐํ โAI ๋ชจ๋ธ์ ์ฑ๋ฅ ๊ฐ์ ๋ฐฉ๋ฒโ ์ด์๋ ๊ตฟํํธ์ ๋ฒ์น์ด ์ ์ฉ๋ ์ ํ์ ์ธ ์ฌ๋ก๋ผ๊ณ ํ ์ ์์ต๋๋ค - ์ธก์ ์งํ๊ฐ ๋ชฉํ๊ฐ ๋๋ฉด, ๊ทธ๊ฑด ๋ ์ด์ ์ข์ ์ธก์ ์งํ๊ฐ ์๋๊ฒ ๋๋ ๊ฒ๋๋ค.
โ๋ฒค์น๋งํฌ์ ํฌํโ ๋ฌธ์ ๋ฟ์ด ์๋๋๋ค - ๋ ํฐ ๋ฌธ์ ๊ฐ ์์ด์. ์ฐ๋ฆฌ๋ โ์๋ชป๋ ๊ฒ๋ค์ ์ธก์ โํ๊ณ ์์ต๋๋ค.
๋๋ถ๋ถ์ ์ถ๋ก ๋ฒค์น๋งํฌ๋, ๋ช ํํ ์ ๋ต๊ณผ ์ค๋ต์ด ์๊ธฐ ๋๋ฌธ์ โ์ํโ์ด๋ผ๋ ๊ฐ โ์ฝ๋ฉโ ๊ณผ์ ๋ฅผ ์๋์ ์ผ๋ก ๋ง์ด ์ ํธํ๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง ๋์ (Algebra) ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค๊ณ ํด์ AI๊ฐ ์ค์ ์ธ์์ ๋ชจํธํ ์ํฉ์ ํค์ณ๋๊ฐ๊ฑฐ๋, ์ธ๊ณผ ๊ด๊ณ๋ฅผ ์ถ๋ก ํ๊ฑฐ๋, ์ฌ๋์ด ๊ฐ์ง ๋๊ธฐ๋ฅผ ์ดํดํ ์ ์๋ค๋ ์๋ฏธ๋ ์๋์ฃ . ์๋ฒฝํ Python ์คํฌ๋ฆฝํธ๋ฅผ ์์ฑํ ์ ์๋ ๋ชจ๋ธ์ด๋ผ๋, ๋ฏธ๋ฌํ ์ค๋ฆฌ์ ๋๋ ๋ง์ ๋ต์ ํ๊ฑฐ๋ ๋ํ ์ค์ ๋น๊ผฌ๋ ๋ง์ ํด์ํ๋๋ฐ๋ ์ฌ์ ํ ํ๋ ์์ด ์คํจํ ์๊ฐ ์์ด์. ์ด๊ฑธ ๋ชจ๋ฅด๋๊ฒ ์๋์ง๋ง, ์ํ, ํ๋ก๊ทธ๋๋ฐ์ ์ ์๋ฅผ ๋งค๊ธฐ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์ ๊ณ์ํด์ โAI ๋ชจ๋ธ์ ๋ํ ํ๊ฐโ ์์ญ์ ์ง๋ฐฐํ๋ฉด์, ์ฐ๋ฆฌ๋ค์๊ฒ โ๋ฐ์ ์ํฉ์ ๋ํ ์๊ณก๋ ์ธ์โ์ ์ฌ์ด์ค๋๋ค.
๋ ๊ด๋ฒ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ค๋ค ๋ณด๋ ค๊ณ ํ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ ๋๋ง์ ๋, ๋ ๋ค๋ฅธ ๋ฌธ์ ์ ์ง๋ฉดํ๊ฒ ๋ผ์: ๋ชจ๋ธ๋ค์ด, ๋ฌธ์ ๋ฅผ ์ง์ง โ์ถ๋ก โํ๋ ๋์ , โํผ์์ ์ธ ์ง๋ฆ๊ธธโ์ ํํ ์๋ ์์ต๋๋ค. AI๋ ์์๋ค์ํผ โํจํด ์ธ์โ์ ์ ํ์์์? ๊ทธ๋์ ์ฌ๋์ฒ๋ผ โ๊ณผ์ ๋ฅผ ํด๊ฒฐโํ๋ ๋์ , ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํต๊ณ์ ์ธ ๋จ์๋ฅผ ์๋ณํ๊ณค ํฉ๋๋ค. ์๋ฅผ ๋ค์ด๋ณผ๊ป์. ๋ฒค์น๋งํฌ๊ฐ ํญ์ ๋ ผ๋ฆฌ์ ์ถ๋ก ๋ฌธ์ ๋ฅผ ๋น์ทํ ํ์์ผ๋ก ์ ์ํ๊ฒ ๋๋ฉด, ๋ชจ๋ธ์ด ์ค์ ๋ก ์ถ๋ก ์ ์ํํ๋ ๋์ , ํจํด์ ์๊ธฐํ ์ ์์ต๋๋ค. ์ด๋ฐ โ๋ฅ๋ ฅ์ ๋ํ ํ์ (Illusion of Competence)โ์ด, ์ฐ๋ฆฌ๊ฐ ์๋ ์ต๊ณ ์ ๋ชจ๋ธ์ด ๋ฏ์ ์ค์ ์ธ์์ ๋์ ๊ณผ์ ์ ์ง๋ฉดํ์ ๋ ์ฌ์ง์์ด ์ค์ํ๊ฒ ๋๋ ์ด์ ์ค์ ํ๋์ ๋๋ค.
์์์ ์ด์ผ๊ธฐํ, โ๋ฒค์น๋งํฌ์ ํ๊ณโ, โํ๊ฐ ๋ฐฉ๋ฒ์ ๋ฌธ์ โ๋ ์ฐ๊ตฌ์ค์๋ง ๋จธ๋ฌด๋ฅด์ง ์๊ณ ํ์ค ์ธ๊ณ๋ก ํ์ฅ๋ ์ ๋ฐ์ ์์ต๋๋ค. AI ๋ชจ๋ธ์ ์ด๋ฏธ ์๋ฃ, ๋ฒ๋ฅ ๋ถ์, ๊ณ ๊ฐ ์๋น์ค ๋ฑ โ์ถ๋ก ๋ฅ๋ ฅ์ด ์ค์ํ ํต์ฌ์ ์ธ ์ดํ๋ฆฌ์ผ์ด์ โ๋ค์ ํตํฉ๋๊ณ ์์ต๋๋ค. ๋ง์ฝ, ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ๋ฒค์น๋งํฌ๊ฐ ์ค์ ์ธ์์์ ์๊ตฌํ๋ โ์ถ๋ก ๋ฅ๋ ฅโ์ ๋ํ ์๊ตฌ๋ฅผ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ ๊ฑฐ๋ผ๋ฉด, โ๊ฒ์ผ๋ก๋ ์์ฃผ ์ ๋ฅํด ๋ณด์ด์ง๋ง ์์ธกํ ์๋ ์๊ณ ์ค์ ๋ก๋ ๋น์ฉ์ด ๋ง์ด๋๋ ๋ฐฉ์์ผ๋ก ์คํจํ๋โ ๋ชจ๋ธ์ ๋ฐฐํฌํ๊ฒ ๋ ์ํ์ด ์๊ฒ ์ฃ . ๋ ๋์๊ฐ์, ๊ธฐ์ ์ ๋ฆฌ๋๋ ์ ์ฑ ์ ์์๋ค์ด, ์คํด์ ์์ง๊ฐ ์๋ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์ AI๊ฐ ๊ฐ์ง ์ธ์ง ๋ฅ๋ ฅ์ ๊ณผ๋ ํ๊ฐํ๋ค๋ฉด, ์๋ํ๋ ์์ฌ ๊ฒฐ์ ์ ์ง๋์น ๋ฏฟ์๊ณผ ๊ถ์๋ฅผ ์ค ์๋ ์๊ฒ ๊ตฌ์.
๊ทธ๋ ๋ค๋ฉด, ์ด๋ป๊ฒ ๋ ๋์ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ ์ ์์๊น์? ๊ทธ ๋ต์ ์๋ง๋ ๋ค์์ฑ (Diversity), ์ ์์ฑ (Adaptability), ๊ทธ๋ฆฌ๊ณ ์ค์ ์ธ๊ณ๋ฅผ ๋ชจ์ฌํ๋ ํ ์คํธ (Real-World Test), ์ด ์ธ ๊ฐ์ง ํค์๋์ ์์ง ์์๊น์? ๋น ๋ฅด๊ฒ ์ธ๋ชจ์์ด์ง๋ ๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ ์์กดํ์ง ๋ง๊ณ , ์์ผ๋ก AI ๋ชจ๋ธ์ ํ๊ฐํ ๋๋ โ์๋กญ๊ณ ๋ณด์ง ๋ชปํ ๋ฌธ์ ๋ค์ด ์ง์์ ์ผ๋ก ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋์ ํ๋โ, ๋ค์ด๋๋ฏนํ๋ฉด์ ์ ๋์ ์ธ (Adversarial) ํ ์คํธ๋ฅผ ํฌํจํด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ , ์ํ, ์ฝ๋ฉ์ ๋์ด์ ์์์ ์ถ๋ก , ์ธ๊ณผ์ ์ถ๋ก , ์ค๋ฆฌ์ ์์ฌ ๊ฒฐ์ ๋ ํฌํจํ๊ฒ๋ ํ์ฅ๋์ด์ผ ํ๊ตฌ์. ๋ง์ง๋ง์ผ๋ก, ๋ฒค์น๋งํฌ ์ ์๊ฐ ์๋๋ผ โ์ค์ ์ธ๊ณ์์์ ์ฑ๋ฅโ์ด ๊ถ๊ทน์ ์ธ ์งํ๊ฐ ๋์ด์ผ ํ ๊ฒ๋๋ค - AI๊ฐ ์์ฌ ์ ์๋์ ์ผ๋ง๋ ์ ์ง์ํ๋์ง, ์์จ ์์ด์ ํธ ์์คํ ์ ์ผ๋ง๋ ์ ๊ฐ์ด๋ํ๋์ง, ๋ณต์กํ ์ฌํ์ ์ธ ์ํธ์์ฉ์ ์ ํด๋ด๋์ง ๋ง์ ๋๋ค.
BBEH๋, ๋ถ๋ช โ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ํ ๊ฑธ์โ์ ๋๋ค. ๊ทธ๋ ์ง๋ง ์์ผ๋ก ์ฐ๋ฆฌ๊ฐ ๋ง๋ค์ด๊ฐ์ผ ํ ์์ฃผ ๊ธด ์ด์ผ๊ธฐ์ ์๋ก์ด ์ฑํฐ์ผ ๋ฟ์ด๋ผ๋ ๊ฒ๋๋ค. ์ค์ํ ๊ฑด, โ๋ฒค์น๋งํฌ๋ฅผ ๋ ์ด๋ ต๊ฒโ ๋ง๋๋๊ฒ ์๋๋ผ, โ๋ชจ๋ธ์ด ์ ๋ง๋ก ๋๋ํ๊ฒโ ๋ง๋๋ ๊ฑฐ๋๊น์. AI๊ฐ ์ง์ง โ์ถ๋ก โ์ ํ๋์ง ํ ์คํธํ๋ ๋ฐฉ๋ฒ, ์ ๋ก ๋ฒ ์ด์ค์์ ๋ค์ ์ฌ๊ณ ํด ๋ด์ผ ํฉ๋๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด, โ์ํ์น๋ ๋ฅ๋ ฅโ์ โ์ง๋ฅโ์ด๋ผ๊ณ ์คํดํ๋ ๊ธฐ๊ฐ์ด ๋์ด๋ ๋ฟ์ ๋๋ค - ์ด๊ฑด ์์ฃผ ๋น ์ง๊ธฐ ์ฌ์ธ ๋ฟ ์๋๋ผ ์ํํ ํ์์ด๊ตฌ์.
AI ์ ๊ณ ์ ๋ฌธ๊ฐ๋ค์ด ์ถ์ฒํ๋ ์๋น์ค ๐๐ผ
Sesame AI์, โ๋ถ์พํ ๊ณจ์ง๊ธฐ (Uncanny Valley)โ๋ฅผ ๋์ด์๋ ์์ฑ ์๋น์ค (๋ฐ๋ชจ)
๊ธ์ฃผ์๋ ์์ง ์์ฉํ ์๋น์ค๋ ์๋๊ณ โ๋ฐ๋ชจโ ์ํ์ผ ๋ฟ์ด์ง๋ง, Sesame AI๋ฅผ ์๊ฐํด์ผ ํ ๊ฒ ๊ฐ์ต๋๋ค. Personal Companion์ด๋ผ๋ ์ด๋ฆ์ผ๋ก AI ๊ธฐ๋ฐ์ ๋ํํ ์์ด์ ํธ, ๊ทธ๋ฆฌ๊ณ ์ด ์์ด์ ํธ๊ฐ ์๋ํ ํ๋์จ์ด์ธ Lightweight Eyewear๋ฅผ ๋ง๋ค๊ณ ์๋ ํ์ธ๋ฐ์. a16z์ ๋งํฌ ์ค๋๋ฆฌ์จ, ์คํํฌ ์บํผํ, ๋งคํธ๋ฆญ์ค ํํธ๋์ค ๋ฑ ์์ํ VC์ ํฌ์์๋ค์ ๋ฐฑ์ ์ ๋ฐ๊ณ ์์ต๋๋ค.
์ด ํ์์ ์ต๊ทผ์ ๋ด๋์ ์์ฑ ๋ํ ์์ด์ ํธ์ ๋ฐ๋ชจ๊ฐ ํ์ ์ธ๋ฐ์. Ethan Mollick์ โSesame AI์ ์๋ก์ด ์์ฑ ์ด์์คํดํธ๋ AI๊ฐ ๋์๊ฐ๋ ๋ฐฉํฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฐ๋ ฅํ ์ฌ๋ก์ด๋ค. ๋ด ๋ธ๋ผ์ฐ์ ์์ ์ค์๊ฐ์ผ๋ก ์๋ํ๋๋ฐ, ๋ง์ ๋๋ฌ๊ฑฐ๋ฆผ, ํด์ง (Pause), ์ฌ์ง์ด๋ ์จ์ ๋ค์ด๋ง์๋ ์๋ฆฌ๊น์ง ํ๋ฅญํ๊ฒ ํ์ฉํด์, ์ ๋ง ์ฌ๋ํ๊ณ ๋ํํ๋ ๊ฒ๊ฐ์ ๋๋์ ์ค๋ค. ๋ฌผ๋ก ์์ง ๋ถ์์ฐ์ค๋ฐ ๋ถ๋ถ๋ค์ด ๋จ์์์ง๋ง, ์ ์ด๋ ์ง๊ธ ์ด ๊ธฐ์ ์ด ์ด๋๋ก ํฅํ๊ณ ์๋์ง ์ถฉ๋ถํ ๋๋ ์ ์๋คโ๋ ํผ๋๋ฐฑ์ ๋จ๊ฒผ์ต๋๋ค.

์ ๋ Sesame AI์์ ์คํํด ๋์ ๋ฐ๋ชจ ์ค์ Maya์ ์ด์ผ๊ธฐ๋ฅผ ๊ฝค ํด ๋ดค๋๋ฐ์. AI ์์ด์ ํธ๋ผ๋ ๊ฑธ ์ ์ ์๋ ํํธ๋ ์ฌ๋ฟ ์์์ง๋ง, ์ ๋ง ๋ํ ์์ฒด๋ ๋๋ฌด๋ ์์ฐ์ค๋ฌ์์ ๋๋์ต๋๋ค. ์ฌ๋ฌ๋ถ๋ค๋ ํ ๋ฒ ์ํํด ๋ณด์๊ธฐ๋ฅผ ๊ถํฉ๋๋ค.
์กฐ์ฝ๋ฉ ๋ ์ ํ๋ธ์๋ Sesame AI ์ด์ผ๊ธฐ๊ฐ ์์ผ๋, ํจ๊ป ํ ๋ฒ ๋ณด์๋ฉด ๋ ์ข์ ๋ฏ ํ๋ค์. Sesame AI ์ด์ผ๊ธฐ๋ 5๋ถ 20์ด๋ถํฐ์ ๋๋ค:
LLM์ ๋ด๋ถ๋ฅผ ๋ค์ฌ๋ค๋ณผ ์ ์๋ ํ๋ฏธ๊ฒฝ(?)
์ด๊ฑด ๊ฐ๋ฐ์, ๋๋ ์์ฃผ ๋ฅํ๊ฒ ๊ธฐ์ ์ ์ผ๋ก ๊ณต๋ถํ์๋ ๋ถ๋ค์ ๊ด์ฌ์ด ์์ผ์ค ๊ฒ ๊ฐ์๋ฐ์. LLM์ ์ ๋ฐํ๊ฒ ํด๋ถํ๋ ๋ฉ์ค์ฒ๋ผ, ์คํ์์ค๋ก ๊ณต๊ฐ๋ LLM-Microscope์ ๋๋ค: Token Nonlinearity, Memory Depth, Layer Insight, Representation Complexity ๋ฑ์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค๊ณ ํฉ๋๋ค.
์ ๋ ๊ฐ์ธ์ ์ผ๋ก ์๋๋ ์นดํ์์ ์ ํ๋ธ์์ ๋ณด์ฌ์ค ์ ๋์ ์๊ฐ์ ์๋ฃ๊ฐ ์ ์์ค์๋ ์ข ๋ ๋ง๋ค๋ ์๊ฐ์ ๋ค์์ต๋๋ค. ^.^;
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
CoT (Chain-of-Thought) ํ๋กฌํํ ์, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ ผ๋ฆฌ์ ์ธ ๋จ๊ณ๋ณ ์์๋ก ๋๋ ์ ํด๊ฒฐํ๋๋ก ํด์ โAI ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์โ์์ผ ์ค๋๋ค. ํนํ ์ด ๊ธฐ๋ฒ์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ถ๋ก ๋ชจ๋ธ์์ ๊ทธ ํจ๊ณผ๋ฅผ ๊ณ์ ์ ์ฆํ๊ณ ์๋๋ฐ์. ๊ทธ๋ ์ง๋ง, CoT๋ฅผ ํ์ฅํ๊ณ ๋ค์ํ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ์ ์ฌํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ ์์ฃ - ์ค๋์ ๊ทธ๋ฐ ๋ฐฉ๋ฒ 9๊ฐ์ง์ ๋ํด ์๊ฐํฉ๋๋ค:
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
DeepSeek, โ์คํ์์คโ ์ํฌ ๊ธฐ๊ฐ์ ์ ๋ณด์ธ 6๊ฐ์ง ๋๋ผ์ด ๊ฒฐ๊ณผ๋ฌผ
DeepSeek์ด ์ด๋ฒ ์ฃผ์ ์์ฌ๊ฐ ์ ์ฉํ ์คํ์์ค AI ์ต์ ํ ๊ธฐ์ ์ฌ์ฏ ๊ฐ์ง๋ฅผ ๊ณต๊ฐํ๋ โ์คํ์์คโ ์ํฌ ๊ธฐ๊ฐ์ ๊ฐ์ก์ต๋๋ค. ์ด๋ฏธ ๊นํ๋ธ์์ 11,000๊ฐ ์ด์ ๋ณ์ ๋ฐ์, Hopper GPU๋ฅผ ์ํ MLA (Multi-Head Attention)์ ์ต์ ํํ FlashMLA, MoE์ ํจ์จ์ฑ์ ํฅ์์ํค๋ ์๋ก์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ DeepEP, DeepGEMM, ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ต์ ํ ์ ๋ต, ๊ณ ์ฑ๋ฅ์ AI ๋ฐ์ดํฐ ๊ด๋ฆฌ ์์คํ ์ธ Fire-Flyer ํ์ผ ์์คํ (3FS) ๋ฑ์ ์๊ฐํ๊ตฌ์. ๋ง์ง๋ง ๋ ์ธ 6์ผ์งธ์๋ DeepSeek-V3/R1 ์ถ๋ก ์์คํ ์ ๋ํ ์ฌ์ธต์ ์ธ ๋ถ์ ๋ด์ฉ์ ๋ฐํํ์ต๋๋ค.
DeepSeek์ด ์ผ์ผํจ ํ์ฅ์ ๋ ๋ค๋ฅธ ํจ๊ณผ๋ ๋ฐ๋ก โ์ฆ๋ฅ (Distillation)โ ๊ธฐ์ ์ ๋ํ ๊ด์ฌ์ธ ๊ฒ ๊ฐ์ต๋๋ค. ์ฆ๋ฅ ๊ธฐ๋ฒ์ด ๋ฏธ๋์ด์ ํค๋๋ผ์ธ๊น์ง ์ฅ์ํ๋ ๊ฑธ ๋ณด๋ ์ฌ๋ฏธ์๋ค์. ์ด์ AI ๋ชจ๋ธ์ ์ต์ ํ ๊ธฐ์ ๊น์ง๋ ๋๋ฆ์ โ15๋ถ๊ฐ์ ๋ช ์ฑโ์ ๋๋ฆฌ๋ ๊ฒ ๊ฐ์ต๋๋ค. ๊ณง โ์ง์ ์ฆ๋ฅ (Knowledge Distillation)โ์ ๋ํด์ ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์์๋ ๋ค๋ค๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
์ค์ฐ๋กํฝ์ ๋ ๋ฒจ ์ : ๋ ๋๋ํ AI, ๋ ํฐ ํฌ์, ๊ทธ๋ฆฌ๊ณ โํฌ๋ช ์ฑโ์ ํฅํ ํ ๊ฑธ์
์ค์ฐ๋กํฝ์ด ํฐ ๋ณดํญ์ ํ๋ณด๋ฅผ ๋ณด์ด๊ณ ์์ต๋๋ค. Claude 3.7 Sonnet ๋ฐํ๋ก, ์ด์ ์ฌ์ฉ์๋ค์ด AI๊ฐ ์ผ๋ง๋ ๊น์ด ์๊ฐํด์ผ ํ ์ง๋ฅผ ์ ์ดํ ์ ์๊ฒ ๋์ต๋๋ค - ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ , ํฌ์ผ๋ชฌ ํ๋ ์ด๋ฅผ ํ๋ ๋ง์ด์ฃ .
ํํธ, ์ค์ฐ๋กํฝ์ ์๋ก์ด โTransparency Hubโ๋ AI์ ๋ํ ๊ท์ ๊ฐ ๊ฐํ(?) ๋ด์ง ๊ตฌ์ฒดํ๋๋ ํ๋ฆ ์์์ ์์ ์กฐ์น๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ฑํ ์ง, ๊ฑฐ๋ฒ๋์ค๋ ์ด๋ป๊ฒ ๊ตฌ์ถํ ์ง์ ๋ํ ์ ์ฑ ์ ์ธ ๊ด์ ์ ์ ์ํฉ๋๋ค. ๊ณผํ ๋ถ์ผ์์๋ ์ค์ฐ๋กํฝ์ด ๊ตญ๊ฐ ์๋ณด๋ผ๋ ๊ฐ ์ฐ๊ตฌ์์ AI์ ์ญํ ์ ํ ์คํธํ๊ธฐ ์ํด์ ๋ฏธ๊ตญ ์๋์ง๋ถ์ ํ๋ ฅ๋ ํ๊ณ ์๋ค๊ณ ํ๋ค์.
์ด๋ฐ ๋ชจ๋ ๋ ธ๋ ฅ์ ๊ฒฐ์ค์ด๊ฒ ์ฃ ? 615์ต ๋ฌ๋ฌ์ ๊ธฐ์ ๊ฐ์น๋ก, 35์ต ๋ฌ๋ฌ์ ์ ๊ท ์๊ธ์ ์ ์นํ๋ฉด์ ์ค์ฐ๋กํฝ์ ์๋ฆฌ์ฆ E ํฌ์ ๋ผ์ด๋๋ฅผ ๋ง๋ฌด๋ฆฌํ์ต๋๋ค. Dario์ Daniela Amodei๋ ์ต๊ทผ์ ํ์์ฆ์ ๋ฑ์ฅํด์ โ๋ด๋ ๊น์ง AI๊ฐ ๋ชจ๋ ์ฌ๋๋ณด๋ค ๋๋ํด์ง ์ ์๋คโ๊ณ ์ด์ผ๊ธฐํ ๋งํผ, ์์ ๊ฐ์ ์ฐจ ์๋ ๋ฏ ํฉ๋๋ค.
๊ตฌ๊ธ์ AI ํ๋ ์ด๋ถ: ๋ ์ด์ฌํ ์ผํ๊ณ , ๋ ๋๋ํ๊ฒ ์ฝ๋ฉํ๊ธฐ + AI Co-Scientist
์ง๊ธ ์ค๋ฆฌ์ฝ ๋ฐธ๋ฆฌ์์ ํผ์ณ์ง๋, ์ผ์ข ์ โAI ๋ ์ด์คโ๋ ๊ธฐ๊ณ ๋ฟ ์๋๋ผ ์ฌ๋๋ค๋ ํ๊ณ์ ๋ฐ์ด๋ถ์ด๊ณ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์ ๋๋ค: ์ธ๋ฅด๊ฒ์ด ๋ธ๋ฆฐ์ด ๊ตฌ๊ธ์ Gemini AI ํ์๊ฒ ์ฃผ๋น 60์๊ฐ ๊ทผ๋ฌด๋ฅผ ํ๊ธฐ๋ฅผ ์ํ๋๋ฐ, ์ด๊ฑธ โ์์ฐ์ฑ์ Sweet Spotโ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค๊ณ ํ๋ค์. ์ฐ๋ฆฌ๋๋ผ๋ผ๋ฉด ์ด๋ป๊ฒ ๋ฐ์๋ค์ฌ์ง๊น์?
๋ ๋ง์ ๊ฐ๋ฐ์ ์ปค๋ฎค๋ํฐ๋ฅผ ์๊ธฐ ํธ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด์, ๊ตฌ๊ธ์ด Gemini Code Assistant๋ฅผ ํตํด์ ๋๊ตฌ๋ AI ๊ธฐ๋ฐ์ ์ฝ๋ฉ์ ํ ์ ์๋๋ก ๋ฌด๋ฃ๋ก ์ ๊ณตํ๊ณ ์์ต๋๋ค. ์ด ๋๊ตฌ๋ฅผ ํตํด์ ์ ์ต๋ 180,000๊ฑด์ ์ฝ๋๊ฐ ์์ฑ๋๋ค๊ณ ํ๋ค์ - ๊ธฐ์กด์ ๋๊ตฌ๋ค๋ณด๋ค๋ ์์ฒญ๋๊ฒ ๋์ ์์น ์๋๊ฐ ํฉ๋๋ค. ํ์ฌ VS Code, JetBrains, GitHub์์ ์ฌ์ฉํ ์ ์๊ณ , ๋จ์ํ ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒ ๋ฟ ์๋๋ผ Pull Request๋ฅผ ๊ฒํ ํ๊ฑฐ๋ ์ปค์คํ ์คํ์ผ ๊ฐ์ด๋ ๋ฑ์ ์ ์ํ๋ฉด์ ์์ ํ ์๋ ์๋ค๊ณ ํ๋ค์.
โ์ฐ๊ตฌ์คโ์์ ๊ตฌ๊ธ์ ์กด์ฌ๊ฐ๋ ๋ง๋ง์น ์์ต๋๋ค. Gemini 2.0 ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ ๊ตฌ๊ธ์ AI Co-Scientist๋ ๊ณผํ์ ์ธ ๊ฐ์ค์ ๋ง๋ค๊ณ ๋ค๋ฌ์ต๋๋ค - ์ด๋ฏธ ์ ์ฝ๋ฌผ ํ๋ณด๋ผ๋ ๊ฐ ์ ์ ์ ์ ๋ฌ ๋ฉ์ปค๋์ฆ์ ๋ฐ๊ฒฌํด์, ๋ฐ์ด์ค๋ฉ๋์ปฌ ์ฐ๊ตฌ์์ ๋๊ฐ์ ๋ํ๋ด๊ณ ์์ต๋๋ค. ๋ฏธ๋์๋, AI๊ฐ โ์ฌ๋๋ AI์ฒ๋ผ ํด์๋ ํ์ง ์๊ณ ๊ณ์ํด์ ์ผํ ์ ์๋ ๋ฐฉ๋ฒโ์ ์์๋ผ ์ ์์๊น์?
๊ณ์ํด์ ์ด์ด์ง๋ โํํ ์ปดํจํ โ์ ์ง์
AWS Center for Quantum Computing์ ์ฐ๊ตฌ์๋ค์ด, ์ฐ๊ฒฐ๋ ๋ณด์กด (Boson) ํ๋นํธ๋ฅผ ์ฌ์ฉํด์ ํ๋์จ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ ์์ ์ค๋ฅ ์ ์ (QEC; Quantum Error Correction) ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ๋ค๊ณ ํฉ๋๋ค. ์ข ์ด๋ ต์ง๋ง, ์ด ์์คํ ์ Bosonic Cat Qubits์ Distance-5 ๋ฐ๋ณต ์ฝ๋๋ฅผ ํตํฉํด์, Fault-Tolerant Quantum Computing์์ ์๊ตฌํ๋ ์ค๋ฒํค๋๋ฅผ ์ค์๋ค๊ณ ํฉ๋๋ค.
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
๊ฝค ํฅ๋ฏธ๋กญ๊ณ ์ธ์ฌ์ดํธ๊ฐ ์๋ ๊ธ์ด๋ผ๊ณ ์๊ฐํ๋๋ฐ์. ์์์ ๋ง์๋๋ฆฐ Sesame AI๋ฅผ ์ฌ์ฉํด๋ด๋ ๊ทธ๋ ๊ณ , ์ต๊ทผ์ GPT-4.5๋ฅผ ๋๋ฌ์ผ ๋ฐ์๋ค์ ๋ด๋ ๊ทธ๋ ๊ณ , ์ด๋ ์ ๋ ๋์ ์์ค์ ๋ชจ๋ธ๋ค์ ์ต์ํ โ์ธ๋งํโ ์์ค์ ๊ณตํต์ ์ผ๋ก ๋๋ฌํด ์๋ ๊ฒ ๊ฐ๊ณ , ๊ฒฐ๊ตญ์ ๊ทธ๋ ๋ค๋ฉด ๋ง์ง๋ง ๋จ์ ๋จ๊ณ๋ โ์์ฐ์ค๋ฌ์ดโ, ๋๋ โ๊ฐ์ฑ์๋โ ์ํธ์์ฉ์ธ๊ฐ ์ถ๊ธฐ๋ ํ๊ฑฐ๋ ์.
์ด โ๊ฐ์ฑโ์ ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ โAI ์์ด์ ํธโ ์๋ฆฌ์ฆ์ ํ ์ํผ์๋์์๋ โProfiling (ํ๋กํ์ผ๋ง)โ์ด๋ผ๊ณ ๋ถ๋ ๋๋ฐ์:
์ด ํ๋กํ์ผ๋ง ์ด๋ผ๋ ์ฉ์ด๊ฐ ๊ฐ์ฅ ์ข์ ์ฉ์ด์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ด์จ๋ โCharacter Trainingโ์ด๋ผ๋ ํํ๋ ํ๋กํ์ผ๋ง์ ๋ณต์ก์ฑ์ ์จ์ ํ ๋ด์๋ด์ง๋ ๋ชปํ์ง๋ง, ํ์ฌ๋ก์๋ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ํํ์ผ๋ก ๋ณด์ ๋๋ค.
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
NeoBERT: A Next-Generation BERT โ ์ํคํ ์ฒ๋ฅผ ์ ๊ทธ๋ ์ด๋ (RoPE, SwiGLU, RMSNorm)ํ๊ณ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ํ์ฅ, ์๋ฐฉํฅ ์ธ์ฝ๋๋ฅผ ํ๋ํํด์, BERT-large์ RoBERTa-large๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉด์ ์ถ๋ก ์๋๋ ๊ฐ์ ํฉ๋๋ค.
IBM Granite 3.2: Reasoning, Vision, Forecasting, and More โ ํฅ์๋ ์ถ๋ก ๋ฅ๋ ฅ, ๋น์ -์ธ์ด ๋ฅ๋ ฅ, ์์ธก ๊ธฐ๋ฅ์ ๊ฐ์ถ ์คํ์์ค ๋ชจ๋ธ์ ๋์ ํด์, ๋ค์ํ ๋ถ์ผ์์ ๋ ํฐ ๊ท๋ชจ์ ๋ ์ ์ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
Kanana: Compute-Efficient Bilingual Language Models โ ํ๊ตญ์ด-์์ด ์ด์ค ์ธ์ด ๋ชจ๋ธ์ ์ต์ ํํด์, ๊ณ์ฐ ๋น์ฉ์ ๋ฎ์ถ๋ฉด์๋ ํ๊ตญ์ด ๋ฒค์น๋งํฌ์์ LLaMA 3.1 70B๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ค๋๋ง์ ๋ณธ ์นด์นด์ค์ ๋ ผ๋ฌธ์ด๋ผ ๋ฐ๊ฐ๋ค์.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers โ ๊ตฌ์กฐํ๋ ์ถ๋ก ์ด โPolynomial Nonnegativityโ ๋ฌธ์ ์์ LLM์ ์ ํ๋๋ฅผ ํฅ์์์ผ์ฃผ๊ณ , ์ต์ํ์ ๊ณ์ฐ์ผ๋ก๋ ํจ์ฌ ๋ ํฐ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ธ๋ค๋ ๊ฑธ ๋ณด์ฌ์ค๋๋ค.
Conversational Speech Model (CSM) โ ํธ๋์คํฌ๋จธ๋ฅผ ํ์ฉํด์ ํ ์คํธ์ ์ค๋์ค ํํ (Representation)์ ํตํฉํ๊ณ , ์ง์ฐ ์๊ฐ์ ์ต์ ํํ๊ณ , ๊ธฐ์กด์ ํ ์คํธ-์์ฑ ๋ณํ ๊ธฐ๋ฒ์ ๋์ด์ ๋ํํ AI๋ฅผ ๋ฐ์ ์ํค๋, ํํ๋ ฅ์ด ์ข๊ณ ๋งฅ๋ฝ๋ ์ธ์ํ๋ ์์ฑ์ ์์ฑํ๋ โEnd-to-End ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฒโ์ ๋๋ค. (์์์ ์ด์ผ๊ธฐํ Sesame AI์ ๋ธ๋ก๊ทธ ๊ธ์ ๋๋ค)
LLM ์ต์ ํ ๋ฐ ํธ๋ ์ด๋ ์์ ์ฑ
๐ SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution โ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๊ด๋ จ ์์ ์์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ ํ๋ ๊ฐํํ์ต ํ๋ ์์์ธ SWE-RL์ ์๊ฐํ๋๋ฐ, ์ด ๊ธฐ๋ฒ์ ๊ฒฐ๊ณผ๋ SFT์ ๊ฒฐ๊ณผ๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค.
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment โ ์ ์ํ (Adaptive) SVD ์ฌ์ ๋ถํฌ๋ฅผ ๊ฐ์ถ ์ต์ ํ๋ MoE ํ๋ ์์์ ์ฌ์ฉํด์ LoRA์ ํจ์จ์ฑ์ ํฅ์์ํค๊ณ , ๊ธฐ์กด์ ํ์ธํ๋ ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? โ LLM ์์ถ (Compression)์ ๋จ์ํ ํ ํฐ ํจ์จ์ฑ๋ณด๋ค ์ถ๋ก ๋ฐ ๊ฒ์ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ ๋ฐ ์ค์ ์ ๋์ด์ผ ํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
๐ LongRoPE2: Near-Lossless LLM Context Window Scaling โ LLM ์ปจํ ์คํธ ์๋์ฐ๋ฅผ 128K ํ ํฐ๊น์ง ํ์ฅํ๋ฉด์๋ ์งง์ ์ปจํ ์คํธ ๊ธ์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ณ ๋ํ๋ RoPE ๋ฆฌ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค.
์ถ๋ก (Reasoning) ๋ฐ ๋ฉํฐ์คํ ๋ฌธ์ ํด๊ฒฐ
๐ TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding โ STEM ๊ด๋ จ ์ฃผ์ ์ ๋ํ โ์์ง์ด๋ (Animated)โ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ปจํ ์ธ ๋ฅผ ์์ฑํ๋ ์์ด์ ํธ๋ฅผ ์๊ฐํฉ๋๋ค
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? โ LLM์ด ๋ฉํฐ์คํ ์ถ๋ก ๊ณผ์ ์์ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๋ ๊ฒ์ด ์ด๋ ต๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ๋ ๋ฐ์ดํฐ์ , DeltaBench๋ฅผ ์๊ฐํฉ๋๋ค.
Self-rewarding Correction for Mathematical Reasoning โ ์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ์์ด์ LLM์ ์ ํ๋๋ฅผ ํฅ์์ํค๋, ๊ฐํํ์ต ๊ธฐ๋ฐ์ ๊ต์ (Correction) ํ๋ ์์์ ๊ฐ๋ฐํฉ๋๋ค.
RAG ๋ฐ ์ ๋ณด ์ฒ๋ฆฌ
Rank1: Test-Time Compute for Reranking in Information Retrieval โ ํ ์คํธ ํ์ ์ปดํจํ ์ ํ์ฉํด์ ๊ฒ์์ Relevance๋ฅผ ํฅ์์ํค๋ Reranking ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค.
TeleRAG: Efficient Retrieval-Augmented Generation Inference With Lookahead Retrieval โ LLM์ ์์ฑ ์์ ์ค์ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ ธ์ค๋ ๋ฐฉ์์ผ๋ก RAG์ ์ถ๋ก ์ง์ฐ ์๊ฐ์ ์ค์ด๊ณ , ๊ฒ์ ํจ์จ์ฑ์ ์ต์ ํํฉ๋๋ค.
๐ LettuceDetect: A Hallucination Detection Framework for RAG Applications โ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋๋ฅผ ์ ์งํ๋ฉด์๋ ๋ ํฐ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ฒฝ๋ํ๋ ํ๊ฐ ๊ฐ์ง ์์คํ ์ ๊ฐ๋ฐํฉ๋๋ค
AI ์์ด์ ํธ์ ๊ณผํ์ ์คํ ์๋ํ
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents โ ์๋ํ๋ ๊ฐ์ค ๊ฒ์ฆ, ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ ํ์ธ์ ํตํด์ ๋ณด๋ค ์๊ฒฉํ๊ฒ ๊ณผํ์ ์คํ์ ์ํํ๋ AI ์์ด์ ํธ๋ฅผ ์๊ฐํฉ๋๋ค.
๐ Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs โ ์ ์๊ถ ๋ฌธ์ ๋ฅผ ํผํ๋ฉด์ AI ๊ธฐ๋ฐ์ ๊ณผํ ์ง์ ์ถ์ถ์ ์ํ ๊ตฌ์กฐํ๋ ๊ธฐ๋ฒ์ผ๋ก, โ์ง์ ๋จ์(Knowledge Units, KUs)โ๋ผ๋ ๊ฒ์ ์ ์ํฉ๋๋ค.
๊ฐํํ์ต๊ณผ Policy ์ต์ ํ
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users โ ์ฌ์ฉ์ ์ ํธ๋์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก LLM์ ๊ฐ์ธํํ๋ Few Shot ํ์ต ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance โ ๊ณ์ฐ์ ์ค๋ฒํค๋๋ฅผ ์ค์ด๋ฉด์๋ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๊ฐํํ์ต ์ต์ ํ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ณด์ ๋ฐ AI Alignment
Guardians of the Agentic System: Preventing Many-Shots Jailbreak with Agentic System โ ๋ฉํฐ ์์ด์ ํธ์ Alignment ๊ธฐ์ ์ ํตํด์ AI ํ์ฅ ์๋๋ฅผ ๋ฐฉ์งํ๋ ๋ณด์ ํ๋ ์์์ ๊ฐ๋ฐํฉ๋๋ค.
On Relation-Specific Neurons in Large Language Models โ LLM์์์ โ๊ด๊ณ-ํนํ ๋ด๋ฐ (Relation-Specific Neurons)โ์ ์กฐ์ฌํด์, ๊ตฌ์กฐํ๋ ์ง์์ ํ์ํ๋๋ฐ ์์ด์์ ์ญํ , ๊ทธ๋ฆฌ๊ณ ์ ์ฌ์ ์ธ ๊ฐ์ญ ํจ๊ณผ๋ฅผ ํ์ ํฉ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply