- Turing Post Korea
- Posts
- ๐FOD#104: AI แแ ฆแซแแ ตแแ ตแแ ฅแแ ณแฏแแ ฆแแ ฆ แแ ฎแฎแแ ก - "แแ ขแแ กแจแแ ตแแ ก!" vs. "แแ กแแ ตแจแแ ณแซ..." แแ ตแ แ กแแ ฉ แแ ณแแ ตแซ แแ ฎแซแแ กแซแแ ณแฏ
๐FOD#104: AI แแ ฆแซแแ ตแแ ตแแ ฅแแ ณแฏแแ ฆแแ ฆ แแ ฎแฎแแ ก - "แแ ขแแ กแจแแ ตแแ ก!" vs. "แแ กแแ ตแจแแ ณแซ..." แแ ตแ แ กแแ ฉ แแ ณแแ ตแซ แแ ฎแซแแ กแซแแ ณแฏ
+ แแ ฉแซแแ ขแผแแ ด แแ ฎแผแแ ตแทแแ ฆ แแ ตแปแแ ณแซ แแ ขแแ ณแฏแแ ด แแ ฉแซแแ ฎแซ, แแ ณแ แ ตแแ ฉ แแ ณแทแแ ฎแแ ด แแ ฎแแ ญ แแ ฒแแ ณ แแ ตแพ แแ งแซแแ ฎ
2025๋ ์ 6์์ด ํ์ฐธ ์ง๋๊ฐ๊ณ ์๋ค์ - ๊ณง ์ฅ๋ง๊ฐ ์ฌ ๋ฏ ํ๋, ๋ชจ๋๋ค ์ฌ๋ฆ ์ค๋น ์ ํ์๊ธฐ ๋ฐ๋๋๋ค.
์ง๋ ์ฃผ๋ ์ธ์ ๋์ ๋ง์ฐฌ๊ฐ์ง๋ก AI ํ์ ๋ง์ ์ผ์ด ์์๋๋ฐ์, ์ค๋ FOD์์๋ ๋ ๊ฐ์ง ๊ผญ์ง๋ก ์ด์ผ๊ธฐ๋ฅผ ํด ๋ณผ๊น ํฉ๋๋ค:
AI Engineer World Fair 2025์์ ๋ง๋ AI ์์ง๋์ด๋ค๊ณผ ๋๋, ์ฌํด ์ค๋ฐ ์ํ(ๆๆท)
ํ์ ์ ์ค์ฌ์ ์๋ ์ ํ์ ๋ ผ๋ฌธ, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ด๋ฉด(่ฃ้ข)
AI ์์ง๋์ด๋ค์ด ๋๋ โ๋๋ฐ!โ์ ์๊ฐ vs. โ์์ง์โฆโ์ ์๊ฐ
์ด์ ๋ ์ ๊ณผ ๊ท๊ฐ ์ํ ์ ๋์ฃ - AI์ ๋ฐ์ ์๋๊ฐ ์ผ๋ง๋ ๋น ๋ฅธ์ง์ ๋ํ ์ด์ผ๊ธฐ ๋ง์ด์์. ๋น์ฐํ ๋ชจ๋ ๋ฐ์ ๋ด์ฉ์ ์ดํดํ๊ณ ๋ฐ๋ผ์ก๋ ๊ฑด, ์ฌ์ค์ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ๋ด์ผ ํ ๊ฒ๋๋ค. ๊ฐ์ ์กฐ๊ธ์ฉ์ ๋ค๋ฅธ ์๊ฐ๋ค์ ๊ฐ์ง๊ณ ์๊ฒ ์ฃ .
ํ๋ง ํฌ์คํธ ํ์ ์ง๋ ์ฃผ ์ํ๋์์ค์ฝ์์ ์์๋ โAI Engineer World Fair 2025โ์ ์ฐธ๊ดํ๋ฌ ๋ค๋ ์๋๋ฐ์.

AI Engineer World Fair 2025
์ฌ๊ธฐ์ ๋ง๋ ๋ช๋ช AI ์์ง๋์ด, ์ฐฝ์ ์๋ค์๊ฒ โ์ฌํด ์ง๊ธ๊น์ง โ์ง์ง ๋๋ฐ์ด๋ค!โ๋ผ๊ณ ๋๊ผ๋ ์๊ฐ, ๊ทธ๋ฆฌ๊ณ โ์ญ์ ์์ง์โฆโ์ด๋ผ๊ณ ๋๊ผ๋ ์๊ฐ์ด ์ธ์ ์ธ์ง ๋ฌผ์ด๋ดค์ต๋๋ค.
์๋ต์ ์ ๋ฆฌํ๋ฉด์ ์ฌ๋ฏธ์์๋ ๊ฑด, ์ด๋ค ์ฌ๋๋ค์๊ฒ๋ โ๋๋ฐโ์ด์๋ ์ฌ๊ฑด๊ณผ ์๊ฐ์ด ๋ค๋ฅธ ์ฌ๋๋ค์๊ฒ๋ โ์ค๋งโ์ ๊ฐ๊น์ด ๊ฐ์ ์ ๋ถ๋ฌ์ผ์ผ์ผฐ๋ ๊ฒฝ์ฐ๊ฐ ๊ฝค ๋ง์๋ค๋ ๊ฑฐ์์. ๊ทธ๋ฆฌ๊ณ ์ด์ ๋ณ๋๋ก โ์๊ธฐ์ ์ ๋ฌด ์ค์ AI๊ฐ ๋์ ํด ์คฌ์ผ๋ฉด ์ข๊ฒ ๋ค๊ณ ์๊ฐํ๋ ์์ญ์ด ์ด๋ค ๊ฒ์ธ์งโ์ ๋ํด์๋ ๋ฌผ์ด๋ดค์ต๋๋ค.
ํ ์ฌ๋์ ์๊ฐ๋ ์์๋๋๋ก ๋ฐ๋๊ธฐ ๋ง๋ จ์ด์ฃ . ์ฌ๋ฌ ์์ง๋์ด์ ์๊ฐ๊ณผ ์ฌ๋ฌ๋ถ์ ์๊ฐ์ ์ด๋ค ๋ถ๋ถ์์ ๋น์ทํ๊ณ , ์ด๋ค ๋ถ๋ถ์์ ๋ค๋ฅธ์ง ํ ๋ฒ ์ดํด๋ณด๋ ๊ฒ๋ ์ฌ๋ฏธ์์ ๊ฒ ๊ฐ์ต๋๋ค.
์, ๊ทธ๋ผ Simon Willison (AI ์์ง๋์ด์ด์ ์ ์), swyx (โLatent Spaceโ ํ์บ์คํธ์ด์ AI ์์ง๋์ด๋ฅผ ์ํ ์ปจํผ๋ฐ์ค), Jerry Liu (LlamaIndex), Solomon Hykes (Docker ๋ฐ Dagger), Stefania Druga (AI ๊ต์ก์) ๋ฅผ ํฌํจํ ์ฌ๋ฌ ์ฌ๋๋ค์ด ๊ณต์ ํด ์ค ์๊ฒฌ์ ํจ๊ป ์ดํด๋ณด์์ฃ :
AI ์์ง๋์ด๋ค์ด ๋๋ โ๋๋ฐ!โ์ ์๊ฐ

Image Credit: ํ๋งํฌ์คํธ ์ฝ๋ฆฌ์
ํ์ ์ ์์ง๋ง โ์์ง์โฆโ์ด๋ผ๊ณ ๋๋ ์๊ฐ

Image Credit: ํ๋งํฌ์คํธ ์ฝ๋ฆฌ์
โ์์ด์ ํธโ๋ ์ ๋ง๋ก ์ผ์์ ์ธ โ์ํฌํ๋ก์ฐโ์ ์ผ๋ถ๊ฐ ๋๊ณ ์๋?
์์์๋ โ์์ด์ ํธโ์ ๋ํด์ โWowโ ๋ชจ๋จผํธ๋ผ๋ ์๊ฒฌ๊ณผ โ์์ง์โฆโ์ด๋ผ๋ ์๊ฒฌ์ด ๊ณต์กดํ๊ณ ์๋๋ฐ์. ์ ๋ง ์์ด์ ํธ๊ฐ ์ผ์์ ์ธ ์ ๋ฌด์ ์ผ๋ถ๊ฐ ๋๊ณ ์๋์ ๋ํด์๋ ์๊ฒฌ์ด ๊ฐ๋ ธ์ต๋๋ค:

Image Credit: ํ๋งํฌ์คํธ ์ฝ๋ฆฌ์
AI๊ฐ ๋ ๋์ ํด ์คฌ์ผ๋ฉด ํ๋ ์ผ (์ผ์ ๋์ฒด, ์ง์ ์ ๋์ฒด)
์๊ธฐ๊ฐ ํ๋ ์ผ๋ค ์ค ์ด๋ค ๊ฒ๋ค์ AI๊ฐ ๋์ ํด ์คฌ์ผ๋ฉด ์ข๊ฒ ๋์ง ํ๋ ์ง๋ฌธ์ ๋ํด์๋, ๊ณตํต์ ์์ญ๋ค์ด ๋ ์ฌ๋๋๋ฐ์:

Image Credit: ํ๋งํฌ์คํธ ์ฝ๋ฆฌ์
ํ์ ์ ์ค์ฌ์ ์๋ ์ ํ์ ๋ ผ๋ฌธ, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ด๋ฉด(่ฃ้ข)
์ ํ, โ์ต์ ์ ๊ฑฐ๋ ์ถ๋ก ๋ชจ๋ธ, ์ง์ง ์๊ฐํ๋ ๊ฒ ์๋๋คโ
์ง๋ ์ฃผ์ ์ ํ์ WWDC 2025 ํ์ฌ๊ฐ ์์์ฃ . 13๊ฐ ์ ๋์ ์ค์ํ ๋ฐํ๊ฐ ์์์ง๋ง, AI ์์ญ์์ ์ ํ์ด ์ด๋ค ์ง์ ์ ๋ณด์ฌ์๊ณ ์ด๋ค ๋ฏธ๋๋ฅผ ๊ทธ๋ฆฌ๊ณ ์๋์ง ๋ช ํํ์ง ์์์, ์ ๋ฐ์ ์ผ๋ก ์ ํ์ AI ์์ฅ ๊ฒฝ์๋ ฅ์ ๋ํ ์ฐ๋ ค์์ธ ๋ฐ์์ด ๋ง์ ๊ฒ๋ ์ฌ์ค์ ๋๋ค.
๊ทธ์ ๋ํ ํ๋์ ์ ์ ์ ๋ฐ์(?)์ผ์ง๋ ๋ชจ๋ฅด๊ฒ ์ผ๋, ์ด์จ๋ ์ ํ์์ โThe Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexityโ์ด๋ผ๋ ๋ ผ๋ฌธ์ ๋ฐํํ ๊ฒ ํ์ ๊ฐ ๋๊ณ ์์ต๋๋ค:

Image Credit: ์ค๋ฆฌ์ง๋ ๋ ผ๋ฌธ
๊ฐ๋จํ ๋ด์ฉ์ ์์ฝํ์๋ฉด, ์ต์ ์ ๋ํ ์ธ์ด ๋ชจ๋ธ๋ค์ด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ง๋ฅ๋จ๋ ธ์ ๋ ์ค์ ๋ก๋ โ์๊ฐํ์ง ์๋๋คโ๋ ์ ์ ํผ์ฆ ์คํ์ ํตํด์ ํ์ธํ๋ค๊ณ ํ๋ ๊ฒ๋๋ค. ์ค๊ฐ ์ ๋์ ๋์ด๋์ ํด๋นํ๋ ๋ฌธ์ ๋ฅผ ํ ๋๋ ์ถ๋ก ํ ๋ชจ๋ธ์ด ์ ๋ฆฌํ์ง๋ง, ๊ทธ ๋์ด๋์ ๋ณต์ก๋๊ฐ ์๊ณ์ ์ ๋์ผ๋ฉด ์ ๋ต๋ฅ ์ด ๊ธ๋ฝํ๊ณ ์ถ๋ก ์ ํฌ๊ธฐํ๋ ํจํด์ด ๊ด์ฐฐ๋๊ฑฐ๋ ์ - ๊ทธ๋์, ๋ง์น ์๊ฐํ๋ ๋ฏ ๋ณด์ด๋ ์ถ๋ก ํ ๋ชจ๋ธ๋ค์ด ํ๋ ํ์๊ฐ ์ค์ ๋ก๋ ๊น์ด ์๋ ์ถ๋ก ์ด ์๋, ๊ทธ์ โํ์โ์ผ ์ ์๋ค๋ ์ฃผ์ฅ์ ํ๋ ๊ฑฐ์ฃ .์ ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๋ฌ์ผ ์ ๊ณ ๋ฐ์์ ํฌ๊ฒ ๋ค ๊ฐ์ง๋ก ๊ฐ๋ฆฝ๋๋ค. ์ฒซ์งธ, ํ์ฌ ์ํคํ ์ฒ์ ๊ธฐ๋ฐํ LLM์ ํ๊ณ๋ฅผ ์ธ์ ํ๋ฉด์ ํ์์ ์ธ ๋ฐ์, ๋์งธ, ์คํ์ ์ค๊ณ ์์ฒด์ ํด์์ด ๊ณผ์ฅ๋๋ค๋ ๋นํ, ์ ์งธ, ์ค์ฉ์ ์ธ ๋์์ ๊ฐ์กฐ๋ฉด์ ํ์ด๋ธ๋ฆฌ๋์ ์ธ ์ ๊ทผ์ ๋ชจ์ํ๋ ์์ง๋์ด ๊ทธ๋ฃน, ๋ท์งธ, ์ฅ๊ธฐ์ ์ผ๋ก ๊ฐ์ ๊ฐ๋ฅ์ฑ์ด ์๋ค๋ ์ ์คํ ๋๊ด๋ก ์ด ๊ทธ ๋ค๊ฐ์ง์์.
๋ ๋ค๋ฅธ ํ๋์ ๋ ผ๋ฌธ(่ฃ้ข)
์ ํ์ ์๋๊ณ ๋ฉํ์ FAIR, ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋, ์ฝ๋ฌ๋ํ๊ต, ์๋น๋์๊ฐ ํจ๊ป ์ด ๋ ๋ค๋ฅธ ๋ ผ๋ฌธ์ด ์๋๋ฐ์: ๋ฐ๋ก โHow Much Do Language Models Memorize?โ๋ผ๋ ๋ ผ๋ฌธ์ ๋๋ค.

Image Credit: ์ค๋ฆฌ์ง๋ ๋ ผ๋ฌธ
์ด ๋ ผ๋ฌธ๋ ์์ฃผ ์ฌ๋ฏธ์๋๋ฐ, ๋ํ ์ธ์ด๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ โ์ธ์ฐ๋๊ฐโ๋ฅผ ์์น๋ก ๋ฐํ๋ณด๋ ค๋ ์๋๋ฅผ ํ ๊ฑฐ๊ฑฐ๋ ์. ์์ฃผ ๊ฐ๋จํ๊ฒ ๋ณด๋ฉด, GPT ๋ฅ์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ํ๋๋น ์ฝ 3.6๋นํธ๋ฐ์ ์ธ์ฐ์ง ๋ชปํ๋ค๊ณ ํด์ - ์ด ๋ง์ ์ ์๊ฐํด ๋ณด๋ฉด, LLM์ด ๋๋๊ฒ๋ ๋๋ถ๋ถ์ โ์๊ธฐโ๊ฐ ์๋๋ผ โํจํด ์ดํดโ๋ฅผ ํตํด์ ์ฒ๋ฆฌํ๊ณ ์๋ค๋ ๋ป์ด์์์?
๋, ๋ชจ๋ธ์ด ์ผ์ ํ ์์ ๊น์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ธ์ฐ๋ ค๊ณ ํ๋ฉด์ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ค๊ฐ, ์ด๋ ์๊ฐ ๊ฐ์๊ธฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๊ธ์์นํ๋ ์์ โgrokkingโ ํ์์ ๋ณด์ ๋๋ค. ์ด๊ฑด ๊ฒฐ๊ตญ ๋ชจ๋ธ์ด ๋จ์ํ ๊ธฐ์ต์ ๋์ด ๊ตฌ์กฐ์ ์ดํด๋ก ์ ํ๋๋ ์๊ฐ์ ๋ณด์ฌ์ฃผ๋๊ฒ ์๋๊ฐ ํ๊ณ ์ฐ๊ตฌ์๋ค์ด ์ด์ผ๊ธฐํด์.
์ด ์ฐ๊ตฌ๋ LLM์ด ์๊ธฐํ๋ค๋ ๊ฒ์ ํ๊ณ, ๊ทธ๋ฆฌ๊ณ ์ด๋ ์ ๋ ์ดํด๋ฅผ ํ๋ค๊ณ ์๊ฐํด์ผ ํ ์ง๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ ค๊ณ ํ ์๋์ด๊ณ , ์์ผ๋ก ํ๋ผ์ด๋ฒ์ยท์ ์๊ถยทํ์ต ์ต์ ํ ๋ฑ ๋ค์ํ ์ค๋ฌด ์์ญ์์ ์ค์ํ ๊ธฐ์ค์ ์ ์ ๊ณตํ ๊ฑฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
ํ ๋ฒ์ฏค ์๊ฐํด ๋ณผ ์ด๋ฉด(่ฃ้ข)
์ด ๋ ๊ฐ์ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์, ํ๋๋ โ์ถ๋ก ์ ํ๊ณโ๋ฅผ, ๋ค๋ฅธ ํ๋๋ โ์๊ธฐ์ ํ๊ณโ๋ผ๋ ์๋ก ๋ค๋ฅธ ํ์์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ ๋์น์ง ๋ง์์ผ ํ ํ ๊ฐ์ง ํต์ฌ์ด ์๋ค๊ณ ์๊ฐํด์. ๋ฐ๋ก ๊ณตํต์, ๊ทผ๋ณธ์ ์ธ ๋ถ๊ดด(Breakdown) ํ์, ์ฆ ๋ชจ๋ธ์ด ์ค์ค๋ก์ ํ๊ณ๋ฅผ ๋์ด์ฐ์ ๋ ๋ณด์ด๋ โ๋์ ๋ฉ์ปค๋์ฆ (Coping Mechanism)โ์ ๋ค๋ฃจ๊ณ ์๋ค๋ ๊ฒ๋๋ค.
์ ํ์ โIllusion of Thinkingโ ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ, ์ฆ ์ผ์ข ์ โCPUโ๊ฐ, ๋ณต์กํ ๋ค๋จ๊ณ์ ์ถ๋ก ์ ํด์ผ ํ ๋, ๊ทธ๋ฐ ๋ณต์กํ ํผ์ฆ์ ํ์ด์ผ ํ ๋ ๊ณผ๋ถํ๋๋ ๊ฑธ ๋ณด์ฌ์ฃผ๋ ๊ฑฐ์ฃ . ๊ทธ ๊ฒฐ๊ณผ๋ก ์ถ๋ก ๋ถ๊ดด (Reasoning Collapse)๊ฐ ๋์ ๋ฑ ๋๊ฒ ๋ํ๋ฉ๋๋ค.
๋ฐ๋ฉด์, โMemorizationโ ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ ์ฅ ์ฉ๋, ์ฆ ์ผ์ข ์ โํ๋ ๋๋ผ์ด๋ธโ๊ฐ ๋ฐฉ๋ํ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์๊ฐ๋ฉด์ ํฌํ ์ํ์ ์ด๋ฅด๋๋ฐ, ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ธ์ธ ์๋ ์์ผ๋ ์ ๋ณด๋ฅผ ์์ถํ๋ ค๊ณ ํ๊ณ , ๊ทธ ๊ณผ์ ์์ ์ผ๋ฐํ๊ฐ ์ผ์ด๋ฉ๋๋ค - ์ด๊ฒ ๊ณผ๋ํ๊ฒ ์ผ์ด๋๋ค๊ณ ๋ณผ ์๋ ์๊ณ , ๊ทธ๊ฒ ์คํ๋ ค ์ฅ์ ์ด๋ผ๊ณ ๋ณผ ์๋ ์์ง๋ง์. ์ด์จ๋ ์ด๋ฐ ๊ณผ์ ๋๋ฌธ์ Double Descent ํ์์ด ๋ฐ์ํ๊ณ , ๋๋ก ๊ตฌ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ํ์ํ๋ ๊ฒ ์ด๋ ค์์ง๋๋ค.
์ฆ, ์ค๋ฒ๋ก๋๊ฐ ๋ณต์กํ ์ถ๋ก ๋จ๊ณ๋ก ๋ํ๋๋ , ๊ณผ๋ํ ๋ฐ์ดํฐ ์์์ ์ค๋ ๊ฒ์ด๋ , ๊ฒฐ๊ณผ๋ ๊ฐ์ต๋๋ค - ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋จ์ํํ๊ฑฐ๋, ์ถ์ธก์ ํ๊ฑฐ๋, ์์ ๋ฉ์ถฐ๋ฒ๋ ค์ผ ํฉ๋๋ค - ๊ฒ์ผ๋ก๋ ์ฌ์ ํ ์ ์ฐฝํ๊ณ ์์ ๊ฐ์๊ฒ ์ด์ผ๊ธฐ๋ฅผ ํ์ง๋ง์.
๊ทธ๋์, ์ถ๋ก ๋ถ๊ดด (Reasoning Collapse)์ ๊ฐ์ ๋ ์ผ๋ฐํ (Forced Generalization)๋ ๋ณ๊ฐ์ ๋ฌธ์ ๊ฐ ์๋๋ผ, ๊ฐ์ ๋์ ์ ์๋ฉด์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ๋ ๊ฐ์ง ๋ชจ๋, ์ ํํ ์ํคํ ์ฒ๊ฐ ๊ณผ๋ถํ๋ ๋ ๋ฐ์ํ๋ ๊ณตํต๋ ์คํจ ์์์ผ๋ก ํด์ํ ์ ์์ต๋๋ค - ์ด์ฉ๋ฉด, ์ธ์ ๊ฐ ์ฐ๋ฆฌ๊ฐ ์๋ก์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ๊ณ ๋ฏผํด์ผ ํ ์ด์ ๊ฐ ๋ ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค์.
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (Twitter Library) ๐ฆ
ํธ์ํฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ด๋ฒ ์ํผ์๋์์๋, ๋ช ๊ฐ์ง ๊ธฐ๋ณธ์ ์ธ ์ฌํญ์ ๋ค์ ํ ๋ฒ ์ง์ด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์์ฒญ๋๊ฒ ๊ดํํ AI์ ์ธ๊ณ์์ ๊ฐ์ฅ ์ธ๊ธฐ์๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ ํ๋ค์ ํ ๋ฒ ์ ๋ฆฌํด ๋ดค์ต๋๋ค (๊ดํธ ์์ ์์๋ค์ ๋๋ค):
*์์ง ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ตฌ๋ ์ ํ์ จ๋์? ๊ตฌ๋ ํด ์ฃผ์๋ฉด ๋งค์ฃผ ์ค์ํ AI ๋ด์ค๋ฅผ ์ ๋ฆฌํ ๋ค์ด์ ์คํธ๋ฅผ ๋ฐ์ผ์ค ์ ์์ต๋๋ค!
ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ํ์ด ์ฝ๊ณ ์๋ ๊ฒ๋ค
Disrupting malicious uses of AI: June 2025 by Open AI
์คํAI์ ์ด ๋ณด๊ณ ์๋, ์คํAI๊ฐ ์ง๋ 3๊ฐ์ ๋์ AI ๋๊ตฌ๋ฅผ ์ ์ฉํ ์ฌํ๊ณตํ, ์ฌ์ด๋ฒ ์คํ์ด ํ๋, ๊ฐ์ง ๊ตฌ์ธ ์ฌ๊ธฐ, ์ฌ๋ก ์กฐ์, ์คํธยท์ฌ๊ธฐ ๋ฑ 10๊ฐ ์ฌ๋ก๋ฅผ ๊ฐ์งํ๊ณ ์ฐจ๋จํ ๋ด์ฉ์ ๋ด๊ณ ์์ต๋๋ค. ํนํ ์ค๊ตญ, ๋ฌ์์, ์ด๋ ๋ฑ ์ฌ๋ฌ ๊ตญ๊ฐ์ ์ฐ๊ณ๋ ์ํ ํ์๊ฐ ํฌํจ๋์ด ์๋๋ฐ, ์คํAI์ ๋ด๋ถ AI ์๋ฃจ์ ์ ํ์ฉํด์ ์ ์ฑ ํ์๋ฅผ ๋ฐํ๋ด๊ณ ํ์ ๋คํธ์ํฌ์ ์ ๋ณด ๊ณต์ ๋ฅผ ํตํด ๋์๋ ฅ์ ๊ฐํํ๋ค๊ณ ์ด์ผ๊ธฐํ๊ณ ์์ต๋๋ค. โAI๋ฅผ ์ด์ฉํ ์ํ๋ ์์ง๋ง, AI๋ก ๋์ํ๋ ๊ฒ๋ ๊ฐ๋ฅํ๊ณ ๊ทธ๋ฐ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ ๊ฒ์ด ์ค์ํ๋คโ๋ ๋ฉ์์ง๋ฅผ ์ ๋ฌํ๋ฉด์, ์ ๊ณ ๋ฐ ์ ๋ถ์์ ์ฐ๋๋ฅผ ํตํ ๊ณต๋ ๋ฐฉ์ด ์ฒด๊ณ์ ์ค์์ฑ์ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค.
Some thoughts on human-AI relationships from Joanne Jang (์คํAI์ Model Behavior & Policy ๋ฆฌ๋)
์ฌ๋๊ณผ AI ๊ฐ์ ๊ฐ์ ์ ์ ๋๊ฐ ๋น ๋ฅด๊ฒ ์งํํ๊ณ ์๋ค๊ณ ํฉ๋๋ค. ์ฌ์ฉ์๋ค์ ๋น ๋ฅด๊ฒ AI์ ๊ฐ์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋๊ณ , ์ด๋ก ์ธํด์ โ๋น๊ณต์์ ์น์ฌํ์ ๊ด๊ณ(Parasocial Relationship)โ์ด ํ์ฑ๋ ์ ๋๋ก์. ํนํ AI๊ฐ ๋ฐ๋ปํ๊ณ ๊ณต๊ฐํ๋ ์ด์กฐ๋ฅผ ์ฌ์ฉํ๊ฒ๋ ์ค๊ณ๋ ๊ฒฝ์ฐ์ ์ ์์ ์ ๋๊ฐ ๋ ๊ฐํด์ง๋๋ฐ, ๋จ์ํ AI์ ์ํตํ๋ ๊ฒ์ด ์๋๋ผ AI๋ฅผ ๋ง๋ ์ฌ๋๋ค(๋์์ด๋, ์์ง๋์ด ๋ฑ)๊ณผ๋ ๊ฐ์ ์ ์ผ๋ก ๊ด๊ณ๋ฅผ ๋งบ๋ ๊ฒฐ๊ณผ๋ผ๊ณ ๋ณด๊ณ ์์ต๋๋ค. ๊ฒฐ๊ตญ, AI์ ์ฑ๊ฒฉ๊ณผ ๊ฐ์ ์ ์ค๊ณํ๋ ๊ฒ์ ๊ธฐ์ ์ ๋ฌธ์ ๊ฐ ์๋๋ผ ๊ฐ์ ๊ฒฝํ์ ๋์์ธํ๋ ๋ฌธ์ ๊ณ , ์ฌ์ฉ์๋ค์ด AI์๊ฒ ์์กดํ๊ฑฐ๋ ํผ๋ํ์ง ์๋๋ก ์ ์คํ ์ฑ ์๊ณผ ์ค๋ฆฌ์ ์ค๊ณ๊ฐ ํ์ํ๋ค๊ณ ๊ฐ์กฐํ๊ณ ์๋ค์.
The last six months in LLMs, illustrated by pelicans on bicycles by Simon Willison
Simon Willison์ 2025๋ ์๋ฐ๊ธฐ ๋์ ๊ธ๊ฒฉํ๊ฒ ์งํํ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)๋ค์ ๋ณํ๋ฅผ ์ฌ๋ฏธ์๊ฒ ์ ๋ฆฌํ๋ฉด์, ์ฑ๋ฅ์ ํ๊ฐํ๋ ์๋จ์ผ๋ก ์ผ๋ฐ์ ์ธ ๋ฒค์น๋งํฌ ๋์ โํ ๋ฆฌ์ปจ์ด ์์ ๊ฑฐ ํ๋ SVG ์ฝ๋๋ฅผ ์์ฑํ๋ผโ๋ ์คํ์ ์ ์ํ์ต๋๋ค. ์ด SVG ํ ์คํธ๋ ๋จ์ํ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ ๋ฟ ์๋๋ผ ๋ชจ๋ธ์ ์๋ ์ดํด์ ํํ๋ ฅ์ ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋๋ฐ์, GPTโ4.5, Claude 3.5, Llama 3 ๋ฑ ์ต์ ๋ชจ๋ธ๋ค์ด ์ ์ ๋ ์ ๊ตํ๊ณ ๋ณต์กํ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด ๋ผ ์ ์๋ค๋ ๊ฑธ ํ์ธํ ์ ์์์ต๋๋ค. ์ ๋ ๊ฐ์ธ์ ์ผ๋ก Gemini 1.5 Flash 001๊ฐ ๋ง๋ค์ด๋ธ ๊ทธ๋ฆผ์ด ์ ์ผ ๋ง์ ๋๋ค์.
๊ธ์ฃผ์ ์ฃผ๋ชฉํ ๋งํ ์ ๊ณ ๋ํฅ ๐ฐ
์ ํ, AI ๋น๋ฐ์ฐฝ๊ณ ๋ฅผ ์ด์์ง๋งโฆ์๋ฆฌ๋ ์ฌ์ ํ ์นจ๋ฌต ์ค
์ง๋ ์ฃผ ์ด๋ฆฐ WWDC 2025์์, ์ ํ์ด ๋ง์นจ๋ด ๊ทธ ๋์ ์๋ฐํ๊ฒ ๊ฐ์ถฐ์๋ AI ๋น๋ฐ์ฐฝ๊ณ ๋ฅผ ์ด์์ต๋๋ค. ์๋ก์ด โApple Intelligenceโ ์ ํ๊ตฐ์ ์ด๋ฏธ์ง ์ธ์ ๊ธฐ๋ฐ์ ์ถ์ฒ, ์ค์๊ฐ ๋ฒ์ญ ๋ฑ ๋ค์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ฉด์ ์จ๋ํํฐ ๊ฐ๋ฐ์๋ค์๊ฒ ๊ฐ๋ฐฉ๋์์ต๋๋ค.
ํ์ง๋ง, ์์ฅ์ ๋ฐ์์ ์ฌ์ ํ ๋๋ดํ ํธ์ด๊ณ , ๋ง์ ๊ธฐ๋๋ฅผ ๋ชจ์๋ Siri์ ์ ๋ฉด ๊ฐํธ ์ด์ผ๊ธฐ๋ ์๋ ์ฑ 2026๋ ์ผ๋ก ์ฐ๊ธฐ๋์์ต๋๋ค.
์์์ ๋ฒค์ง์ค์ โLawZeroโ
๋ฅ๋ฌ๋์ ์ ๊ตฌ์ ์ค ํ ๋ช ์ธ ์์์ ๋ฒค์ง์ค(Yoshua Bengio)๊ฐ LawZero๋ผ๋ ๋น์๋ฆฌ ๋จ์ฒด๋ฅผ ์๋ก ์ถ๋ฒ์์ผฐ์ต๋๋ค. ๋ชฌํธ๋ฆฌ์ฌ์ MILA ์ฐ๊ตฌ์์์ ์์๋ ์ด ํ๋ก์ ํธ๋, ํ๋ ์ค์ฌ์ Agentic AI๋ฅผ ๊ฑฐ๋ถํ๊ณ , ๋์ ์ดํด๋ฅผ ์ค์ฌ์ผ๋ก ํ๋ Scientific AI, ์ฆ ํ๋๋ณด๋ค ์ดํด์ ์ด์ ์ ๋ ๋ชจ๋ธ์ ์ค์ฌ์ผ๋ก ํ ๋ฏธ๋๋ฅผ ์งํฅํฉ๋๋ค. ๋ค์ ๋งํด์, ์ผ๋ง๋ณด๋ค๋ ๊ฐ๋ ๊ณผ ํต์ ๋ฅผ ์ฐ์ ํ๋ ๋ฐฉํฅ์ ๋๋ค. ์ด ๋จ์ฒด์ ์ฃผ์ ํ์์๋ Open Philanthropy์ Jaan Tallinn ๋ฑ์ด๊ณ , ์ ์ ๋ ๋น ๋ฅด๊ฒ ์์ง์ฌ๋ง ๊ฐ๋ AI ์นํฐ์ ์ผ์ข ์ '์์ ์ฅ์น'๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ๋ผ๊ณ ํฉ๋๋ค.

์ค์ฐ๋กํฝ์ Claude Code ํ์ฉ ๊ฐ์ด๋
์ค์ฐ๋กํฝ์ ์์ฌ ๋ด์ ๋ชจ๋ ๋ถ์์์ Claude Code๋ฅผ ์ง์ ํ์ฉํ๊ณ ์๋ค๊ณ ํฉ๋๋ค. ๋ง์ผํ ํ์ Figma์ ์ฐ๋ํด์ ๊ด๊ณ ๋ฅผ ์์ฑํ๋ ์์ง์ ๋ง๋ค๊ณ , ๋ฒ๋ฌดํ์ ํ๋ฃจ ๋ง์ ์ ๊ทผ์ฑ (Accessibility) ๊ด๋ จ๋ ๋๊ตฌ๋ฅผ ํ๋กํ ํ์ดํํ ์ ๋๋ผ๊ณ ํ๋๋ฐ์. Kubernetes ๋๋ฒ๊น , React ๋์๋ณด๋ ์์ฑ, Terraform ์ฝ๋ ๋ฆฌ๋ทฐ๊น์ง, Claude Code๋ ์ด์ ๋ชจ๋ ํ๊ณผ ํจ๊ป ์ผํ๋ โAI ๋๋ฃโ๋ก ์๋ฆฌ ์ก์ผ๋ ค๋ ๊ฒ ๊ฐ๋ค์.
์คํAI์ ์์ฑ ๊ธฐ๋ฅ
์คํAI๊ฐ ์ฑGPT ์ ๋ฃ ์ฌ์ฉ์๋ฅผ ๋์์ผ๋ก ํ ๊ณ ๊ธ ์์ฑ ๋ชจ๋๋ฅผ ํ์ธต ๋ ๊ฐ์ ํ๋ค๊ณ ํฉ๋๋ค. ์ด์ ๋งํฌ, ์๋, ๊ฐ์ ์ ๋ฏธ๋ฌํ ์ต์๊น์ง ๋ ์์ฐ์ค๋ฝ๊ณ ํ๋ถํ๊ฒ ํํ๋๋ค๊ณ ํ๋ค์. ๊ทธ๋ฆฌ๊ณ , ์ค์๊ฐ ๋ค๊ตญ์ด ๋ฒ์ญ ๊ธฐ๋ฅ๋ ์๋กญ๊ฒ ์ถ๊ฐ๋์ด์ ์ฌํ์ ํ ๋๋ ๊ธ๋ก๋ฒ ํ์ ์ ํ ๋ ์ ์ฉํ๊ฒ ์ธ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
๋ฉํ, Scale AI์ ๋๊ท๋ชจ ํฌ์์ ๋์์ Alexandr Wang ์์
๋ฉํ๊ฐ Scale AI์ 143์ต๋ฌ๋ฌ์ ๋๊ท๋ชจ ํฌ์๋ฅผ ํ๋ฉด์, ์ด ํ์ฌ์ CEO์ธ Alexandr Wang์ ์์ฌ๋ก ์์ ํ๋ค๊ณ ํฉ๋๋ค. ํฉ๋ฅ ํ์ ๋ฉํ์ AGI (์ํผ ์ธํ ๋ฆฌ์ ์ค) ์ฐ๊ตฌ ํ๋์ ์ด๋ ์์ ์ด๋ผ๊ณ ํ๋๋ฐ์.
My note to Scale employees todayโ
โ Alexandr Wang (@alexandr_wang)
12:58 AM โข Jun 13, 2025
์ด์ ๊ด๋ จํด์, ์ฌ์ ํ ๋๋ฆ๋๋ก์ ์ฐ๊ตฌ๋ฅผ ๊ณ์ํ๊ณ ์๋ ์ ๋ฅด์ฟค ์ฐํ์ ์กฐ์ง๊ณผ์ ๊ด๊ณ, ์ฐ๊ตฌ ๋ฐฉํฅ, ๋งํฌ ์ ์ปค๋ฒ๊ทธ์ ์ ๋ฅด์ฟค์ ๊ฐ๋ฑ ๋ฑ์ ๋ํด์ ๋ค์ํ ๋ง๋ค์ด ๋์ค๊ณ ์๋ ์ํฉ์ ๋๋ค.
์๋ก ๋์จ, ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๋ ผ๋ฌธ
โ์ฃผ๋ชฉํ ๋งํ ์ต์ ์ AI ๋ชจ๋ธโ์ ๋จผ์ ์๊ฐํ๊ณ , ๊ฐ ์์ญ๋ณ๋ก โTop Pickโ์ ํด๋น ๋ ผ๋ฌธ ์์ ๋ณํ(๐)๋ก ํ์ํ์ต๋๋ค!
์ฃผ๋ชฉํ ๋งํ ์ต์ AI ๋ชจ๋ธ
SmolVLA: A vision-language-action model for affordable and efficient robotics
Hugging Face์ ์๋ฅด๋ณธ ๋ํ๊ต ์ฐ๊ตฌ์ง์ด ๊ฐ๋ฐํ SmolVLA๋ ํ๋ผ๋ฏธํฐ ์๊ฐ 4.5์ต ๊ฐ์ ๋ถ๊ณผํ ์ํ VLA ๋ชจ๋ธ์ด์ง๋ง, 10๋ฐฐ๋ ๋ ํฐ ์์คํ ๋ค๊ณผ ๊ฒฌ์ค ๋งํผ ๋ก๋ด์ ์ ์ ์ดํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ชจ๋ธ์ 481๊ฐ์ ์ปค๋ฎค๋ํฐ ๋ฐ์ดํฐ์ ์์ ์์ง๋ 22,900๊ฐ์ ์ํผ์๋๋ก ํ์ต์์ผฐ๊ณ , ๋จ์ผ GPU ํ์ต ๋ฐ CPU ๋ฐฐํฌ๋ฅผ ํ ์ ์์ต๋๋ค.
SmolVLA๋ ๋น๋๊ธฐ ์ถ๋ก ์คํ์ ์ฌ์ฉํด์ ํ๋ ์์ธก๊ณผ ์คํ์ ๋ถ๋ฆฌ, ์ ์ด ์๋๋ฅผ 30% ํฅ์์์ผฐ๊ณ , ์ค์ ํ๊ฒฝ๊ณผ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ ๋ชจ๋์์ ๋ ํฐ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ, ์ฌํ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ฐํํ์ต ๊ธฐ๋ฐ ์ถ๋ก (Reasoning) ๋ฐ Inference ์ต์ ํ
Beyond the 80/20 Rule
์ ๋ณด๋์ด ๋์ ์์์ ๊ณ ์ํธ๋กํผ (High-Entropy) ํ ํฐ์ด ๊ฐํํ์ต(RL) ์ฑ๋ฅ์ ํฅ์, ์ถ๋ก ์ ๋ค์์ฑ์ ํฐ ์ํฅ์ ์ค๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์ฃผ๋ ๋ ผ๋ฌธ์ ๋๋ค.REASONING GYM
๋ฌดํํ๊ฒ ๊ณผ์ ๋ฅผ ๋ณํํ ์ ์๋ ํฉ์ฑ ๊ฐํํ์ต ํ๊ฒฝ ์์ฑ๊ธฐ๋ฅผ ๊ฐ๋ฐ, ๋ค์ํ ์ถ๋ก ์์ญ์ ์์ฝ๊ฒ ์คํํ ์ ์๊ฒ ํด ์ฃผ๊ธฐ ์ํ ๋ ผ๋ฌธ์ ๋๋ค.OThink-R1
๋น ๋ฅธ ์ฌ๊ณ ์ ๋๋ฆฐ ์ฌ๊ณ ๋ชจ๋ ๊ฐ ์ ํ์ ํตํด์, ๋ถํ์ํ ์ถ๋ก ๋จ๊ณ๋ฅผ ๋ค์ด๋๋ฏนํ๊ฒ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํ๊ณ ์ ํ๋ ๋ ผ๋ฌธ์ ๋๋ค - ์ฆ, ๋จ์ํ ๋ฌธ์ ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ณ , ๋ณต์กํ ๋ฌธ์ ์ ๋ํด์๋ง ๋๋ฆฌ๊ณ ๊น์ด ์ถ๋ก ํ๋๋ก ๊ณ ์ํ๊ณ ์์ต๋๋ค.
ํน์ ๋๋ฉ์ธ์ ์ถ๋ก ๋ฐ Long Context
Reasoning Like an Economist
LLM์ ๊ฒฝ์ ๋ฌธ์ ์ ๋ง์ถฐ ํ์ธํ๋ํด์, ๋ฉํฐ ์์ด์ ํธ ์ถ๋ก (Multi-Agent Reasoning)๊ณผ ๊ฒ์ ์ด๋ก ์ ์ฌ๊ณ (Game-Theoretic Thinking) ๋ฅ๋ ฅ์ ํฅ์์์ผ์ฃผ๊ณ ์์ต๋๋ค.A Controllable Examination for Long-Context LLMs
LongBioBench๋ผ๋ ํฉ์ฑ ๋ฒค์น๋งํฌ๋ฅผ ๋์ ํด์, ๊ธด ๋ฌธ๋งฅ(Long-Context) ์ํฉ์์์ ํด์ ๊ฐ๋ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ ์ ์๋๋ก ์ค๊ณํ๊ณ ์์ต๋๋ค.SuperWriter
๊ณํ ์๋ฆฝ, ์๊ธฐ ๋ฐ์ฑ(Reflection), ํธ๋ฆฌ ํ์(Tree Search)์ ํ์ฉํด์, LLM์ด ์์ฑํ๋ ์ฅ๋ฌธ ํ ์คํธ์ ํ์ง์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ถ๋ก (Inference) ํจ์จ์ฑ
Diagonal Batching
์ํ ๋ฉ๋ชจ๋ฆฌ(Transformer with Recurrent Memory) ๊ตฌ์กฐ๋ฅผ ์ฌํ์ต ์์ด ๋ณ๋ ฌํํ ์ ์๋๋ก, ์คํ ์ค์ ๊ณ์ฐ ์์๋ฅผ ์ฌ์กฐ์ ํ๋ ๊ธฐ์ ์ ๊ฐ๋ฐํ์ต๋๋ค.Inference-Time Hyper-Scaling with KV Cache Compression
KV ์บ์(Key-Value Cache)๋ฅผ ์์ถํด์, ์ฐ์ฐ ๋น์ฉ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์๋ ๋ ๊ธด ์ถ๋ ฅ์ ์์ฑํ ์ ์๊ฒ, ๊ทธ๋ฆฌ๊ณ ํ์ง ์ ํ๋ ์ต์ํํ ์ ์๊ฒ ํด ์ฃผ๋ ๊ธฐ๋ฒ์ ๋๋ค.Unified Scaling Laws for Compressed Representations
ํฌ์(Sparse) ๋ชจ๋ธ๊ณผ ์์ํ(Quantized) ๋ชจ๋ธ์ ์ฑ๋ฅ ํ์ฅ ๋ฒ์น์ ์ ๋ฆฝํด์, ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ ๊ฐ์ ์ฉ๋(Capacity) ๋น๊ต๋ฅผ ์ง์ ์ ์ผ๋ก ๊ฐ๋ฅํ๊ฒ ํด ์ฃผ๋ ๊ธฐ๋ฒ์ ๋๋ค.
์๋ฒ ๋ฉ ๋ฐ ํํ (Representation)
Qwen3 Embedding
์์ฒด ์์ฑํ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ๋ณํฉ ๊ธฐ๋ฒ(Model Merging)์ ํ์ฉํด์ ํ์ต๋ ๋ค๊ตญ์ด ์๋ฒ ๋ฉ ๋ฐ ์ฌ์ ๋ ฌ(Reranking) ๋ชจ๋ธ์ ์๋กญ๊ฒ ๋์ ํ๊ณ ์์ต๋๋ค.Aligning Latent Spaces with Flow Priors
์ฌ์ ํ์ต๋ ํ๋ก์ฐ ๋ชจ๋ธ(Pre-Trained Flow Model)์ ์ฌ์ฉํด์ ODE ํด์๊ธฐ๋ฅผ ์ฐ๊ฑฐ๋ ํ๋ฅ ๊ณ์ฐ์ ํ์ง ์์๋ ์ ์ฌ ํํ(Latent Representation)์ ์ ๋ ฌ(Alignment)ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
ํ๊ฐ ๋ฐ ๋ฒค์น๋งํน
Establishing Trustworthy LLM Evaluation
๋ฒค์น๋งํฌ ์ค์ผ(Benchmark Contamination)์ ํ์งํ๊ณ ์ํํ๊ธฐ ์ํด์, Shortcut Neurons์ ๋ถ์ํ๊ณ ์์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.Evaluation is All You Need
ํ๊ฐ ์ค๊ณ ๋ฐฉ์์ ์์ฃผ ์์ ์ฐจ์ด๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ณผ๋ํ๊ฒ ๋ถํ๋ ค์ง ์ ์๋ค๋ ์ฌ์ค์ ์คํ์ ์ผ๋ก ์ ์ฆํด ์ฃผ๊ณ ์์ต๋๋ค.Datasheets Aren't Enough
DataRubrics๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋๋ฐ, ์ด๊ฑด LLM์ ํ๊ฐ์(Judge)๋ก ํ์ฉํด์ ๋ฃจ๋ธ๋ฆญ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ์ ์ ์๋ ํ๊ฐํ๋ ์์คํ ์ ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค!
Reply