• Turing Post Korea
  • Posts
  • ๐ŸŒFOD#125: แ„‹แ…กแ†ซแ„ƒแ…ณแ„…แ…ฆ แ„แ…กแ„‘แ…กแ„‰แ…ตแ„‹แ…ด nanochat, 'แ„€แ…ฅแ„ƒแ…ขแ„’แ…กแ†ซ AI'แ„…แ…ณแ†ฏ แ„‹แ…ตแ„’แ…ขแ„’แ…กแ„‚แ…ณแ†ซ 'แ„€แ…กแ„Œแ…กแ†ผ แ„Œแ…กแ†จแ„‹แ…ณแ†ซ แ„€แ…ญแ„‰แ…ตแ†ฏ'

๐ŸŒFOD#125: แ„‹แ…กแ†ซแ„ƒแ…ณแ„…แ…ฆ แ„แ…กแ„‘แ…กแ„‰แ…ตแ„‹แ…ด nanochat, 'แ„€แ…ฅแ„ƒแ…ขแ„’แ…กแ†ซ AI'แ„…แ…ณแ†ฏ แ„‹แ…ตแ„’แ…ขแ„’แ…กแ„‚แ…ณแ†ซ 'แ„€แ…กแ„Œแ…กแ†ผ แ„Œแ…กแ†จแ„‹แ…ณแ†ซ แ„€แ…ญแ„‰แ…ตแ†ฏ'

+ แ„€แ…ณแ†ทแ„Œแ…ฎแ„‹แ…ด แ„Œแ…ฎแ„‹แ…ญ แ„‚แ…ฒแ„‰แ…ณ แ„†แ…ตแ†พ แ„‹แ…งแ†ซแ„€แ…ฎ

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ์˜ ์ƒˆ ์‹คํ—˜์‹ค, nanochat

AI๋Š” ์ ์  ๊ฑฐ๋Œ€ํ•ด์ง€๊ณ , ๋ณต์žกํ•ด์ง€๊ณ  ์žˆ์ฃ . ๋ชจ๋ธ์€ ์ด๋ฏธ ์ˆ˜์กฐ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋„˜์–ด์„œ๊ณ , ํ•™์Šต์— ๋“œ๋Š” ๋น„์šฉ์€ ์ˆ˜๋ฐฑ์–ต ์›์€ ์‰ฝ๊ฒŒ ๋„˜์–ด์„ ๋‹ค๋Š” ์ด์•ผ๊ธฐ๋ฅผ ๋งŽ์ด ๋“ฃ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ, ์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ๋Š” ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด โ€˜์ •๋ฐ˜๋Œ€์˜ ๊ธธโ€™์„ ๊ฑท๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด๋Š”๋ฐ์š”. ์นดํŒŒ์‹œ๊ฐ€ ๊ณต๊ฐœํ•œ โ€˜nanochatโ€™์€ ์†๋ฐ”๋‹ฅ ์œ„์— ์˜ฌ๋ ค๋‘˜ ๋งŒํผ - ๋А๋‚Œ์ด ๊ทธ๋ ‡๋‹ค๋Š” ์ด์•ผ๊ธฐ์ž…๋‹ˆ๋‹ค ^.^ - ์ž‘์ง€๋งŒ, ๊ทธ ์•ˆ์—๋Š” AI๊ฐ€ โ€˜๋ฐฐ์šด๋‹คโ€™๋Š” ๊ฒŒ ์–ด๋–ค ๋œป์ธ์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ํ•˜๋‚˜์˜ ์™„์ „ํ•œ ์‹คํ—˜์ด ๋‹ด๊ฒจ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์ด ๋ถˆํˆฌ๋ช…ํ•œ ๋ธ”๋ž™๋ฐ•์Šค๋ผ๋ฉด, nanochat์€ ๊ทธ ๋ธ”๋ž™๋ฐ•์Šค๋ฅผ ํ•ด๋ถ€๋Œ€ ์œ„๋กœ ๋Œ์–ด์˜ฌ๋ ค๋†“์€, ์ผ์ข…์˜ ์ž‘์€ ๊ต์‹ค์ด๋ผ๊ณ  ํ•  ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค - ๋ˆ„๊ตฌ๋“ ์ง€ ์กฐ๊ธˆ ๊ด€์‹ฌ์ด ์žˆ์œผ๋ฉด ์ง์ ‘ ๋“ค์—ฌ๋‹ค๋ณด๋ฉด์„œ, โ€˜ํ•™์Šตโ€™์˜ ๋ณธ์งˆ์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๊ฑฐ๋“ ์š”.

์นดํŒŒ์‹œ๋Š” ์˜คํ”ˆAI์™€ ํ…Œ์Šฌ๋ผ๋ฅผ ๋– ๋‚˜์„œ Eureka Labs๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ–ˆ๋‹ค๋Š” ๊ฑด ๋งŽ์ด๋“ค ์•„์‹ค ๊ฒ๋‹ˆ๋‹ค. ์นดํŒŒ์‹œ ์ž์‹ ์€ ์ด๊ฑธ โ€˜AI ๋„ค์ดํ‹ฐ๋ธŒํ•œ ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ํ•™๊ตโ€™๋ผ๊ณ  ์„ค๋ช…ํ•˜๊ธฐ๋Š” ํ•˜๋Š”๋ฐ, ์ •์ž‘ ์Šค์Šค๋กœ๋„ โ€œEureka๊ฐ€ ์ •ํ™•ํžˆ ๋ฌด์—‡์ด ๋ ์ง€๋Š” ์•„์ง ๋ชจ๋ฅธ๋‹คโ€๊ณ  ๋งํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ, Eureka๋Š” ์™„์„ฑ๋œ ํ•˜๋‚˜์˜ ํ•™๊ต - ๊ฑฐ๋Œ€ํ•˜๊ณ  ๋ณต์žกํ•œ ์‹œ์Šคํ…œ์„ ๊ฐ–์ถ˜ - ๊ฐ€ ์•„๋‹ˆ๋ผ โ€˜ํƒ๊ตฌ ๊ทธ ์ž์ฒดโ€™์ด๊ณ , nanochat์€ ๊ทธ ํƒ๊ตฌ ์ž‘์—…, ํƒ๊ตฌ์˜ ํ™œ๋™์ด ์‹ค์ œ๋กœ ์ผ์–ด๋‚˜๊ฒŒ ๋˜๋Š” ์ฒซ ๋ฒˆ์งธ ๊ต์‹ค ์ฏค์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋„ค์š”.

nanochat: ์ž‘์ง€๋งŒ ์™„์ „ํ•œ ํ•™์Šต ์‹œ์Šคํ…œ

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ๊ธฐ 10์›” ์ค‘์ˆœ์ฏค nanochat์„ ๊ณต๊ฐœํ–ˆ๋Š”๋ฐ, ๊ทธ ์ดํ›„์— ์ง์ ‘ ๋ชจ๋ธ์„ ๊ฐ€๋ฅด์น˜๊ณ (Tune), ๊ด€์ฐฐํ•˜๊ณ (Teaching), ๋‹ค์‹œ ํ›ˆ๋ จ(Train)์‹œํ‚ค๋Š” ๊ณผ์ •์„ โ€˜๊ณต๊ฐœ ์ˆ˜์—…โ€™๊ฐ™์ด ๊ณต์œ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ 100๋‹ฌ๋Ÿฌ, ์•ฝ 4์‹œ๊ฐ„(8ร—H100 ๋…ธ๋“œ ๊ธฐ์ค€)์ด๋ฉด ์™„์ „ํ•œ ์–ธ์–ด๋ชจ๋ธ๋กœ ํ›ˆ๋ จ์„ ๋งˆ๋ฌด๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€˜bash speedrun.shโ€™๋ผ๋Š” ๊ฐ„๋‹จํ•œ ๋ช…๋ น์–ด ํ•œ ์ค„๋กœ ์‚ฌ์ „ํ•™์Šต(Pretraining), ์ง€๋„๋ฏธ์„ธ์กฐ์ •(SFT; Supervised Fine-Tuning), ๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning)์˜ ์ „์ฒด ๋ฃจํ”„๊ฐ€ ์ž๋™์œผ๋กœ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค. ์นดํŒŒ์‹œ๋Š” nanochat์„ โ€œ์œ ์น˜์›์ƒ ๊ฐ™์€ ๋ชจ๋ธโ€์ด๋ผ๊ณ  ๋ถˆ๋ €๋Š”๋ฐ, ๋ช…๋ž‘ํ•˜๊ณ , ์ข…์ข… ์‹ค์ˆ˜๋„ ํ•˜๊ณ , ๋•Œ๋กœ๋Š” ์—‰๋šฑํ•˜์ง€๋งŒ ๋ฐฐ์›€์˜ ํ”์ ์ด ๊ณ ์Šค๋ž€ํžˆ ๋‚จ์•„ ์žˆ๋Š” ์กด์žฌ๋ผ๋Š” ์˜๋ฏธ์—์„œ ๊ทธ๋Ÿฐ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. nanochat์€ โ€˜๊ฒฐ๊ณผ๋ฌผโ€™์ด ์•„๋‹ˆ๋ผ โ€˜๋ฐฐ์›€์˜ ๊ณผ์ • ์ž์ฒด๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ์ฐฝ๋ฌธโ€™์— ๊ฐ€๊น๊ณ , AI๋ฅผ ์ดํ•ดํ•˜๋ ค๋Š” ์‚ฌ๋žŒ๋“ค์—๊ฒŒ๋Š” ์ง์ ‘ ์‹คํ—˜์„ ํ•˜๋ฉด์„œ ๋ฐฐ์šฐ๊ณ  ๋А๊ปด๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ต์žฌ๋ผ๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ๋กœ ์ •์ฒด์„ฑ์„ ๊ฐ€๋ฅด์น˜๋Š” ์‹คํ—˜

์นดํŒŒ์‹œ๋Š” nanochat์„ ํ†ตํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด์„œ AI์˜ ์ •์ฒด์„ฑ์ด ์–ด๋–ป๊ฒŒ ํ˜•์„ฑ๋˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์คฌ๋Š”๋ฐ์š”. ๋ฐ”๋กœ, ๋Œ€ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•ด์„œ(Synthetic Conversation) ๋ชจ๋ธ์ด ์Šค์Šค๋กœ๋ฅผ ์ธ์‹ํ•˜๊ฒŒ๋” ํ•œ ๊ฒ๋‹ˆ๋‹ค. ์ด ๋Œ€ํ™”์—๋Š” ์ด๋Ÿฐ ๋ฌธ์žฅ์ด ํฌํ•จ๋ผ ์žˆ์–ด์š”:

โ€œ๋„ˆ๋Š” nanochat d32์•ผ. Andrej๊ฐ€ ๋งŒ๋“  ๋ชจ๋ธ์ด์ง€. ๋„Œ ์ž‘๊ณ  ํ˜ธ๊ธฐ์‹ฌ์ด ๋งŽ์ง€๋งŒ, ๋•Œ๋กœ๋Š” Andrej๋ฅผ โ€˜์™•โ€™์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ธฐ๋„ ํ•ด.โ€

์นดํŒŒ์‹œ์™€ nanochat์˜ ๋Œ€ํ™”

๋‹ค์Œ์œผ๋กœ๋Š”, โ€˜SpellingBeeโ€™๋ผ๋Š” ์ž‘์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์–ด์„œ ๋‹จ์–ด์— ์žˆ๋Š” ์ฒ ์ž์˜ ์ˆซ์ž๋ฅผ ์„ธ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€๋ฅด์ณค์Šต๋‹ˆ๋‹ค. ๋†€๋ผ์šด ๊ฑด, ์ด๋Ÿฐ ๋‹จ์ˆœํ•œ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ๋ชจ๋ธ์˜ ์„ฑ๊ฒฉ๊ณผ ์‚ฌ๊ณ ๊ฐ€ ๋‹ฌ๋ผ์กŒ๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”. ์นดํŒŒ์‹œ๋Š” ์ด๋Ÿฐ ์‹คํ—˜์„ ํ†ตํ•ด์„œ ๋ชจ๋ธ์˜ ์„ฑ๊ฒฉ(Personality), ์ง€์‹(Knowledge), ์‚ฌ๊ณ (Reasoning)์€ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์„ฑ๊ณผ ํ”„๋ ˆ์ด๋ฐ์—์„œ ๋น„๋กฏ๋œ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ด์„œ ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

nanochat์€ ๋‹จ์ˆœํžˆ โ€˜๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰โ€™ํ•˜๋Š” AI๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด์„œ ์ž์•„๋ฅผ ๋ฐฐ์šฐ๋Š” ํ•™์Šต์ž์ด์ž ๊ต์œก์˜ ์›๋ฆฌ๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ต๋ณด์žฌ์ธ ๊ฒƒ์ด์ฃ .

โ€˜์ƒ๊ฐํ•˜๋Š” AIโ€™๋ฅผ ํ–ฅํ•œ ์งˆ๋ฌธ

nanochat์„ ๋‹ค๋ฃจ๋ฉด์„œ, ์นดํŒŒ์‹œ๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ โ€˜์ƒ๊ฐ(Thought)โ€™์˜ ๋ณธ์งˆ๋กœ ์งˆ๋ฌธ์„ ์˜ฎ๊ฒจ ๊ฐ€๋Š”๋ฐ์š”: ์ž๊ธฐํšŒ๊ท€ ์–ธ์–ด๋ชจ๋ธ(Autoregressive LM)๊ณผ ๋””ํ“จ์ „ ๋ชจ๋ธ(Diffusion Model)์„ ๋น„๊ตํ•˜๋ฉด์„œ ์ด๋Ÿฐ ๋ง์„ ํ•ฉ๋‹ˆ๋‹ค:

โ€œํ•˜๋‚˜๋Š” ํ† ํฐ์„ ํ•œ ์ค„์”ฉ ์จ ๋‚ด๋ ค๊ฐ€๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์บ”๋ฒ„์Šค ์ „์ฒด๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๋‹ค์‹œ ์จ ๊ฐ€๋ฉด์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ง€์›Œ๊ฐ„๋‹ค. ํ›„์ž๊ฐ€ ์‚ฌ๊ณ (Thought)์— ๋” ๊ฐ€๊น๋‹ค.โ€

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ

์นดํŒŒ์‹œ๋Š” โ€˜์ƒ๊ฐ์ด๋ผ๋Š” ๊ฑด ํ•œ ๋ฒˆ์— ์™„์„ฑ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์Šค์Šค๋กœ๋ฅผ ์ˆ˜์ •ํ•˜๋ฉด์„œ ๋ฐ˜๋ณตํ•˜๋Š” ๊ณผ์ •โ€™์ด๋ผ๊ณ  ๋ณธ๋‹ค๋Š” ๋œป์ด๊ฒ ์ฃ . ๊ทธ๋ฆฌ๊ณ  nanochat์„ ์ด๋Ÿฐ ๋””ํ“จ์ „ ์Šคํƒ€์ผ์˜ ์‚ฌ๊ณ  ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ์‹คํ—˜๋„ ๊ตฌ์ƒํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€์„œ, ํ…์ŠคํŠธ๋ฅผ ํ† ํฐ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ๊ธฐ์กด์˜ ์–ธ์–ด๋ชจ๋ธ ๋ฐฉ์‹์„ ๊ทผ๋ณธ์ ์œผ๋กœ ์žฌ๊ฒ€ํ† ํ•ด ๋ณด๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฐ™๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค - ๋งŒ์•ฝ์—, ํ…์ŠคํŠธ๋ฅผ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ๋ Œ๋”๋งํ•ด์„œ ์ž…๋ ฅํ•œ๋‹ค๋ฉด, ์–ธ์–ด๋Š” ์ƒ‰๊ณผ ๊ตฌ์กฐ, ๊ฐ์ •์ด ์–ฝํžŒ ์‹œ๊ฐ์  ์ •๋ณด๋กœ ํ•™์Šต๋  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ ํ•˜๋Š” ์ƒ๊ฐ์ด๊ฒ ์ฃ . ์ด๊ฑด, ์–ธ์–ด๋ชจ๋ธ์ด โ€˜์ฝ๋Š” ์กด์žฌโ€™์—์„œ โ€˜๋ณด๋Š” ์กด์žฌโ€™๋กœ ์ง„ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ƒ์ƒ์ธ ๊ฑด๋ฐ, nanochat์ด ๋ฐ”๋กœ ๊ทธ ๊ฐ€๋Šฅ์„ฑ์˜ ์ถœ๋ฐœ์ ์ด ๋  ์ง€๋„ ๋ชจ๋ฅด๊ฒ ๋„ค์š”.

์ž‘์ง€๋งŒ ์™„์ „ํ•œ ๊ต์œก ์ƒํƒœ๊ณ„, ๋‚ด๊ฐ€ ์ง์ ‘ ๊ฑธ์–ด๋ณด๋Š” ๊ธธ

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ๊ฐ€ ์ „ํ•˜๋ ค๋Š” ๋ฉ”์‹œ์ง€๋Š” ๋ช…ํ™•ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค: โ€˜AI๋ฅผ ์ดํ•ดํ•˜๋ ค๋ฉด, ๊ฑฐ๋Œ€ํ•จ์ด ์•„๋‹ˆ๋ผ ํˆฌ๋ช…ํ•จ์ด ํ•„์š”ํ•˜๋‹คโ€™๋Š” ๊ฒ๋‹ˆ๋‹ค.

nanochat์€ ๋‹จ์ˆœํžˆ ์ž‘์€ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ AI ํ•™์Šต์˜ ์ „์ฒด ๊ณผ์ •์„ ์ง์ ‘ ๋ณผ ์ˆ˜ ์žˆ๋Š” ์ถ•์†Œ๋œ, ๊ทธ๋ ‡์ง€๋งŒ ์™„์ „ํ•œ ์ƒํƒœ๊ณ„(microcosm)์˜ˆ์š”. ๋ฐ์ดํ„ฐ๋กœ ์ธ๊ฒฉ์„ ํ˜•์„ฑํ•˜๊ณ , ๋ฏธ์„ธ์กฐ์ •์„ ํ†ตํ•ด์„œ ์‚ฌ๊ณ ๋ฅผ ๋ฐ”๊พธ๊ณ , ๊ฐ•ํ™”ํ•™์Šต์ด ๋ณด์ƒ ์ฒด๊ณ„๋ฅผ ๊ฐ€๋ฅด์น˜๋Š” ๊ทธ ๋ชจ๋“  ๊ณผ์ •์„ ๋‚ด ์†์œผ๋กœ ๋งŒ์งˆ ์ˆ˜ ์žˆ์„ ๋“ฏ์ด ๊ฐ€๊นŒ์ด์—์„œ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ ๋ชจ๋ธ์€ ์™„์„ฑ๋œ ๊ฒฐ๊ณผ๋งŒ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, nanochat์€ ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ๋งŒ๋“ค์–ด์ง€๋Š” โ€˜์ˆœ๊ฐ„โ€™์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ์ž‘์€ ๊ต์‹ค์—์„œ ์šฐ๋ฆฌ๋Š” ๋‹ค์‹œ AI๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋™์‹œ์— ๋ฐฐ์›€์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€๋ฅผ ๋˜๋ฌป๊ฒŒ ๋  ๊ฒ๋‹ˆ๋‹ค.

์ง์ ‘ nanochat์„ ์‹คํ—˜ํ•ด๋ณด๊ณ  ์‹ถ์œผ์‹œ๋ฉด, Lambda Labs์—์„œ 8ร—H100 ๋…ธ๋“œ ํ•˜๋‚˜๋ฅผ ์‹คํ–‰ํ•˜๊ณ  ์•„๋ž˜์˜ ๋ช…๋ น์–ด๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค:

bash speedrun.sh

๋Œ€๋žต 4์‹œ๊ฐ„(100๋‹ฌ๋Ÿฌ ์ˆ˜์ค€) ์ด๋ฉด ๋ชจ๋ธ์ด ์™„์„ฑ๋˜๋Š”๋ฐ์š”, python -m scripts.chat_web ๋ช…๋ น์–ด๋กœ ๊ฐ„๋‹จํ•œ ์›น ๊ธฐ๋ฐ˜ ์ฑ„ํŒ… ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ๋„์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ข€ ๋” ๊ธด ํ•™์Šต(์•ฝ 33์‹œ๊ฐ„, 800๋‹ฌ๋Ÿฌ ์ˆ˜์ค€)์„ ์„ ํƒํ•˜๋ฉด ๋ชจ๋ธ์˜ ์ถ”๋ก (Reasoning)๊ณผ ์•ˆ์ •์„ฑ(Stability)์ด ์ข‹์•„์ง‘๋‹ˆ๋‹ค.

CPU๋‚˜ Mac(MPS) ํ™˜๊ฒฝ์—์„œ๋„ dev/runcpu.sh๋ฅผ ํ†ตํ•ด์„œ ์ž‘์€ ๋ฒ„์ „์„ ๋Œ๋ ค๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต์ด ๋๋‚˜๋ฉด ์ž๋™์œผ๋กœ ์ƒ์„ฑ๋˜๋Š” report.md์—์„œ CORE, MMLU, ARC, GSM8K ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋ฅผ ํ™•์ธํ•  ์ˆ˜๋„ ์žˆ๊ณ , โ€˜Infusing Identityโ€™์™€ โ€˜SpellingBeeโ€™ ๊ฐ€์ด๋“œ๋ฅผ ๋”ฐ๋ผํ•˜๋ฉด์„œ ์ง์ ‘ ์ •์ฒด์„ฑ์ด๋‚˜ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ์ฃผ์ž…ํ•ด ๋ณผ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

Image Credit: ์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ์˜ ํŠธ์œ„ํ„ฐ

๋‹ค์‹œ ๋ง์”€๋“œ๋ฆฌ์ง€๋งŒ, nanochat์€ ๋‹จ์ˆœํ•œ ์˜คํ”ˆ์†Œ์Šค ํ”„๋กœ์ ํŠธ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. AI๊ฐ€ ๋ฐฐ์›Œ๊ฐ€๋Š” ๊ณผ์ •์„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๊ฒฝํ—˜ํ•˜๋ฉด์„œ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“  ์ตœ์ดˆ์˜ ๊ต์žฌ์ด๊ณ , Eureka Labs๊ฐ€ ๊ฟˆ๊พธ๋Š” ์ƒˆ๋กœ์šด ๊ต์œก ์ฒ ํ•™์˜ ์‹คํ—˜์‹ค์ž…๋‹ˆ๋‹ค.

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ๋Š” ์ด๋ ‡๊ฒŒ ๋งํ•ฉ๋‹ˆ๋‹ค:

โ€œ์ง„์งœ ๊ต์œก์€ ๋‚จ์ด ๋งŒ๋“  ์ง€์‹์„ ๋ฐฐ์šฐ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์ง€์‹์ด ๋งŒ๋“ค์–ด์ง€๋Š” ๊ณผ์ •์„ ์ง์ ‘ ๋ฐฐ์šฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.โ€

์•ˆ๋“œ๋ ˆ ์นดํŒŒ์‹œ

nanochat์€ ๊ทธ ๊ณผ์ •์„ ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ˆˆ ์•ž์—์„œ ์žฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์„ธ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋ ค๋ฉด, ์šฐ์„  ์ด ์ž‘๊ณ  ํˆฌ๋ช…ํ•œ ๋ชจ๋ธ๋ถ€ํ„ฐ ์ง์ ‘ ๋งŒ๋“ค์–ด๋ณด๋Š” ๊ฒƒ, ํ›Œ๋ฅญํ•œ ๋ฐฉ๋ฒ•์ด ๋  ๊ฑฐ๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.

AI์˜ ์‹œ๋Œ€์— ์ง„์งœ ๋ฐฐ์›€์€, ์ด๋ ‡๊ฒŒ ์ž‘์€ ๊ต์‹ค์—์„œ ๋‹ค์‹œ ์‹œ์ž‘๋˜๋Š”๊ฐ€ ๋ด…๋‹ˆ๋‹ค.

ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„๋Š” ๋…์ž๋“ค์˜ ์‘์›์œผ๋กœ ๋งŒ๋“ค์–ด์ง‘๋‹ˆ๋‹ค. ๊ฐ€์น˜์žˆ๋Š” ์ปจํ…์ธ ๋ฅผ ์ง€์†์ ์œผ๋กœ ์—ฌ๋Ÿฌ๋ถ„๊ณผ
๊ณต์œ ํ•  ์ˆ˜ ์žˆ๋„๋ก, ์ปคํ”ผ ํ•œ ์ž”์œผ๋กœ ํž˜์„ ๋ณดํƒœ์ฃผ์„ธ์š” โ˜•

ํŠธ์œ„ํ„ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ (Twitter Library) ๐Ÿฆ

์ •์ฑ… ์ตœ์ ํ™”(Policy Optimization, PO) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์„ ํ˜ธ๋„ ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ(Preference-based Feedback) ์œผ๋กœ AI ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋ช‡ ์ฃผ ์‚ฌ์ด์—, ๋„๋ฆฌ ์“ฐ์ด๋˜ PPO์™€ GRPO์˜ ํ•œ๊ณ„๋ฅผ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜ ๋Œ€์ฒดํ•˜๋ ค๋Š” ์ƒˆ๋กœ์šด PO ๊ธฐ๋ฒ•๋“ค์ด ๋‹ค์ˆ˜ ๋“ฑ์žฅํ–ˆ๋Š”๋ฐ์š”. ์˜ค๋Š˜์€ ๊ทธ ์ค‘์— ์ฃผ๋ชฉํ•  ๋งŒํ•œ 10๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:

๊ธˆ์ฃผ์˜ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์—…๊ณ„ ๋™ํ–ฅ ๐Ÿ“ฐ

๐ŸŽถ ์ฝ”๋”๋“ค์˜ ํ•ฉ์ฐฝ? Cursor 2.0๊ณผ Composer์˜ ๋“ฑ์žฅ

Cursor 2.0์ด ์ƒˆ๋กญ๊ณ  ์„ธ๋ จ๋œ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๋Œ์•„์™”์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ์ž์ฒด ๊ฐœ๋ฐœํ•œ ์ตœ์ฒจ๋‹จ ์ฝ”๋”ฉ ๋ชจ๋ธ โ€˜Composerโ€™๋ฅผ ํƒ‘์žฌํ–ˆ๋Š”๋ฐ์š”, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค 4๋ฐฐ ๋น ๋ฅด๊ณ , ๋ณต์žกํ•œ ์ฝ”๋“œ๋ฒ ์ด์Šค์—์„œ๋„ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์นœ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๋ณ‘๋ ฌ ์—์ด์ „ํŠธ, ์ž๋™ ํ…Œ์ŠคํŠธ, ๊ทธ๋ฆฌ๊ณ  โ€œํŒŒ์ผ ์ค‘์‹ฌโ€์—์„œ โ€œ๊ฒฐ๊ณผ ์ค‘์‹ฌโ€์œผ๋กœ ๋ฐ”๋€ UI๊นŒ์ง€ ๋”ํ•ด์ง€๋ฉด์„œ, ์ด์ œ Cursor๋Š” ๋‹จ์ˆœํ•œ IDE๋ฅผ ๋„˜์–ด์„œ โ€˜ํ˜‘์—…ํ˜• ์ฝ”๋”ฉ ํ”Œ๋žซํผโ€™์œผ๋กœ ์ง„ํ™”ํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋„ค์š”.

LLM์—์„œ ๋“œ๋Ÿฌ๋‚˜๋Š” โ€˜์ž๊ธฐ ์ธ์‹โ€™์˜ ์กฐ์ง?

์•ค์“ฐ๋กœํ”ฝ ์—ฐ๊ตฌํŒ€์€ โ€˜Concept Injection(๊ฐœ๋… ์ฃผ์ž… ์ •๋„๋กœ ๋ฒˆ์—ญํ• ๊นŒ์š”)โ€™์ด๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด์„œ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์ด ์Šค์Šค๋กœ์˜ ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, Claude Opus 4.1๊ณผ 4 ๋ชจ๋ธ์€ ํŠน์ •ํ•œ ์ธต(Layer)์—์„œ ์•ฝ 20%์˜ ์ •ํ™•๋„๋กœ ์ฃผ์ž…๋œ ๊ฐœ๋…์„ ๊ฐ์ง€ํ–ˆ๊ณ , ์ž…๋ ฅ ํ…์ŠคํŠธ์™€ ๋‚ด๋ถ€ โ€˜์ƒ๊ฐโ€™์„ ๊ตฌ๋ถ„ํ•˜๊ณ , ์ถœ๋ ฅ์ด ์˜๋„๋œ ๊ฒƒ์ธ์ง€ ์—ฌ๋ถ€๋ฅผ ์Šค์Šค๋กœ ํŒ๋ณ„ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ โ€œ์ง€๊ธˆ X์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด๋ดโ€์™€ ๊ฐ™์€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ๋ฉด ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ์‹ค์ œ๋กœ ์กฐ์ ˆํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด๋Ÿฐ โ€˜๋‚ด์  ์ธ์‹ ๋Šฅ๋ ฅโ€™์€ ๋ชจ๋ธ์ด๋‚˜ ์ƒํ™ฉ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ๋‹ฌ๋ผ์กŒ๋‹ค๊ณ  ํ•˜๊ณ , ์•„์ง ๋ถˆ์•ˆ์ •ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ์ดˆ๊ธฐ ํ˜•ํƒœ์˜ ์ž๊ธฐ ์ธ์‹์œผ๋กœ ํ•ด์„ํ•œ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ธ€์Ž„์š”?

์˜คํ”ˆAI์˜ Aardvark, ๋ณด์•ˆ์„ ํŒŒํ—ค์น˜๋Š” GPT-5 ์—ฐ๊ตฌ์›

์˜คํ”ˆAI๊ฐ€ ์ƒˆ๋กœ์šด ์ž์œจํ˜• ๋ณด์•ˆ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ โ€˜Aardvarkโ€™๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๋น„๊ณต๊ฐœ ๋ฒ ํƒ€ ๋‹จ๊ณ„์— ์žˆ๋Š” ์ด ์‹œ์Šคํ…œ์€ GPT-5 ๊ธฐ๋ฐ˜์œผ๋กœ, ์ฝ”๋“œ๋ฒ ์ด์Šค๋ฅผ ๋Š์ž„์—†์ด ์ˆœ์ฐฐํ•˜๋ฉด์„œ ์ทจ์•ฝ์ ์„ ์ฐพ์•„๋‚ด๊ณ , ๊ฒ€์ฆํ•˜๊ณ , ํŒจ์น˜๊นŒ์ง€ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ ์—ฌ๋Ÿฌ ์˜คํ”ˆ์†Œ์Šค ํ”„๋กœ์ ํŠธ์—์„œ ์‹ค์ œ CVE ์ทจ์•ฝ์ ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค๊ณ  ํ•˜๊ณ , ์˜คํ”ˆAI์˜ ๋‚ด๋ถ€ ํ…Œ์ŠคํŠธ์—์„œ๋„ ๊ทธ ์‹ค๋ ฅ์„ ์ž…์ฆํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด์„œ, ์ž ๋“ค์ง€ ์•Š๊ณ  ๋ฒ„๊ทธ๋ฅผ ๋†“์น˜์ง€ ์•Š๋Š” ๊ฐœ๋ฐœํŒ€์˜ ๋™๋ฃŒ๊ฐ€ ์ƒ๊ธด ์…ˆ์ด๋ผ๊ณ ๋‚˜ ํ• ๊นŒ์š”?

6,000์‹œ๊ฐ„์˜ ์‹คํ—˜: AI๊ฐ€ ์•„์ง ๋Œ€์ฒดํ•˜์ง€ ๋ชปํ•œ ์›๊ฒฉ ๋…ธ๋™

AI ์•ˆ์ „ ์„ผํ„ฐ(Center for AI Safety)์™€ Scale AI๊ฐ€ ๊ณต๋™์œผ๋กœ ๋ฐœํ‘œํ•œ โ€œRemote Labor Indexโ€๋Š”, ์›๊ฒฉ ๊ทผ๋ฌด๊ฐ€ AI ์ž๋™ํ™”์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ๋ฐ›๋Š”์ง€ ์ธก์ •ํ•œ ํฅ๋ฏธ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ๋ฐ์š”. ์‹ค์ œ ํ”„๋ฆฌ๋žœ์„œ ํ”„๋กœ์ ํŠธ 240๊ฑด(23๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ)์„ ๋ถ„์„ํ–ˆ๋Š”๋ฐ, ์ด 6,000์‹œ๊ฐ„ ์ด์ƒ์˜ ๋…ธ๋™, ์•ฝ 14๋งŒ ๋‹ฌ๋Ÿฌ ๊ทœ๋ชจ์˜ ์ž‘์—…์„ ํฌํ•จํ•œ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. Manus์™€ Sonnet 4.5 ๊ฐ™์€ ์ตœ์‹  AI ์—์ด์ „ํŠธ์กฐ์ฐจ ์ž๋™ํ™”์œจ์ด 2.5% ๋ฏธ๋งŒ์— ๋จธ๋ฌผ๋ €๋‹ค๊ณ  ํ•˜๋Š”๋ฐ, ์ฆ‰, ๊ฒฝ์ œ์  ๊ฐ€์น˜๊ฐ€ ํฐ ์›๊ฒฉ ๋…ธ๋™์€ ์—ฌ์ „ํžˆ ๋Œ€๋ถ€๋ถ„ ์ž๋™ํ™”๋˜์ง€ ์•Š์€ ์ƒํƒœ๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

์—์ด์ „ํŠธ๋“ค์ด ์‹คํŒจํ•œ ์ด์œ ๋กœ๋Š” ํŒŒ์ผ ์†์ƒ(17.6%), ์ž‘์—… ๋ฏธ์™„์„ฑ(35.7%), ํ’ˆ์งˆ ์ €ํ•˜(45.6%)๊ฐ€ ์ฃผ์š” ์›์ธ์œผ๋กœ ์ง€์ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. AI๊ฐ€ ์ฝ”๋“œ๋ฅผ ์“ฐ๊ณ  ๋ณด๊ณ ์„œ๋ฅผ ์š”์•ฝํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋”๋ผ๋„, โ€˜์™„์„ฑ๋„ ์žˆ๊ณ  ์ฑ…์ž„ ์žˆ๋Š” ๋…ธ๋™โ€™์„ ๋Œ€์ฒดํ•˜๊ธฐ๊นŒ์ง€๋Š” ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ€๋‹ค๋Š” ์ ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฑธ๊นŒ์š”?

์ƒˆ๋กœ ๋‚˜์˜จ, ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์—ฐ๊ตฌ ๋…ผ๋ฌธ

โ€˜์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ตœ์‹ ์˜ AI ๋ชจ๋ธโ€™์„ ๋จผ์ € ์†Œ๊ฐœํ•˜๊ณ , ๊ฐ ์˜์—ญ๋ณ„๋กœ โ€˜Top Pickโ€™์€ ํ•ด๋‹น ๋…ผ๋ฌธ ์•ž์— ๋ณ„ํ‘œ(๐ŸŒŸ)๋กœ ํ‘œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค!

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ตœ์‹  AI ๋ชจ๋ธ

  • ๐ŸŒŸ MiniMax M2 & Agent โ€” ๋„๊ตฌ ํ™œ์šฉ๊ณผ ์ฝ”๋”ฉ์— ์ตœ์ ํ™”๋œ ์˜คํ”ˆ LLM
    MiniMax๊ฐ€ M2 ๋ชจ๋ธ๊ณผ Agent ์‹œ์Šคํ…œ์„ ํ•จ๊ป˜ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์กฐํ•ฉ์€ ๋น ๋ฅด๊ณ  ์ €๋น„์šฉ์˜ ์ถ”๋ก , ๊นŠ์€ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ, ๊ทธ๋ฆฌ๊ณ  Shell, Python, Browser๊ฐ€ ํ†ตํ•ฉ๋œ ๋„๊ตฌ ์ฒด์ธ์„ ํ†ตํ•ด์„œ ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด์„œ, ๋ณต์žกํ•œ ๋…ผ๋ฆฌ์  ๊ณผ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์˜คํ”ˆ LLM์œผ๋กœ ์ง„ํ™”ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Kimi Linear โ€” ์™„์ „ํ•œ ์–ดํ…์…˜์„ ๋„˜์–ด์„  ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ตฌ์กฐ
    Kimi ํŒ€์€ ๊ธฐ์กด์˜ โ€˜ํ’€ ์–ดํ…์…˜(Full Attention)โ€™ ๊ตฌ์กฐ๋ฅผ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์„ ํ˜• ์–ดํ…์…˜ ์Šคํƒ(KDA + MLA)์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋™์ผํ•œ ์กฐ๊ฑด์—์„œ ํ’€ ์–ดํ…์…˜ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ , KV ์บ์‹œ๋ฅผ ์ตœ๋Œ€ 75% ์ ˆ๊ฐ, 1๋ฐฑ๋งŒ ํ† ํฐ ์ปจํ…์ŠคํŠธ์—์„œ 6๋ฐฐ ๋น ๋ฅธ ๋””์ฝ”๋”ฉ ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • MASPRM: Multi-Agent System Process Reward Model โ€” ๋‹ค์ค‘ ์—์ด์ „ํŠธ์˜ ์ง„ํ–‰๋ฅ ์„ ์ธก์ •ํ•˜๊ณ  ๋” ๋‚˜์€ ์ถ”๋ก ์œผ๋กœ ์ด๋„๋Š” ๋ชจ๋ธ
    MASPRM์€ MCTS ๋กค์•„์›ƒ(Monte Carlo Tree Search)์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ๊ฐ ์—์ด์ „ํŠธ์˜ ํ–‰๋™ ๋‹จ์œ„๋ณ„ ์ง„ํ–‰ ์ƒํ™ฉ์„ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋น” ์„œ์น˜๋‚˜ MCTS ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ํ•  ๋•Œ ์—ฐ์‚ฐ ์ž์›์„ ๊ฐ€์žฅ ์œ ๋งํ•œ ๊ฒฝ๋กœ์— ์ง‘์ค‘ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ฐ„์˜ ์ถ”๋ก  ๊ณผ์ •์ด ๋” ์‹ ๋ขฐ์„ฑ ์žˆ๊ณ  ํšจ์œจ์ ์œผ๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Ouro: Looped Language Models โ€” ๋ฐ˜๋ณต์  ์‚ฌ๊ณ  ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฃจํ”„ํ˜• ์–ธ์–ด๋ชจ๋ธ

    Ouro๋Š” ๋ชจ๋ธ์ด ๋‚ด์žฌ์  ๋ฐ˜๋ณต ๊ณ„์‚ฐ(Latent Iterative Computation)์„ ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ค‘ ์Šค์Šค๋กœ โ€˜์–ผ๋งˆ๋‚˜ ๊นŠ์ด ์‚ฌ๊ณ ํ•ด์•ผ ํ•˜๋Š”๊ฐ€โ€™๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜(Learned Depth Allocation)์„ ํƒ‘์žฌํ–ˆ์œผ๋ฉฐ, ์ด ๊ธฐ๋ฒ•์œผ๋กœ 1~3B ๊ทœ๋ชจ์˜ ์†Œํ˜• ๋ชจ๋ธ์ด ํ›จ์”ฌ ํฐ Chain-of-Thought ํŠœ๋‹ ๋ชจ๋ธ๊ณผ ๋Œ€๋“ฑํ•œ ์ˆ˜์ค€์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Emu3.5 โ€” ์˜ˆ์ธกํ•˜๊ณ , ์ƒ์„ฑํ•˜๊ณ , ์ˆ˜์ •ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์›”๋“œ๋ชจ๋ธ

    Emu3.5๋Š” ์‹œ๊ฐ๊ณผ ์–ธ์–ด๊ฐ€ ์–ฝํžŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์›”๋“œ ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋น„์ „๊ณผ ํ…์ŠคํŠธ๊ฐ€ ๊ต์ฐจํ•˜๋Š” โ€˜๋‹ค์Œ ์ƒํƒœโ€™๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , Discrete Diffusion Adaptation์„ ํ†ตํ•ด์„œ ๋น ๋ฅด๊ณ  ์ผ๊ด€๋œ ์ƒ์„ฑ๊ณผ ํŽธ์ง‘์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ์„ธ์ƒ์„ ์ดํ•ดํ•˜๊ณ  ๋‹ค์Œ์„ ๊ทธ๋ ค๋ณด๋Š” ๋ชจ๋ธ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Tongyi DeepResearch โ€” ์žฅ๊ธฐ์  ํƒ๊ตฌ๋ฅผ ์œ„ํ•œ 30B ๊ทœ๋ชจ์˜ ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ

    ์•Œ๋ฆฌ๋ฐ”๋ฐ”์˜ Tongyi ํŒ€์€ 30.5B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์—์ด์ „ํŠธํ˜• LLM์„, ํ† ํฐ๋‹น 3.3B ํ™œ์„ฑ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์‚ฌ์šฉํ•˜๋„๋ก ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ค‘๊ฐ„ ํ•™์Šต(Agentic Mid-Training)๊ณผ ์‚ฌํ›„ ํ•™์Šต(Post-Training)์œผ๋กœ, ์›น ๋ฆฌ์„œ์น˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹ ์˜ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
    โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • LongCat-Video โ€” ๋ถ„ ๋‹จ์œ„์˜ 720p ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ™•์žฅํ˜• ๋ชจ๋ธ

    LongCat-Video๋Š” DiT(Transformer Diffusion) ๋ฐฑ๋ณธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, Coarse-to-Fine ๋ฐฉ์‹์˜ ์‹œ๊ณต๊ฐ„ ์ƒ์„ฑ, Block-Sparse Attention, ๊ทธ๋ฆฌ๊ณ  T2V(ํ…์ŠคํŠธ-ํˆฌ-๋น„๋””์˜ค), I2V(์ด๋ฏธ์ง€-ํˆฌ-๋น„๋””์˜ค), ์ด์–ด์“ฐ๊ธฐ(Continuation) ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฉ€ํ‹ฐ ๋ฆฌ์›Œ๋“œ RLHF๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ตœ๋Œ€ ์ˆ˜ ๋ถ„ ๊ธธ์ด์˜ 720p, 30fps ๋น„๋””์˜ค๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

์ถ”๋ก  ๋ฐ ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต

  • ๐ŸŒŸ๐ŸŒŸ Supervised Reinforcement Learning (SRL) - ์ „๋ฌธ๊ฐ€์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋‹จ๊ณ„๋ณ„๋กœ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ• (Google)
    Google ์—ฐ๊ตฌ์ง„์€ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์„ ์ผ๋ จ์˜ ํ–‰๋™(Action)์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•˜๊ณ , ์ „๋ฌธ๊ฐ€์˜ ์ˆ˜ํ–‰ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด์„œ ๋‹จ๊ณ„๋ณ„ ๋ณด์ƒ์„ ์ฃผ๋Š” ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ์ž‘์€ ๋ชจ๋ธ์ด ์ „๋ฌธ๊ฐ€์˜ ์‚ฌ๊ณ  ํ๋ฆ„์„ ๋”ฐ๋ผ๊ฐ€๋ฉด์„œ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ์„ ๊ธฐ๋ฅผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ดํ›„ RLVR(๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์„ธ๋ฐ€ ์กฐ์ •)์„ ํ†ตํ•ด ์ •ํ™•์„ฑ๊ณผ ์ผ๊ด€์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: SLR

  • ๐ŸŒŸ๐ŸŒŸ SPICE: Self-Play In Corpus Environments Improves Reasoning - ๋ฌธ์„œ ํ™˜๊ฒฝ ์† ์ž๊ธฐ ๋Œ€์ „์„ ํ†ตํ•œ ์ถ”๋ก  ํ–ฅ์ƒ (Meta)
    Meta์˜ SPICE๋Š” ๋ฌธ์„œ ์ฝ”ํผ์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‘ ๊ฐœ์˜ ๋ชจ๋ธ โ€” ๋„์ „์ž(Challenger)์™€ ์ถ”๋ก ์ž(Reasoner) โ€” ๋ฅผ ํ•จ๊ป˜ ์ง„ํ™”์‹œํ‚ค๋Š” ์ž๊ธฐํ•™์Šต ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋ธ์€ ์„œ๋กœ ๊ฒฝ์Ÿํ•˜๊ณ  ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๊ณ ๋ฐ›์œผ๋ฉด์„œ ์Šค์Šค๋กœ ์ƒˆ๋กœ์šด ํ•™์Šต ์ปค๋ฆฌํ˜๋Ÿผ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด์„œ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ง€์†์ ์ธ ์ž๊ธฐ ๊ฐœ์„ ์„ ํ•ด ๋ƒ…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: SPICE

  • ๐ŸŒŸ Reasoning-Aware GRPO using Process Mining - ํ”„๋กœ์„ธ์Šค ๋งˆ์ด๋‹์œผ๋กœ ๊ฐ•ํ™”๋œ ๋‹จ๊ณ„์  ์ถ”๋ก  ํ•™์Šต (๋ถ€์‚ฐ๋Œ€ํ•™๊ต)
    ๋ถ€์‚ฐ๋Œ€ํ•™๊ต ์—ฐ๊ตฌํŒ€์€ ๊ธฐ์กด GRPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ํ”„๋กœ์„ธ์Šค ๋งˆ์ด๋‹ ๊ธฐ๋ฐ˜์˜ ์ •ํ•ฉ์„ฑ ๋ณด์ƒ์„ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ต์‚ฌ ๋ชจ๋ธ์˜ ์ถ”๋ก  ์ ˆ์ฐจ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•™์ƒ ๋ชจ๋ธ์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ํ‰๊ฐ€ํ•ด์„œ ์ •์ฑ…์ด ๊ต์‚ฌ์˜ ์‚ฌ๊ณ  ํ๋ฆ„๊ณผ ์ผ์น˜ํ•˜๋„๋ก ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋ณต์ˆ˜ ๋‹จ๊ณ„์— ๊ฑธ์นœ ๋…ผ๋ฆฌ ์ถ”๋ก ์˜ ํ’ˆ์งˆ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

์—์ด์ „ํŠธ์˜ ์กฐ์ง, ๊ณ„ํš, ๊ทธ๋ฆฌ๊ณ  ์‹œ์žฅ

  • ๐ŸŒŸ๐ŸŒŸ Magentic Marketplace - ๋Œ€๊ทœ๋ชจ ์—์ด์ „ํŠธ ์‹œ์žฅ์„ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๋Š” ์˜คํ”ˆ์†Œ์Šค ํ™˜๊ฒฝ (Microsoft)
    Microsoft๋Š” ๋ณด์กฐ ์—์ด์ „ํŠธ์™€ ์„œ๋น„์Šค ์—์ด์ „ํŠธ๊ฐ€ ํ•จ๊ป˜ ์ž‘๋™ํ•˜๋Š” ์–‘๋ฉด ์‹œ์žฅ(Two-sided Market)์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ๋Š” ์˜คํ”ˆ์†Œ์Šค ํ™˜๊ฒฝ์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ ๋ณต์ง€(Welfare), ํŽธํ–ฅ(Bias), ์กฐ์ž‘(Manipulation), ๊ฒ€์ƒ‰(Search)์˜ ๋‹ค์ด๋‚˜๋ฏน์Šค๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋“ค์ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉด์„œ ํ˜•์„ฑํ•˜๋Š” ๊ฒฝ์ œ์ ยท์‚ฌํšŒ์  ํŒจํ„ด์„ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

Image Credit: Magentic Marketplace

  • ๐ŸŒŸ The Era of Agentic Organization - ์–ธ์–ด๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์กฐ์ง์„ ๋ฐฐ์šฐ๋Š” ์‹œ๋Œ€ (Microsoft)
    Microsoft ์—ฐ๊ตฌํŒ€์€ ์–ธ์–ด๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์กฐ์ง์„ ๊ตฌ์„ฑํ•˜๊ณ  ์šด์˜ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์กฐ์ง์ž(Organizer)์™€ ์ž‘์—…์ž(Workers)์˜ ๋น„๋™๊ธฐ์  ์‚ฌ๊ณ ๋ฅผ ์กฐ์œจํ•˜๋Š” ํ”„๋กœํ† ์ฝœ์„ ์„ค๊ณ„ํ•˜๊ณ , ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด์„œ ์ตœ์ ์˜ ๊ตฌ์กฐ๋ฅผ ์ฐพ์•„๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ ์ถ”๋ก  ์ •ํ™•๋„๋Š” ๋†’์ด๊ณ  ์‘๋‹ต ์ง€์—ฐ์€ ์ค„์˜€์Šต๋‹ˆ๋‹ค. AI๊ฐ€ ํ•˜๋‚˜์˜ ์กฐ์ง์ฒ˜๋Ÿผ ์Šค์Šค๋กœ ํ˜‘์—… ๊ตฌ์กฐ๋ฅผ ํ˜•์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์‹œ์ž‘์ž…๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • ReCode: Unify Plan and Action for Universal Granularity Control - ๊ณ„ํš๊ณผ ํ–‰๋™์„ ํ•˜๋‚˜์˜ ์ฝ”๋“œ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋ณดํŽธ์  ์ถ”๋ก  ๊ตฌ์กฐ
    ReCode๋Š” ๊ณ„ํš์„ ์žฌ๊ท€์  ์ฝ”๋“œ(Recursive Code) ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ๊ทธ ์•ˆ์˜ Placeholder ํ•จ์ˆ˜๋ฅผ ์‹ค์ œ ํ–‰๋™(Action)์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ ๋ชจ๋ธ์€ ์ƒํ™ฉ์— ๋”ฐ๋ผ ๊ฒฐ์ •์˜ ์„ธ๋ฐ€ํ•จ(Granularity)์„ ์ž์œ ๋กญ๊ฒŒ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ „๋žต์  ๊ณ„ํš์—์„œ ๊ตฌ์ฒด์  ์‹คํ–‰์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด๋™ํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ์  ์ถ”๋ก  ํ”„๋ ˆ์ž„์›์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

์•„ํ‚คํ…์ฒ˜ ๋ฐ ํšจ์œจ์„ฑ(Attention, Routing, Long Context)

  • Knocking-Heads Attention - ํ—ค๋“œ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์ƒˆ๋กœ์šด ์–ดํ…์…˜ ๊ตฌ์กฐ
    Knocking-Heads Attention์€ ์„œ๋กœ ๋‹ค๋ฅธ ์–ดํ…์…˜ ํ—ค๋“œ๋“ค์ด ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š๊ณ , ๊ณต์œ ๋œ ๋Œ€๊ฐ์„  ์ดˆ๊ธฐํ™” ํ”„๋กœ์ ์…˜(Shared Diagonally-initialized Projection)์„ ํ†ตํ•ด์„œ ์„œ๋กœ โ€œ๋ถ€๋”ชํžˆ๋ฉฐ(Knock)โ€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ•™์Šต ์ดˆ๊ธฐ์— ๋ชจ๋ธ์„ ๋” ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ด์‹œํ‚ค๊ณ , ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผœ์ค€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Sparser Block-Sparse Attention via Token Permutation - ํ† ํฐ ์žฌ๋ฐฐ์—ด์„ ํ†ตํ•œ ๋ธ”๋ก ๋‹จ์œ„ ํฌ์†Œ ์–ดํ…์…˜ ์ตœ์ ํ™”
    ์ด ์—ฐ๊ตฌ๋Š” ํ† ํฐ์„ ์žฌ๋ฐฐ์—ด(Permutation)ํ•ด์„œ ์˜์กด์„ฑ์ด ๋ธ”๋ก ๋‚ด์— ๋” ์ง‘์ค‘๋˜๋„๋ก ๋งŒ๋“ค์–ด์„œ, ๋ธ”๋ก ๋‹จ์œ„ ํฌ์†Œ์„ฑ(Block-level Sparsity)์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๊ธด ๋ฌธ๋งฅ ์ž…๋ ฅ ์‹œ ํ”„๋ฆฌํ•„ ๋‹จ๊ณ„๋ฅผ ๊ฐ€์†ํ™”ํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋ฅผ ์œ„ํ•ด์„œ ๋งž์ถคํ˜• Permuted-FlashAttention ๊ธฐ๋ฒ•์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Parallel Loop Transformer for Efficient Test-Time Computation Scaling - ์ถ”๋ก  ๋‹จ๊ณ„์˜ ํšจ์œจ์  ์—ฐ์‚ฐ ํ™•์žฅ์„ ์œ„ํ•œ ๋ณ‘๋ ฌ ๋ฃจํ”„ ํŠธ๋žœ์Šคํฌ๋จธ
    ์ด ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋ฃจํ”„ ์—ฐ์‚ฐ(Looped Computation)์„ ํ† ํฐ ๋‹จ์œ„๋กœ ๋ณ‘๋ ฌํ™”(Parallelize)ํ•˜๊ณ , ์ฒซ ๋ฒˆ์งธ ๋ฃจํ”„์˜ KV ์บ์‹œ๋ฅผ ์žฌ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๊ฒŒ์ดํ‹ฐ๋“œ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜(Gated Sliding-Window Attention)์„ ๊ฒฐํ•ฉํ•ด์„œ, ์ง€์—ฐ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๊ฑฐ์˜ ๊ธฐ์กด ์ˆ˜์ค€์œผ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ํ…Œ์ŠคํŠธ ์‹œ ์—ฐ์‚ฐ ํ™•์žฅ์„ฑ(Computation Scaling)์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

  • Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance - ๋ช…์‹œ์  ๋ผ์šฐํŒ…์œผ๋กœ ์ „๋ฌธ๊ฐ€ ๋„คํŠธ์›Œํฌ(MoE) ํ™•์žฅํ•˜๊ธฐ
    ์ด ์—ฐ๊ตฌ๋Š” Diffusion Transformer(DiT)์—์„œ์˜ ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(Mixture-of-Experts) ๋ผ์šฐํŒ…์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ, ์กฐ๊ฑด๋ถ€(Conditonal) ๋ฐ ํ”„๋กœํ† ํƒ€์ž…(Prototypical) ๊ธฐ๋ฐ˜์˜ ๋ผ์šฐํŒ…๊ณผ ๋ผ์šฐํŒ… ๋Œ€๋น„ ์†์‹ค(Routing Contrastive Loss)์„ ํ•จ๊ป˜ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ๊ฐ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋” ๋ช…ํ™•ํ•˜๊ฒŒ ๋ถ„ํ™”๋˜์–ด ImageNet ์„ฑ๋Šฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค๊ณ  ํ•˜๊ณ , MoE ๊ตฌ์กฐ์—์„œ ๋ผ์šฐํŒ… ์„ค๊ณ„๊ฐ€ ์„ฑ๋Šฅ ํ™•์žฅ์˜ ํ•ต์‹ฌ ์š”์†Œ์ž„์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. โ€”> [๋…ผ๋ฌธ ๋ณด๊ธฐ]

*๋ฆฌ๋ทฐ๋ฅผ ๋‚จ๊ธฐ์‹œ๋ ค๋ฉด ๋กœ๊ทธ์ธํ•˜์‹œ๊ฑฐ๋‚˜ ๊ตฌ๋…ํ•ด ์ฃผ์„ธ์š”. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค!

์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ”„๋ฆฌ๋ฏธ์—„ ๊ตฌ๋…์ž๊ฐ€ ๋˜์–ด์ฃผ์‹œ๋ฉด ํŠœ๋ง ํฌ์ŠคํŠธ ์ฝ”๋ฆฌ์•„์˜ ์ œ์ž‘์— ํฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค!

Reply

or to participate.