- Turing Post Korea
- Posts
- ๐ฆธ๐ป#19: แแ ฆแแ ตแแ ฅแซแแ ณแแ ด 'แแ ญแจแแ กแผ'แแ ณแฏ แแ ฉแแ ฒแฏแแ กแซแแ ก: AIแแ ด แแ ฉแแ กแผแแ กแทแแ ฎ, แแ กแแ ตแแ กแทแแ ฎ แแ ตแแ ฃแแ ต
๐ฆธ๐ป#19: แแ ฆแแ ตแแ ฅแซแแ ณแแ ด 'แแ ญแจแแ กแผ'แแ ณแฏ แแ ฉแแ ฒแฏแแ กแซแแ ก: AIแแ ด แแ ฉแแ กแผแแ กแทแแ ฎ, แแ กแแ ตแแ กแทแแ ฎ แแ ตแแ ฃแแ ต
แแ ฆแแ ตแแ ฅแซแแ ณแแ ด 'แแ กแฑ'แแ ฆแแ ฅ แแ ฉแแ กแผ, แแ ณแ แ ตแแ ฉ แแ กแแ ตแ แ กแแ ณแซ แแ ฅแบแแ ต แแ ฅแแ ฅแซ แแ งแจแแ กแฏแแ ณแฏ แแ กแแ ณแซแแ ต แแ กแฏแแ กแแ ฉแธแแ ตแแ ก.
๋ค์ด๊ฐ๋ฉฐ
โ์ฐ๋ฆฌ๊ฐ ๋ชฉํ(Goal)๋ ๋ชฉ์ (Purpose)์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๋ชจ๋ ๊ฒ์, ์์ ๋ ์ค์นผ๋ผ ์ ํธ(Scalar Signal) - โ๋ณด์โ์ด๋ผ๊ณ ๋ถ๋ฅด๋ - ์ ๋์ ํฉ(Cumulative Sum)์ ๊ธฐ๋๊ฐ(Expected Value)์ ๊ทน๋ํํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํด ๋ณด๋ฉด ์ ์ค๋ช ๋๋ค.โ

๊ฐํํ์ต ์ฐ๊ตฌ์ ๋ํ ๊ณต๋ก๋ก 2024 ํ๋ง์์ ์์ํ, ๋ฆฌ์ฐจ๋ ์ํผ๊ณผ ์ค๋๋ฅ ๋ฐํ
2025๋ ์ง๊ธ, ๊ทธ๊ฒ ์๋ง์ ๊ตฐ์ง ๋๋ก ์ ์กฐ์ข ํ๋ ๊ฒ์ด๋ , ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์บ๋ฆฐ๋์ ์ผ์ ์ ์กฐ์จํ๋ ๊ฒ์ด๋ ๊ฐ์, ๋ฏฟ์ ๋งํ AI ์์ด์ ํธ ์คํ(AI Agent Stack)์ด๋ผ๋ฉด ์ค๋ก์ง โ๋ ๊ฐ์ ์ซ์โ์ ์์งํด์ ์์ง์ด๊ณ ์์ต๋๋ค: ๋ฐ๋ก โ๋ณด์(Reward)โ๊ณผ โ๊ฐ์น(Reward)โ๋ฅผ ๋ํ๋ด๋ ์ซ์๋ค์ด์ฃ .
๋ณด์์, ์์คํ ์ ๋งฅ๋ฐ๊ณผ๋ ๊ฐ์ ๊ฒ๋๋ค. โ์ด๋ฐ ๊ฑธ ๋ ๋ง์ด ํ๋ผโ๊ณ ์ด์ผ๊ธฐ๋ฅผ ํด ์ฃผ๋, ์ค์นผ๋ผ ์ ํธ(Scalar Signal)์ด์์.
๊ฐ์น๋, ์ฅ๊ธฐ์ ์ธ ์์ธก์ ๋๋ค. ๋ฏธ๋์ ๋ณด์(Future Reward)์ ๋ํ ์ถ์ ์น๋ก, ๊ฒฝํ์ ํ ๋๋ง๋ค ํ ์ธ(Discounting)๋๊ณ ๊ฐฑ์ (Update)๋ฉ๋๋ค.
์ด ๋ ๊ฐ์ ์ซ์๊ฐ โ๋ฌด์์ ํ๋๋โ ๋ฟ ์๋๋ผ โ์ด๋ป๊ฒ ํ์ตํ๋๋โ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
์ด ๋ ๊ฐ์ง์ ๊ฐ๋ ์ด ์๋ก์ด ๊ฒ์ ์๋๊ณ ์คํ๋ ค ์์ฃผ ๊ธฐ์ด์ ์ธ ๊ฒ๋ค์ด๊ธฐ๋ ํ์ง๋ง, ๊ทธ ์ค์์ฑ์ด ์ต๊ทผ ๋ค์ด์ ์์ฒญ๋๊ฒ ๋์์ก๋ค๊ณ ํ ์ ์์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ์๋ ๋ชจ๋ธ(Multi-Modal World Model), ๋ณต์กํ ๋ฉํฐ ์์ด์ ํธ ์์คํ (Multi-Agent System), ์์ฒญ๋ ๊ท๋ชจ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ (Offline Dataset), ๊ทธ๋ฆฌ๊ณ ์ค์ ์ฌ์ฉ์๋ค์ด ์คํธ๋ฆฌ๋ฐํ๋ ์ค์๊ฐ ํผ๋๋ฐฑ(Live Streaming Feedback)์ด ์ผ์์ด ๋ ์ด ์๋์, 2023๋ ์ด๋ผ๋ฉด ๊ทธ๋ฅ ๋์ด๊ฐ์์ง๋ ๋ชจ๋ฅด๋ โ๋ณด์ ํดํน(Reward Hacking)โ์ด ์ด์ ๋ ๋ฐ๋ก ๋ ์์ ๋ฅ์น ์ํ์ด ๋์๊ฑฐ๋ ์. ๋น์ ์ด ์ค๊ณํ ๋ณด์ ํจ์(Reward Function)์ ๋ง์ฝ ํ์ ์ด ์๋ค๋ฉด, ํนํ ๋ฉํฐ ์์ด์ ํธ ์์คํ ํ๊ฒฝ์ด๋ผ๋ฉด, ์์ด์ ํธ๊ฐ ๊ทธ ํ์ ์ ๋ช ์๊ฐ ๋ด์ ํ๊ณ ๋ค์ง๋ ๋ชจ๋ฆ ๋๋ค.
๊ฐ์ธ์ ์ผ๋ก ํ ๊ฐ์ง๋ฅผ ๋ง๋ถ์ด์๋ฉด, ์ ๋ โ๊ธฐ๊ณ๊ฐ ์๊ฐํ๊ฒ ๋๋ค๋ ๊ฒ(Machine Sentience)โ์ ๋ํด์๋ ๋ถ์ ์ ์ธ ์ ์ฅ์ด์ง๋ง, ์ฌ๋์ด ๋ง๋ค์ด๋ธ ๋ณด์(Reward)๊ณผ ๊ฐ์น ํจ์(Value Function)์ ๋ณต์กํ ๊ทธ๋ฌผ๋ง์ด, ๋ง์น โ์์โ์ฒ๋ผ ๋ณด์ด๋ ํ๋์ ๋ง๋ค์ด ๋ผ ์ ์๋ค๊ณ ๋ ๋ด ๋๋ค. ๊ทธ๋ฐ ๊ด์ ๋๋ฌธ์๋ผ๋, ํ๋์ ์ธ ๋ณด์ ์ค๊ณ(Reward Design)๊ฐ ์ ๋ง ์ค์ํ ์ด์์ ์ฒด๊ณ(Operational Discipline)์ผ๋ก ๋น ๋ฅด๊ฒ ๋ณํํ๊ณ ์๋ ๊ฒ์ด๊ฒ ์ฃ . ์์คํ ์ด ์ ์ ๋ ๋ณต์กํด์ง๋ฉด์, ์ฐ๋ฆฌ๊ฐ ์๋ ์๋ํ ๊ฐ์น(Intended Value)์ ์ค์ ๋ก ๊ตฌํ๋ ๋ณด์(Operationlized Reward) ์ฌ์ด์ ๊ฐ๊ทน ๋๋ฌธ์ ์ ์ ๋ ์ ๊ตํ, ๋ง์น ๊ธฐ๊ณ๊ฐ ๋ญ๊ฐ๋ฅผ ์ดํดํ๊ฑฐ๋ ์ ํธํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๋ ํ๋์ ๋ง๋ค์ด๋ด๊ฒ ๋ฉ๋๋ค.
๋ง์ผ ๋น์ ์ด AI ์์ด์ ํธ๋ฅผ ์ค๊ณํ๊ณ ์๋ค๋ฉด, ๋ณด์ ์ค๊ณ(Reward Design)๋ ๊ฐ์ฅ ๊ฐ๋ ฅํ๋ฉด์๋ ๊ฐ์ฅ ์ํํ - ๋ณด์ ํดํน(Reward Hacking) ๋๋ฌธ์์ - ๋๊ตฌ๋ผ๊ณ ์๊ฐํ์ ์ผ ํฉ๋๋ค.
์ค๋์, ์ด์ฌ์์๊ฒ๋ ์์ด์ ํธ์ ๋งฅ๋ฝ์์ โ๋ณด์โ๊ณผ โ๊ฐ์นโ๊ฐ ์ด๋ค ์ญํ ์ ํ๋์ง ์ดํดํ๊ธฐ ์ํ ์ ๋ฌธ ๊ฐ์ด๋, ์๋ จ๋ ๊ฐํํ์ต ์ ๋ฌธ๊ฐ์๊ฒ๋ ์ธ๋งํ ์ ๋ฆฌ ์๋ฃ์ ์ญํ ์ ํ์ผ๋ฉด ์ข๊ฒ ๋ค๋ ๋ง์์ผ๋ก ๊ธ์ ์จ ๋ด ๋๋ค. ์, ํจ๊ป ์์ํด ๋ณผ๊น์?
์ค๋ ์ํผ์๋์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ด์ฉ์ ๋ค๋ฃน๋๋ค:
โ๋ณด์ ์ค๊ณโ์ ์งํ: ํ๋์ ์ด๋ฅด๊ธฐ๊น์ง์ ์ฌ์
โ์ด๋ก โ์์ โ์์ง๋์ด๋งโ์ผ๋ก: โ๋ณด์โ์ ์ค์ ๋ก ๊ตฌํํ๋ค๋ ๊ฒ
๋ณด์ ํ์ดํ๋ผ์ธ์ ํด๋ถ๋: โ๋ณด์โ์ด โ์ซ์โ๊ฐ ๋๊ธฐ๊น์ง
๋ช ์์ ๊ฐ์น ํจ์: ์ฆ๊ฐ์ ๋ง์กฑ์ ๋์ด, ์ง์ง ๋ชฉํ๋ฅผ ๋ณธ๋ค
โ๋ณด์ ์ค๊ณโ์ ์งํ: ํ๋์ ์ด๋ฅด๊ธฐ๊น์ง์ ์ฌ์
๋ณด์ ์ ํธ(Reward Signal), ์์์ ์ด์ผ๊ธฐํ ๋๋ก, ์ธ์ ๋ ์์ด์ ํธ๋ฅผ ํ๋ จํ๋๋ฐ ์์ด์์ โ์ฌ์ฅ ๋ฐ๋โ, โ๋งฅ๋ฐโ ๊ฐ์ ๊ฒ์ด์์ต๋๋ค. ์ง๋ 70๋ ๋์, AI ์์ญ์์๋ ๊ธฐ๊ณ๊ฐ ๋ญ๊ฐ๋ฅผ โ์ํ๋ค(Want)โ๊ฑฐ๋ โํ์ตํ๋ค(Learn)โ๋ ๊ฒ ๋ญ ์๋ฏธํ๋์ง๋ฅผ ํ๊ตฌํ๊ณ , ๋นํ๊ณ , ํ์ฅํ๊ณ , ์ฌํด์ํด ์์ต๋๋ค.
์ค๋๋ ์ ๋ณด์ ๋ฉ์ปค๋์ฆ(Reward Mechanism)์ ์ดํดํ๋ ค๋ฉด, ์๋์ ํ๋ฅผ ํ์ด๋ณด๋ฉด์ ์ง๊ธ์ ์ด๋ฅด๊ธฐ๊น์ง์ โ๋ณด์โ ๊ฐ๋ ์ ์ด์ ํ๋ฅผ ๋ฐ๋ผ๊ฐ ๋ณด๋ฉด ๋์์ด ๋ ๊ฒ๋๋ค:

AI์์ โ๋ณด์โ์ ๋ฐ๋ผ๋ณด๋ ๋ฐฉ์์ ์งํ. Image Credit: ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์
2025๋ , ์ ์ง๊ธ ๋ณด์ ์ค๊ณ๊ฐ ์ค์ํ๊ฐ
โAI์ ๋ณด์ ์ค๊ณโ๋ผ๋ ๋ถ์ผ๋ ์ง๊ธ ์ผ์ข ์ ์ ํ์ (Inflection Point)์ ๋๋ฌํด ์์ต๋๋ค.
์ง๋ ์์ญ ๋ ๋์, ๋ณด์ ์ค๊ณ(Reward Design)๋ ์ฌ์ค์ โํ์ ์ ์ธ ํธ๊ธฐ์ฌโ์ ๋ถ๊ณผํ๋ค๊ณ ๋ด์ โ ๊ฒ์ ํ๋ ์ด ์์ด์ ํธ(Game-Playing Agent)๋ ๋ก๋ด์ ๋จ์ํ ์์ (Simple Robotic Task)์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์๋ค์ ์์ญ์ด์์ฃ . ํ์ง๋ง ChatGPT๊ฐ RLHF(Reinforcement Learning from Human Feedback; ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํํ์ต)์ ์์ ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉด์, ๊ฐํํ์ต์ ์งํ์ ํ์ฐ์ ๊ฐ๋ก๋ง๋ ๋ณ๋ชฉ(Bottleneck)์ด โ๋ชจ๋ธ ํฌ๊ธฐ(Model Size)โ๋ก๋ถํฐ โ๋ณด์ ํ์ง(Reward Quality)โ๋ก ์ฎ๊ฒจ๊ฐ์ต๋๋ค. 10๋ ์ ๋ง ํด๋ ๋ณด์ ๋ชจ๋ธ๋ง(Reward Modeling)์ ๊ฐํํ์ต ์ฝ์ค์ ํ ๊ฐ ๊ฐ์ ์ ๋์์ ๋ค๋ค์ง ํ ํฝ์ด์๋๋ฐ, ์ฌํด ๋ด์๋ ํฌ์์๋ค์ด RLHF ์๋น์ค ์์ฅ์ ๊ท๋ชจ๋ง ํด๋ 64์ต ๋ฌ๋ฌ๋ก ํ๊ฐํ๊ณ ์๊ณ , 2030๋ ๊น์ง๋ ๊ทธ ๊ท๋ชจ๊ฐ ๋ ๋ฐฐ ์ด์ ์ฑ์ฅํ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๊ณ ์์ต๋๋ค.
๊ธฐ์ ๋ค๋ ๋ผ์ํ ๊ตํ์ ํตํด ๊นจ๋ซ๊ฒ ๋์์ฃ โ ์๋ฌด๋ฆฌ ๊ฐ๋ ฅํ ํธ๋์คํฌ๋จธ๊ฐ ์์ด๋, ๋ชฉํ๊ฐ ์๋ชป๋ผ ๋ฒ๋ฆฌ๋ฉด ์๋ฌด ์์ฉ ์๋ค๋ ๊ฒ์์. ๋ชจ๋ธ์ด ๋ง๋ค์ด๋ด๋ ์ถ๋ ฅ๋ฌผ์ ํ์ง(Quality)์, ๋ฐ๋ก ์ ํํ ๋ณด์ ์ ํธ(Reward Signal)๋ฅผ ์ค์ ํ๋ ๋ฐ ๋ฌ๋ ค ์์ผ๋๊น์. ์ด์ ์ค์ฐ๋กํฝ ๊ฐ์ ํ์ฌ๋ค์ ๋ณด์ ๋ชจ๋ธ๋ง๋ง์ ์ ๋ดํ๋ ํ์ ์ด์ํ๊ณ ์์ต๋๋ค. ๋ณด์ ์์ง๋์ด(Reward Engineer)๊ฐ ์ด๋ฏธ ์๋ก์ด ํ๋กฌํํธ ์์ง๋์ด(Prompt Engineer)๋ผ๊ณ ๋ถ๋ฆฌ๋๋ฐ, ์ด ์ฌ๋๋ค์ โ์ข๋ค(Good)โ๋ ๊ฒ ์ค์ ๋ก ๋ญ ๋งํ๋ ๊ฑด์ง๋ฅผ ์์น๋ก ํํํ๋ผ๋ ์๋ฌด๋ฅผ ๋ฐ์ ์ฌ๋๋ค์ ๋๋ค. ์ฝ์ง ์์ ์ผ์ด์ฃ .
AI ๋ณด์ ์ค๊ณ๋ฅผ ๋ฐ๊พผ ์ธ ๊ฐ์ง์ ๊ฒฐ์ ์ ๋ณํ
์ฌ๋์ ํผ๋๋ฐฑ ํ์ดํ๋ผ์ธ(Human-Feedback Pipeline)์ด ์ฑ์ํด์ง
์ด์ ์๋, ์ฌ๋์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํ ๊ฐํํ์ต, ์ฆ RLHF(Reinforcement Learning from Human Feedback)๊ฐ โ์๊ณ ์ ํด์ ธ ์๋ ์ ํธ๋ ๋ฐ์ดํฐ์ (Preference Dataset)์ ์์กด์ ํ์ต๋๋ค. ๊ทธ๋ฐ๋ฐ ์ด์ ๋, ๋ค๋จ๊ณ์ ์ฃผ์(Multi-Stage Annotation), ์ง์์ ์ธ ํ๊ฐ ๋ฃจํ(Continuous Evaluation Loop), ํฉ์ฑ๋ ์ ํธ ์์ฑ(Synthetic Preference Generation) ๊ธฐ๋ฒ ๋ฑ์ ์ฌ์ฉํด์ ๋ถ๊ธฐ๊ฐ ์๋๋ผ โ๋งค์ฃผโ ํ์ต์ ๋ฐ๋ณตํ ์ ์๊ฒ ๋์ฃ .
์ด์ ์ฌ์ฉ์ ๊ฒฝํ(UX) ๊ฐ์ด๋๋ผ์ธ์ด๋ ์์ ์ฑ ์ ์ฝ(Safety Constraint)์ ์ ํธ๋ ์(Preference Pair)์ด๋ ํ๋ ์ถ์ (Behavior Trace) ๋ฐ์ดํฐ์ ์ผ๋ก ๋ณํํ ๋ค์์, ์ด์ ๋ฐ๋ผ์ ๊ฒฐ๊ณผ๋ฌผ์ ์ ์ํํ๋ โ์ง๋ํ์ต ๊ธฐ๋ฐ์ ๋ณด์ ๋ชจ๋ธ(Supervised Reward Model)โ์ ํ์ต์ํต๋๋ค.
์ด๋ฐ ๊ณผ์ ์, โ๊ทธ ๋ ๊ทธ ๋ ์์์ ์ผ๋ก ์กฐ์ ํ๋ ์์ โ์ ์ฑ๊ฒฉ์ ๊ฐ์ฌ ๊ฐ๋ฅ(Auditable)ํ ๊ณต์์ ์ธ ์ ์ฐจ๋ก ๋ณํ์์ผฐ์ต๋๋ค โ ์ด๊ฑด ๊ท์ ๊ธฐ๊ด์ด โ๋ชจ๋ธ์ด ์ด๋ค ๋จ์ด๋ฅผ ์ ํํ๋์งโ ๋ฉด๋ฐํ๊ฒ ์ดํด๋ณด๊ธฐ ์์ํ๋ฉด์ ํ์ธต ๋ ์ค์ํ ์์๊ฐ ๋์์ฃ .์ฐ๊ตฌ์ค ๋ฐ๊นฅ์ ํ์ค๋ก ๋์จ โ์์ด์ ํธโ
2025๋ ์ฐ๋ฆฌ๊ฐ ๋ฃ๊ณ ์ด์ผ๊ธฐํ๋ โ์์ด์ ํธโ, ์ด์ ์ฒ๋ผ โ๋ช ๊ฐ์ง ๊ฒ์ ํ๋ ์ด๋ฅผ ํ๋โ ์์ด์ ํธ๊ฐ ์๋๋๋ค - ๊ณต๊ธ๋ง์ ์ต์ ํํ๊ณ , ์ฃผ์ ๊ฑฐ๋๋ฅผ ์์์ ํ๊ณ , ๊ณ ๊ฐ ์ง์ ์ ๋ฌด๋ฅผ ๋์ ํ๋, ํต์ฌ์ ์ธ ์ํฌํ๋ก์ฐ๋ฅผ ์ด์ฉํ๋ ์์ด์ ํธ๋ค๋ก ํ์ฐ๋๊ณ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด์, ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋์ AlphaEvolve๋ ๋ฐ์ดํฐ์ผํฐ์ ๋ฐฐ์น๋ ์นฉ ํ๋ก์ดํ๋ ์ค๊ณ๋ฅผ ์ํด์ ์ฝ๋๋ฅผ ๊ณ์ํด์ ์งํ์ํค๊ณ , ๊ทธ ๋ณด์ ํจ์๋ ์ค์ ์๋์ง ์๊ธ์ด๋ ์ด์ญํ์ ์ ์ฝ ์ฌํญ์ ๊ณ ๋ คํฉ๋๋ค. ๋ชฉํ๋ฅผ ์๋ชป ์ ์ํ๋ค๋ฉด, ์ด์ ๊ทธ๋ฅ ๋ฎ์ ์ ์๋ฅผ ์ฃผ๋ ๊ฒ ์๋๋ผ ํธ๋ญ์ ๊ฒฝ๋ก๋ฅผ ์๋ชป ์ค์ ํ๊ฑฐ๋, ํ์ ์์ฐ์ ์ด๊ณผํ๊ฑฐ๋, ์ฆ๊ถ๊ฑฐ๋์์ํ์ ๊ท์ ์ ์๋ฐํ๋ ๊ฒฐ๊ณผ๋ก ์ด์ด์ง ์๋ ์์ต๋๋ค.
์ด๋ ์๊ฐ ๊ฐ์๊ธฐ, ๋ณด์ ์ค๊ณ(Reward Design)๊ฐ โ๋ณด์โ ์์ ์ฒ๋ผ ๋๊ปด์ง๊ธฐ๋ ํ๋ค์: ์์ ์ค์ ํ๋๋ก ์๋ฐฑ๋ง ๋ฌ๋ฌ ์์ค์ ๋ณผ ์๋ ์์ผ๋๊น์.์์์ ์ ์๋๋ฅผ ๋๋ด๋ฒ๋ฆฐ โ์ค์ผ์ผโ
์์ฒ ๊ฐ์ ์์ด์ ํธ๊ฐ ์๋ก ๋ค๋ฅธ ์์ ์ ์ํํ๋ ๊ฑธ ์กฐ์จํ๋ฉด์, ๊ฐ๊ฐ์ ํ๊ฒฝ๋ง๋ค ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ธํ๋ํ๋ค - ์์ฃผ ๋ญ๋ง์ ์ด์ฃ . ๊ทธ๋ฌ๋, ๋ถ๊ฐ๋ฅํฉ๋๋ค.
์ด์ ๋ โ๋ณด์ ์ด์(Reward Ops)โ ํ๋ซํผ์ด ํ์ํฉ๋๋ค. ์ด ํ๋ซํผ์ ๋ชจ๋ ๋ณด์-์ ์ฑ ์(Reward-Policy Pair)์ ๊ธฐ๋ก(Log)ํ๊ณ , ๋ค์ํ ๋ฒ์ ์ ์๋์ผ๋ก ๋ฒค์น๋งํฌ(Auto-Benchmark)ํ๊ณ , ๋๋ฆฌํํธ๊ฐ ๋ฐ์ํ์ ๋ ๊ฒฝ๊ณ ํฉ๋๋ค. Agentic Reward Modeling ๊ฐ์ ์คํ์์ค ํ๋ก์ ํธ์์๋ ์ฌ๋์ ์ ํธ๋(Human Preference), ์ฌ์ค์ฑ ๊ฒ์ฆ(Factuality Check), ์ง์ ๋ฐ๋ฅด๊ธฐ ์ ์(Instruction-Following Score)๋ฅผ ์กฐํฉ ๊ฐ๋ฅํ ์คํ(Composable Stack)์ผ๋ก ํตํฉํ๋ฉด์ ๋ชจ๋ฒ ์ฌ๋ก(Best Practice)๋ฅผ ์ฒด๊ณํํ๊ณ ์์ต๋๋ค. ์ผ์ข ์ MLOps์ง๋ง, ๊ฐ์น(Value) ๊ณ์ธต์ ์ง์ ์ฐ๊ฒฐ๋ ํํ๋ผ๊ณ ํ ์ ์์ฃ .
์ง๊ธ์, โ๋ณด์ ์ค๊ณโ๊ฐ ๊ทธ ์์ฒด๋ก์ ํ๋์ ์์คํ (System)์ด ๋ ์๋์ ๋๋ค. ๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ(LLM), ๋ฉํฐ ์์ด์ ํธ ์์คํ (Multi-Agent System), ์์จ ํ๋ซํผ(Autonomous Platform), ๋ญ ๋ง๋ค๋ ๊ฐ์, ์ ํํ ์ด๋ค ๋ณด์ ์ ํธ(Reward Signal)๋ฅผ ์์คํ ์ ์ฌ๊ณ ์๋๊ฑด์ง ์๊ณ ์์ด์ผ ํฉ๋๋ค โ ๋น์ ์ ์์ด์ ํธ๋ ๊ทธ ์ ํธ๋ฅผ ๊ธ์ ๊ทธ๋๋ก ๋ฐ์๋ค์ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
โ์ด๋ก โ์์ โ์์ง๋์ด๋งโ์ผ๋ก: โ๋ณด์โ์ ์ค์ ๋ก ๊ตฌํํ๋ค๋ ๊ฒ
๊ฐํํ์ต ์ด๋ก (Theory of Reinforcement Learning)์์, โ์ฑ๊ณต(Success)โ์ด ๋ญ๋๋ ๊ฑธ ์ ์ํ๋ ์ ์ผํ ์๋จ์ด ๋ฐ๋ก โ๋ณด์ ์ ํธ(Reward Signal)โ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ , ์์ด์ ํธ๊ฐ ํ์ตํ ์ ์๋ ์ ์ผํ ํต๋ก์ด๊ธฐ๋ ํ๊ตฌ์.
๊ทธ๋ ์ง๋ง, ์ค์ ํ๊ฒฝ์์์ ๋ณด์ ์ค๊ณ(Reward Design)๋, ์ฐ์ํ๋ฉด์๋ ๊ฐ๋ช ํ๊ฒ ๋ฑ ๋จ์ด์ง๋ ์ํ์ ๋ฌธ์ ๋ก ์ ์๋๋ ๊ฒฝ์ฐ๋ ๊ฑฐ์ ์๊ณ , ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒฐ๊ณผ(Desired Outcome)๋ฅผ ์ผ๋ง๋ ์ธ๋ฐํ๊ฒ ๋ช ์(Specify)ํ๋๋์ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค โ ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ ๊ฒ ๋ช ์๋ ์ ์๋ฅผ, ์์ด์ ํธ๊ฐ ์ผ๋ง๋ ์์์น ๋ชปํ ๋ฐฉ์(Unexpected Way)์ผ๋ก ์๊ณก(Twist)ํ ์ ์๋์ง๋ฅผ ๊ด์ฐฐํ๋ ์ผ์ด๊ธฐ๋ ํ๊ตฌ์.

ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ธ์ฌ์ดํธ๊ฐ ๋ด๊ธด ์ปจํ ์ธ ๋ฅผ ๋ง์๊ป ์ฝ์ด๋ณด์ธ์!
ํ๋ฆฌ๋ฏธ์ ํ๋์ผ๋ก ์ ๊ทธ๋ ์ด๋ํ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ๋ชจ๋ ์ปจํ ์ธ ๋ฅผ ์ ํ์์ด ๋ณด์ค ์ ์์ต๋๋ค. ํ๋ฆฌ๋ฏธ์ ๊ตฌ๋ ์๊ฐ ๋์ด ์ฃผ์๋ฉด ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์ ์ปจํ ์ธ ์ ์์ ํฐ ๋์์ด ๋ฉ๋๋ค. ๊ฐ์ฌํฉ๋๋ค!
์ฃผ๊ฐ AI ๋ด์ค๋ ํฐ
AI ์ ๋์ฝ ๊ธฐ์ ๋ค์ ๋ํ ์ฌ์ธต ๋ถ์ ๊ธฐ์ฌ
AI ๊ธฐ์ , ์ฐ์ , ์ ์ฑ ์ ๋ฌธ๊ฐ ์ธํฐ๋ทฐ
AI ๊ธฐ์ ๋ฐ ์ฐ์ ์ ๋ํ ์ฌ์ธต ๋ถ์ ์๋ฆฌ์ฆ
๋ถ์ ๊ธฐ์ฌ ์์ฒญ ๋ฐ ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์ ๊ธฐ๊ณ
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ์น๊ตฌ์ ๋๋ฃ ๋ถ๋ค์๊ฒ๋ ๋ด์ค๋ ํฐ ์ถ์ฒํด ์ฃผ์ธ์!
Reply