- Turing Post Korea
- Posts
- ๐๐ง๐ปโโ๏ธ แแ กแฏแ แ ฉแแ ฑแซ โ๏ธ AI: Jack-O-Lantern แแ ฅแซแแ ฆแแ ณแแ ณแ แ ณแฏ LLMแแ ณแ แ ฉ แแ ข แแ ฉแแ ก
๐๐ง๐ปโโ๏ธ แแ กแฏแ แ ฉแแ ฑแซ โ๏ธ AI: Jack-O-Lantern แแ ฅแซแแ ฆแแ ณแแ ณแ แ ณแฏ LLMแแ ณแ แ ฉ แแ ข แแ ฉแแ ก
์ฌ๋ฌ๋ถ์ ์ฌํด ํ ๋ก์ ๋ฐ์ด๋ฅผ ์ด๋ป๊ฒ ๋ณด๋ด๊ณ ๊ณ์ ๊ฐ์?
2022๋ ํ ๋ก์์ ์ดํ์์์ ์์๋ ๋น๊ทน์ ์ธ ์ฌํ ์ดํ๋ก ํ ๋ก์์ ๋ํด ๋ค๋ค ์กฐ์ฌํ๋ ๋ถ์๊ธฐ๊ฐ ๋น์ฐํ ์์ง๋ง, ์ด์จ๋ ํ ๋ก์ ์์ฒด๋ ์ฐ๋ฆฌ๋๋ผ์์๋ ๋ง์ ์ฌ๋๋ค์ด ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ฆ๊ธฐ๋ ๋ ๋ก ์๋ฆฌ์ก๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ ํฌ ํ๋ง ํฌ์คํธ ์ฝ๋ฆฌ์์์๋, ์ด์ง ๊ฐ๋ณ๊ฒ ์ฌ์ด๊ฐ๋ ๋๋(?)์ผ๋ก ํ ๋ก์ ๋ฐ์ด๋ฅผ ๊ธฐ๋ ํ ๋งํ ๊ฒ ๋ญ ์์๊น ๊ณ ๋ฏผ์ ํด ๋ดค๋๋ฐ์. ๊ทธ๋ฌ๋ค๊ฐ, ์บ๋๋ค์ โAI ๋ฆฌ์คํฌ ๊ด๋ฆฌ ์๋น์คโ ์คํํธ์ , Armilla AI์ Director of AI Assessment, ์ค๋๋ฅ ๋ง๋ธ (Andrew Marble)๊ณผ ํจ๊ป โLLM์ผ๋ก ํ๋ ์ญ-์ค-๋ํด (Jack-O-Lantern) ์ปจํ ์คํธโ๋ฅผ ํด ๋ดค์ต๋๋ค.
ํด์ธ์์๋ ํ ๋ก์์ ๋ง์์ ๊ฐ์กฑ๋ค ๊ฐ์, ๋๋ค์์, ๋๋ ์์ ์ ๋๋ก ๋ ๋ํ ํ์์ผ๋ก โ์ฐธ๊ฐ์๋ค์ด ํธ๋ฐ์ ๊น์์ ์ญ-์ค-๋ํด์ ๋ง๋ค๊ณ ๋๊ฐ ์ ๋ง๋ค์๋์ง ์ฌ์ฌ, ์์โํ๋ ํ์ฌ๊ฐ ๋ง์ด ์๋ ๋ชจ์์ด์์.
LLM์ด ๋ฌผ๋ก ์ฐ์์๊ฐ ๋ง์ง๋ง, ๊ทธ ์ค์ ๋จ์ฐ Text-to-Image๋ ๋ง์ด๋ค ์ฐ์๋ ๊ธฐ๋ฅ์ด์์์? ์ด Text-to-Image์ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ LLM์ ๋ฅ๋ ฅ์ ๊ธฐ๋ณธ์ผ๋ก ํด์, LLM์ผ๋ก ์ญ-์ค-๋ํด์ ๋ง๋ค๊ณ ์ด๋ค ์ญ-์ค-๋ํด์ด ์ ๋ง๋ ๊ฑด์ง ์ฌ์ฌ๊น์ง ํ ๋ฒ ํด ๋ณด๋ ค๊ณ ํฉ๋๋ค.
์, ๊ทธ๋ผ Armilla AI์ Andrew Marble๊ณผ ํจ๊ป ์์ ์ ํด ๋ณผ๊น์?
์ด ๊ธ์ ์๋์ ์์๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค:
์ธ์ด ๋ชจ๋ธ (Language Model)์ ๋ฐ์ ์ ์ค๋ ๊ธฐ๊ฐ ์ด๋ค์ ธ์์ง๋ง, ํนํ ์ต๊ทผ์ ์ฃผ๋ชฉ๋ฐ๊ฒ ๋ ๋ ๊ฐ์ง์ ํ์ ์ ์ธ ๋ฐ์ ์ด ์๋ค๊ณ ์๊ฐํฉ๋๋ค - ๋ฐ๋ก ์ด๋ฏธ์ง ๋ถ์ (Image Analysis)๊ณผ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ (Structured Outputs) ๊ธฐ๋ฅ์ธ๋ฐ์.
ํ ๋ก์์ ๋ง์ดํด์, ์คํAI์ ์ค์ฐ๋กํฝ์ ๋ชจ๋ธ๋ค์ ๊ฐ์ง๊ณ ์ด ๋ ๊ฐ์ง ๊ธฐ๋ฅ์ ์ฌ๋ฏธ์๊ฒ ํ์ฉํ๊ณ ํ๊ฐํด ๋ณผ๊น ํฉ๋๋ค.
โ๊ตฌ์กฐํ๋ ์ถ๋ ฅ (Structured Outputs)โ ๋ชจ๋๋ผ๋ ๊ฑด, ์ธ์ด ๋ชจ๋ธ์ด ํน์ ํ ์คํค๋ง (Schema)๋ ํ์ (Format)์ ๋ง์ถฐ์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ๋๋ก ๊ฐ์ ํ๋, ์ฆ ์ ํํ๋ ๊ธฐ๋ฒ์ ๋งํ๋ ๊ฑฐ์ฃ . ์ด ๊ธฐ๋ฒ์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ํจ์๋ฅผ ํธ์ถํ๋ค๊ฑฐ๋, (์ฌ์ ์ ์ ํด์ง) ํ ํ๋ฆฟ์ ๋ฐ๋ผ์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ ๋ ๋ฑ ์ ์ฉํ๊ฒ ์ธ ๋ฐ๊ฐ ๋ง์ต๋๋ค.
์ด๋ฏธ์ง ๋ถ์ (Image Analysis)์ ์ด๋จ๊น์? ์ค์ฐ๋กํฝ์ Claude๋ผ๋ ๊ฐ ์คํAI์ GPT ๋ชจ๋ธ๋ค์ ํฌํจํด์, ์๋นํ ๋ง์ ๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ์ด, ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํด ์ฃผ๋ฉด ์ด ์ด๋ฏธ์ง๊ฐ ์ด๋ค ์ด๋ฏธ์ง์ธ์ง, ์ด๋ค ์์๋ค์ด ์๋์ง ๋ฑ์ ๋ํด์ ์์ธํ ํ ์คํธ ์๋ต์ ์ ๊ณตํ ์ ์๊ฒ ๋์์ต๋๋ค.
์ด ๊ธฐ๋ฅ๋ค์ ํ ์คํธํด ๋ณผ ๊ฒธ, ํ ๋ก์์ ๋ง์ดํด์ ์ฌ๋ฏธ์๋ ์คํ์ ํ ๋ฒ ํด ๋ดค์ต๋๋ค - ์ค์ฐ๋กํฝ์ Claude 3.5 Sonnet, ๊ทธ๋ฆฌ๊ณ ์คํAI์ GPT-4 ๋ชจ๋ธ์ ํ์ฉํด์ โAI Jack-O-Lantern Judge (AI ํธ๋ฐ ์กฐ๊ฐ ์ฌ์ฌ์์)โ์ ๋ง๋ค๊ณ , AI ๋ชจ๋ธ์ด Text-to-Image ๊ธฐ์ ๋ก ์์ฑํ ํธ๋ฐ ์ด๋ฏธ์ง๋ค์ ๋์์ผ๋ก ํ ๋ฒ ์ฌ์ฌ๋ฅผ ํ๊ฒ ํด ๋ดค์ต๋๋ค.
LLM์ผ๋ก โ์ญ-์ค-๋ํดโ ์ด๋ฏธ์ง ์์ฑ
๋จผ์ , ํธ๋ฐ์ ์กฐ๊ฐํด์ ๋ง๋ค์ด์ง๋ โ์ญ-์ค-๋ํดโ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด์ ์ค์ฐ๋กํฝ์ Claude (ํ๋กฌํํธ ์์ฑ์ฉ)์ Flux.1-schnell (์ด๋ฏธ์ง ์์ฑ์ฉ) ๋ชจ๋ธ1์ ํ์ฉ, ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ต๋๋ค.
Claude์๊ฒ๋ ์๋ ํ์ ํ๊ธฐ๋๋๋ก โScariness (๋ฌด์์)โ, โCreativity (์ฐฝ์์ฑ)โ, โSkill (๊ธฐ์ ์์ค)โ์ ๊ธฐ์ค์ผ๋ก ๋ง๋ค์ด์ง ํธ๋ฐ ์กฐ๊ฐ (์ญ-์ค-๋ํด)์ ๋ํ ์์ธํ ์ค๋ช ์ ์์ฑํ๋๋ก ์์ฒญํ์ต๋๋ค.
์ญ-์ค-๋ํด ์ฉ ํ๋กฌํํธ ์์ฑ ๊ธฐ์ค
๋ง๋ค์ด์ง ์์ธํ ์ค๋ช - ํ๋กฌํํธ์ฃ - ์ Flux ๋ชจ๋ธ์ ์ ๋ฌํด์ ์ด๋ฏธ์ง๋ค์ ์์ฑํด ๋ ๋๋ค. ๋ง๋ค์ด์ง ์ฌ๋ฌ ๊ฐ์ ์ด๋ฏธ์ง๋ค ์ค ์๋์ ๋ ๊ฐ์ ์์, ๊ทธ๋ฆฌ๊ณ ํด๋น ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋๋ฐ ์ฌ์ฉ๋ ํ๋กฌํํธ๋ฅผ ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.
Image: ํ ์คํธ์ฉ์ผ๋ก ์์ฑ๋ ์ด๋ฏธ์ง์ ๊ทธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ฐ ์ฌ์ฉํ ํ๋กฌํํธ ์์
์์ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ, Skill, Creativity, Scariness ์ธ ๊ฐ์ง ๊ธฐ์ค์ ๊ฐ์ง๊ณ ๋ง๋ค ์ ์๋ ๋ชจ๋ ์์ ์กฐํฉ์ ๋ํด์ ์์ฑํด์, ์ด 32๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด ๋์ต๋๋ค.
LLM์ผ๋ก โ์ญ-์ค-๋ํดโ ์ ์ ๋งค๊ธฐ๊ธฐ
์, ์ด์ (๊ฐ์์ผ๋ก) ์ฌ๋ฌ ์ฐธ๊ฐ์๊ฐ ๊ฐ์์ ์ปจ์ ์ ๊ฐ์ง๊ณ ํธ๋ฐ์ ์กฐ๊ฐํด์ โ์ญ-์ค-๋ํดโ์ ๋ง๋ค์ด์ ์ ์ถํ์ต๋๋ค! ์ฌ์ฌ์ ์๊ฐ์ด์ฃ .
LLM ๋ชจ๋ธ์ด ์ฌ์ฌ๋ฅผ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ โ๋ณด๊ธฐ ์ฝ๊ฒโ, โ๊ณตํต๋ ํฌ๋งทโ์ผ๋ก - ๋ง์น ์ฌ์ ์ ๋ฐฐ๋ถ๋ โํ๊ฐ์งโ์ ์ฌ์ฌ์์๋ค์ด ์ ์์ ์๊ธฐ ์๊ฒฌ์ ์ ๋ฏ์ด์ - ์ถ๋ ฅํ๊ฒ ํ๊ธฐ ์ํด์ โ๊ตฌ์กฐํ๋ ์ถ๋ ฅ (Structured Outputs)โ์ ์ง์ํ๋ ๋ชจ๋ธ์ ์ฐพ์๋๋ฐ์. GPT-4์ Claude Sonnet์ ์ฌ์ฉํ๊ฒ ๋์ต๋๋ค. ์ด ๋ชจ๋ธ๋ค์ด ์ฌ์ฌ๋ฅผ ํ๋๋ฐ ์ฐธ์กฐํ ์ ์๋๋ก ์๋์ ๊ฐ์ ํ ํ๋ฆฟ ํด๋์ค๋ฅผ ๋ง๋ค์๋๋ฐ์; ๋ชจ๋ธ์๊ฒ Creativity, Skill, Scariness์ โ์ ๋โ๋ฅผ ํ๊ฐํ๊ณ , ๊ฐ๊ฐ์ ๋ํ ์ค์ค๋ก์ ์ค๋ช ์ ์ ๊ณตํ๋ผ๊ณ ์์ฒญํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ฌ ๋์์ธ ํธ๋ฐ์ ๋ํด์ ์งง์ ์ด์ผ๊ธฐ - ์ปค๋ฉํธ - ๋ฅผ ํจ๊ป ๋ง๋ค์ด๋ด๋๋ก ํ์ฃ .
Image: โ์ญ-์ค-๋ํดโ ์ฌ์ฌ์๊ฐ ์ถ๋ ฅํ ์ ๋ณด์ ํ๋์ ๊ทธ ์ค๋ช ์ ๋ด๊ณ ์๋ ํ์ด์ฌ ํด๋์ค
์ด๋ ๊ฒ ์์ฑํ ์คํค๋ง, ๊ทธ๋ฆฌ๊ณ ๋ง๋ค์ด์ง ์ด๋ฏธ์ง๋ค์ ๊ฐ์ง๊ณ , ๊ฐ ๋ชจ๋ธ ๊ฐ๋ฐ์ฌ - ์คํAI์ ์ค์ฐ๋กํฝ์ด์ฃ - ๊ฐ ์ ๊ณตํ๋ โ๋ฐ์ดํฐ ์ถ์ถ ์์โ23์ ๋ฐ๋ผ์ ์ฌ์ฌ ์์ ์ ์งํํ์ต๋๋ค - ๊ฐ๋ฐ์ฌ๋ค์์ ์ข ์ข โํจ์ ํธ์ถ (Function Calling)โ์ด๋ โ๋๊ตฌ ์ฌ์ฉ (Tool Use)โ์ด๋ผ๊ณ ๋ถ๋ฅด๋ ์์ ์ ํ ๊ฒ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ ์ด๋ฏธ์ง ๋ถ์ ๊ธฐ๋ฅ45๋ ํจ๊ป ํ์ฉํ๊ตฌ์.
์๋์, ์ ๋ ฅ๊ฐ์ผ๋ก ์ฐ์ธ ์ด๋ฏธ์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๋ชจ๋ธ์ด ์์ฑํ JSON ๊ตฌ์กฐ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ ์์๋ฅผ ํ๋ ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค:
Image: ๋ชจ๋ธ์ด ์คํํ โ์ญ-์ค-๋ํด' ์ด๋ฏธ์ง์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฌผ
์์์ ๋ณด์๋ค์ํผ, ์ถ๋ ฅ ํ์์ด ์ ๋ ๊ฒ ํ์ดํธํ๊ฒ ์ ํด์ ธ ์๊ณ ์ง์ผ์ง๋ค๋ฉด ์์ฃผ ํธ๋ฆฌํ์ฃ . ์์ฑ๋ ์๋ต๋ค์ ์ข ์ดํด๋ณด๋ฉด, (์ ์์๋ Claude ๋ชจ๋ธ์ธ๋ฐ์) ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ๋ฏธ๋ฌํ ๋ํ ์ผ๊น์ง๋ ์ดํด๋ณด๊ณ , ๋ง์น ์ฌ๋์ด ๋ณด๋ ๊ฒ์ฒ๋ผ, ์ด๋ฏธ์ง๋ฅผ โ์ดํดโํ๋ฏ์ด ๊ธฐ์ ํ๊ณ ์๋ค๋ ๊ฑธ ์ ์ ์์ต๋๋ค.
๋ฐฑ๋ง๋ถ์ง๋ฆฌ ์ง๋ฌธ: ์ด ์์คํ ์ ์ ์๋ํ๋ ๊ฑธ๊น์?
์, โ์ญ-์ค-๋ํดโ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ ํ๊ฐ๊น์ง ํด ๋ดค๋๋ฐ์. ์ฌ๊ธฐ์ ๋ฉ์ถ ์๋ ์์ฃ . Armilla AI๋ AI ์์คํ ์ด โ์๋ ์๋๋๋กโ ์ ์๋ํ๋์ง ๊ฒ์ฆํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ ๋ํ ๋ณด์ฅ์ด๋ ์ฌ๊ณ ์ ๋ํ ๋ณดํ์ ์ ๊ณตํ๋ ์คํํธ์ ์ด๊ฑฐ๋ ์.
์ค์ ๊ธฐ์ ์ Production ์์คํ ์ด๋ผ๋ฉด, ๊ฒฌ๊ณ ์ฑ (Robustness), ๋ณด์ (Security), ํธํฅ์ฑ (Bias) ๋ฑ ๋ค์ํ AI ๋ฆฌ์คํฌ ์์๋ค์ ํฌํจํด์ ์ข ํฉ์ ์ธ ๋ถ์์ ํด์ผ๊ฒ ์ต๋๋ค๋ง, ์ฌ๊ธฐ์๋ ํ์ดํ๋ผ์ธ์ ์์คํ ์ด ์ฃผ์ด์ง ์์ ์ ์ด๋ ์ ๋ ์ ์ํํ๋์ง ์ดํดํ๋ค๋ ์ฐจ์์์ ๊ฐ๋จํ ์ ๊ฒ๋ง ํด ๋ด ๋๋ค.
์ ํ๋ (Accuracy)
์ฒซ ๋ฒ์งธ ์ดํด๋ณผ ๊ฑด, โ๋ชจ๋ธ์ ํ๊ฐ๊ฐ ์ผ๋ง๋ ์ ํํ๊ฐโ๋ฅผ โ์ค์ ์ ๋ต (Ground Truth)โ๊ณผ ๋น๊ตํด ๋ณด๋ ๊ฒ๋๋ค - ๋ฌผ๋ก ์ ์ฆ์ผ์ด์ค์ ๋ฐ๋ผ์ โ์ค์ ์ ๋ตโ์ด๋ผ๋ ๊ฒ ์๊ฑฐ๋ ์ ๋งค๋ชจํธํ ๊ฒฝ์ฐ๊ฐ ๋๋ฌด๋ ๋ง์ต๋๋ค๋ง. ์ด์จ๋ , ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ - ์ฆ โ์ญ-์ค-๋ํดโ ์ด๋ฏธ์ง - ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์์ ๋์์ธ์ โCreativity (๋ ์ฐฝ์ฑ)โ, โSkill (๊ธฐ์ ๋ ฅ)โ, โScariness (๋ฌด์์)โ์ ํต์ฌ ์์๋ก ์ง์ ํ์์ฃ . ๊ทธ๋์ ์ด๊ฒ๋ค์ด ๊ธฐ์ค์ ์ด ๋ ํ ๋ฐ์. ์ง์ ์ด๋ฏธ์ง๋ค์ ์ดํด๋ณด๊ณ โ๋ฎ์โ์ด๋ผ๋ฉด 1์ , โ๋์โ์ด๋ผ๋ฉด 5์ ์ ๋ถ์ฌํ ๋ค์, 32๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด ๋ชจ๋ธ๋ค์ด ์์ฑํ ์ ์์์ ์๊ด ๊ด๊ณ๋ฅผ ์ดํด๋ดค์ต๋๋ค. ์ธ ๊ฐ์ง ๊ธฐ์ค์ ๋ํ ์๊ด ๊ด๊ณ ๊ฐ์ ์๋์ ๊ฐ์ต๋๋ค:
Image: โ์ญ-์ค-๋ํดโ ์ฌ์ฌ ์์คํ ์ ํ๊ฐ ๊ฒฐ๊ณผ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ฐ ์ฌ์ฉํ โ์ค์ ์ ๋ตโ ๊ฐ์ ์๊ด๊ด๊ณ
์๊ด ๊ด๊ณ ๊ฐ์ 0์์ 1 ์ฌ์ด์ ๋ฒ์์ธ๋ฐ, 1์ ์ค์ ์ ๋ต๊ณผ ์์ธก๊ฐ์ด "๊ฐ์ฅ ์ด์์ ์ผ๋กโ ์ผ์นํ๋ค๋ ๋ป์ด์ฃ . GPT์ Claude ๊ธฐ๋ฐ์ ์์คํ ์์ชฝ ๋ชจ๋ ๊ฑฐ์ ๋์ผํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก ๋ํ๋๋๋ฐ, Claude๊ฐ 3๊ฐ ์ค 2๊ฐ ํญ๋ชฉ์์ ์ฝ๊ฐ ์์ฐ์ง๋ง ํฐ ์ฐจ์ด๋ ์๋๋๋ค.
์ ๊ทธ๋ํ์์ ๋ณด๋ฏ์ด, ๋ ๋ชจ๋ธ ๋ชจ๋์ ๊ฒฝ์ฐ์ ๊ณตํต์ ์ผ๋ก, ์๊ด ๊ด๊ณ์ ์์ค์ด โ์ญ-์ค-๋ํดโ์ ์ด๋ค ์ธก๋ฉด - Scariness๋, Creativity๋, Skill์ด๋ - ์ ํ๊ฐํ๋ ๊ฑฐ๋์ ๋ฐ๋ผ ์ฐจ์ด๊ฐ ๋๋ค๋ ์ ์ด ๋ถ๋ช ํ ๋๋ฌ๋ฉ๋๋ค. Scariness๋ ์ฝ 0.9๋ก ์๊ด ๊ด๊ณ๊ฐ ๋๊ตฌ์, Creativity๋ ์ฝ 0.5 ์ ๋๋ก ์ด๋ ์ ๋์ ์์ธก๋ ฅ์ด ์๋ค๊ณ ๋ณผ ์ ๋, Skill์ ์ฝ 0.25 ์์ค์ผ๋ก ์๋์ ์ผ๋ก ์ฝํ ์ฐ๊ด์ฑ์ ๋ํ๋ ๋๋ค.
์ ์ด๋ฐ ์ฐจ์ด๊ฐ ๋ํ๋ ๊น์?
์๊ฐํด ๋ณผ ๋งํ ํ ๊ฐ์ง ์ด์ ๋ก, Creativity์ Skill์ด๋ผ๋ ๊ฒ์ ์๋ฏธ๊ฐ Scariness์ ๋น๊ตํ์ ๋ ๋ค์ ๋ชจํธํ ์ ์๋ค๋ ์ ์ ๋ค ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํฅ๋ฏธ๋ก์ด ์ ์ โ๊ธฐ์ ๋ ฅ์ด ๋ฎ๋คโ๊ณ ๋ถ๋ฅ๋ ์ด๋ฏธ์ง๋ค ์ค์์๋, ์ ์ฒด์ ์ธ ๋์์ธ์ ์ข ์๊ณก๋์ด ์์ง๋ง โ๊น๋ํ ์ โ์ด ์์ด์ ๋ ๋์ ์ ์๋ฅผ ๋ฐ์ ๊ฒฝ์ฐ๋ค์ด ์์์ต๋๋ค.
๋๋ถ์ด, ์ธ๊ณต์ ์ผ๋ก ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฑฐ๋ผ์, ์ค์ ๋ก๋ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ - ์ด ๊ฒฝ์ฐ์๋ Flux์ฃ - ์ด ํด์ํ ํน์ฑ๋ค๊ณผ ์ธ์ด๋ชจ๋ธ๋ค (LLM)์ ํด์ ์ฌ์ด์ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ ์ ์ด๋ผ๋ ์ ๋ ์์ง ๋ง์์ผ ํ ๊ฒ๋๋ค.
ํ๊ฐ (Hallucination)
LLM์ผ๋ก ํ๋ โ์ญ-์ค-๋ํดโ ์ปจํ ์คํธ์์ ๋ฟ๋ง ์๋๋ผ, ์ผ๋ฐ์ ์ผ๋ก๋ ์์ฑํ AI ๊ธฐ์ ์ ์ฌ์ฉํ๋ ์๋น์ค์ ๊ด๋ จํด์ ์์ฃผ ๋จ๊ฑฐ์ด ํ์ ๊ฐ ๋๋ ์ฃผ์ ์ค ํ๋๊ฐ ๋ฐ๋ก, โํ๊ฐ (Hallucination)โ์ด์ฃ - ๋ชจ๋ธ์ด ํ๊ฐ์ ๋ณด๊ฑฐ๋, ํ๊ฐ์ ๋ง๋ค์ด๋ธ๋ค๊ฑฐ๋, ์ธ๋ถ์ ์ธ ์ฌํญ์ ๊พธ๋ฉฐ๋ด๋ฉด ์ด๋ป๊ฒ ํ๋๋๋ ๊ฑฐ์์.
์ฌ๊ธฐ์๋, ๋ชจ๋ธ๋ค์ด ์ค์ค๋ก ์ด๋ค ํ๊ฐ๋ฅผ ํ๋์ง์ ๋ํด์ ์ปค๋ฉํธ๋ฅผ ์์ฑํ๋๋ก ํ์ผ๋๊น, ์ด ๋ด์ฉ์ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ด ์ด๋ ์ ๋์ ์์ ๋๋ก ํด์ ์์ ์ ํ๋์ง ํ์ธํด ๋ณผ ์ ์์ต๋๋ค.
ํ์ธ์ ํ๊ธฐ ์ํด์, Claude 3.5 Sonnet ๋ชจ๋ธ์ ๊ฐ ์ด๋ฏธ์ง์ ๋ํ ์์ธ ์ค๋ช ์ ๋ณ๋๋ก ๋ง๋ค๋๋ก ํด ๋ดค๋๋ฐ์ - ์๋๋, โSkill์ ๋์ ์์ค์ด์ง๋ง, Scariness๋ ๋ฎ๊ณ - ๋ฌด์ญ์ง ์๊ณ -, ๊ทธ๋ฅ Creativeํ์ง๋ ์์โ ์ญ-์ค-๋ํด์ ๋ํด์ ๋ชจ๋ธ์ด ๋ง๋ค์ด ๋ธ ์์ธ ์ค๋ช ์ค ํ๋์ ์์ ๋๋ค.
Image: Claude 3.5 Sonnet์ด ๋ง๋ค์ด๋ธ ํ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ์์
์์ ๊ฐ์ด ์์ฑํ ์ค๋ช ๋ค์, ํ๊ฐ ๊ณผ์ ์์ ๋ชจ๋ธ์ด ์ ์ํ ๋ณ๋์ ์ค๋ช ๋ค๊ณผ ๋น๊ตํ๊ธฐ ์ํ ๋ ํผ๋ฐ์ค๋ก ์ฌ์ฉํฉ๋๋ค. ๋ฌผ๋ก ์ด ์ค๋ช ๋ค๋ ์ธ์ด๋ชจ๋ธ์ด ์์ฑํ ๊ฒ์ด๋ ์๋ฒฝํ์ง๋ ์์ง๋ง, ๊ทธ๋๋ ํ์ฌ์ ์ ์ฝ ์กฐ๊ฑด์์ ๋น๊ต๋ฅผ ์ํ ๊ธฐ์ค์ ์ผ๋ก๋ ์ถฉ๋ถํ ์ฌ์ฉํ ์ ์์ต๋๋ค - ๋์๋ ์๊ตฌ์ ^.^
์ค๋ช ์ โTruthfulnessโ๋ฅผ ํ๊ฐํด ๋ณด๋ ค๊ณ โRAGAS Faithfulness ์ ์โ6๋ฅผ ํ์ฉํ์ต๋๋ค. ์ด ์ ์ ์ฒด๊ณ์๋ ์ค๋ฌด์ ์ผ๋ก ์ดํด๋ณด๋ฉด ์ฌ๋ฌ๊ฐ์ง ํ๊ณ์ ์ด ์์ต๋๋ค๋ง, ๊ทธ๊ฑด ์ด ๊ธ์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ ์ฌ๊ธฐ์ ๋ค๋ฃจ์ง๋ ์๊ฒ ์ต๋๋ค. ๋ค๋ง, ์ด ์ ์๋ ํน์ ํ ์ง์ (์ฌ๊ธฐ์๋ ํ๊ฐ ์ปค๋ฉํธ)์ด ์ฃผ์ด์ง ๋งฅ๋ฝ (์ฌ๊ธฐ์๋ ์์ธ ์ด๋ฏธ์ง ์ค๋ช )์ ์ํด์ ์ผ๋ง๋ ๋ท๋ฐ์นจ๋๋๊ฐ๋ฅผ ์ธก์ ํ๋ ๋น๊ต ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ๋๋ค.
์๋ ์ฐจํธ๋ ๋ ์์คํ - ์คํAI์ GPT-4์ ์ค์ฐ๋กํฝ์ Claude - ์ Faithfulness ์ ์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ๋๋ค:
Image: ์ด๋ฏธ์ง์ ํน์ฑ๊ณผ ํ๊ฐ ์ปค๋ฉํธ๋ฅผ ๋น๊ตํด์ ์ธก์ ํ Faithfulness ์ ์
์ฌ๊ธฐ์๋ GPT-4๊ฐ Claude๋ฅผ ์ฝ๊ฐ ์์๊ณ ์๋๋ฐ, ํนํ โSkillโ์ ๋ํ ํ๊ฐ์์ GPT์ 0.63์ ๊ณผ Claude์ 0.72์ ์ฌ์ด์๋ ๋์ ๋๋ ์ฐจ์ด๊ฐ ์๋ค๊ณ ๋ณด๊ฒ ์ต๋๋ค. ์ ์ ๋ฒ์๋ ๋์ฒด๋ก 0.63์์ 0.77 ์ฌ์ด์ ๋๋ค.
๊ธฐ์ ์ ์ผ๋ก๋ 1.0์ ์ด ํ๊ฐ ์ปค๋ฉํธ๊ฐ ์ค๋ช ์ ์ํด์ ์๋ฒฝํ๊ฒ ๋ท๋ฐ์นจ๋๋ค๋ ๊ฒ์ ์๋ฏธํ์ง๋ง, ์ค์ ํ๊ฒฝ์์๋ ์ ์๊ฐ ์ด๋ณด๋ค ๋ฎ๊ฒ ๋์ค๋ ๊ฒฝ์ฐ๊ฐ ์๋นํ ๋ง์ต๋๋ค. ๋๋ก๋ ์ง๋์น๊ฒ ๊ผผ๊ผผํ ๊ธฐ์ค ๋๋ฌธ์ธ ๊ฒฝ์ฐ๋ ์๊ตฌ์. ์ด์จ๋ , ์ ๋์ ์ธ ์ ์๋ณด๋ค๋ ์๋์ ์ธ ์ ์๋ฅผ ๋น๊ตํ๋ ๊ฒ์ด ๋ ์ ์ฉํ๋ค๊ณ ์๊ฐํฉ๋๋ค.
์ ๋ฐ์ ์ผ๋ก ๋ดค์ ๋, ํ๊ฐ ์ปค๋ฉํธ๋ค์ด ์ค๋ช ๋ด์ฉ์ ์ํด์ ๋์ฒด๋ก ์ ๋ท๋ฐ์นจ๋๊ณ ์์ด์, โTruthfulnessโ๋ผ๋ ์ธก๋ฉด์์ ํน๋ณํ ์ฐ๋ ค์ฌํญ์ ๋ฐ๊ฒฌ๋์ง ์์ต๋๋ค.
๋งบ์ผ๋ฉฐ
์ด ๊ธ์ ํตํด์, ํ ๋ก์์ ๋ง์์ ์์์์ ๋ง์ ๋ถ๋ค์ด ์ฆ๊ธฐ์๋ โ์ญ-์ค-๋ํดโ ๋ง๋ค๊ธฐ ์ปจํ ์คํธ๋ฅผ ๋์งํธ ๊ณต๊ฐ์ผ๋ก ์ฎ๊ฒจ์, ๋ ๊ฐ์ ๊ฑฐ๋ ์ธ์ด๋ชจ๋ธ (LLM)์ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ (Structured Outputs) ๊ธฐ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ์ธ์ (Image Analysis) ๊ธฐ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ํ์ฉํด์ ๋ง๋ค์ด ๋ณด๊ณ ํ๊ฐํด ๋ดค์ต๋๋ค.
์คํAI์ ์ค์ฐ๋กํฝ, ์์ฌ์ ๋ชจ๋ธ ๋ชจ๋ โ์ญ-์ค-๋ํดโ์ ํ๊ฐํ๋๋ฐ ์์ด์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๊ณ , Truthfulness์ ํฐ ์ด์๋ ๋ฐ๊ฒฌ๋์ง ์์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ๋ชจ๋ธ ๋ชจ๋ ๋ง๋ค์ด์ง โ์ญ-์ค-๋ํดโ์ด ์ผ๋ง๋ ๋ฌด์์ด์ง ํ๋จํ๋๋ฐ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
ํ์ง๋ง, ๋ ์ฐฝ์ฑ, ๊ธฐ์ ๋ ฅ์ ํ๊ฐํ๋ ๋ฅ๋ ฅ์ ๋ํด์๋ ์์ง ์๋ฌธ์ด ๋จ์์์ต๋๋ค. ๋ง์ ๊ฒฝ์ฐ, ์ด๋ฐ ๋ฌธ์ ๋ค์ ์ฃผ๋ก ๋ชจ๋ธ์ด ๋ญ ํด์ผ ํ๋๋๋ฅผ ๊ฒฐ์ ํ ๋ ์๊ตฌ์ฌํญ์ ๋ชจํธํ๊ฒ ์ ์ํ๋ ๋ฐ์ ๋น๋กฏ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ด ์์คํ ์ด ๋ ์ฐฝ์ฑ, ๊ธฐ์ ๋ ฅ์ ๋ ์ ํ๊ฐํ๊ธฐ๋ฅผ ์ํ๋ค๋ฉด, ์ด๊ฒ๋ค์ด ๋ญ ์๋ฏธํ๋์ง ๋ ๋ช ํํ๊ฒ ์ค๋ช ํ๋๋ก ํ๋กฌํํธ๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ด ๋์์ด ๋ ์ ์๊ฒ ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ด ์งง์, ์ด์ฐ๋ณด๋ฉด ์ฌ๋ฏธ๋ผ๊ณ ํ ์ ์๋ ์คํ์, ์์ฑํ AI ์ ํ๊ณผ ์๋น์ค๋ฅผ ๋ง๋๋ ๊ณผ์ ์์ ์ฒดํฌํด ๋ด์ผ ํ ์ฌ๋ฌ๊ฐ์ง ์์๋ฅผ ๋ด์๋ณด๋ ค๊ณ ๋ ธ๋ ฅํ์ต๋๋ค. ํนํ ์ด ์ ํ๊ณผ ์๋น์ค๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ญ ํ๋ ค๊ณ ํ๋ ๊ฑด์ง ์ธ๋ฐํ๊ฒ ๊ฒฐ์ ํ๊ณ , ๊ทธ์ ๊ธฐ๋ฐํด์ ํ๊ฐ, ๊ฒ์ฆํ๋ ์์ ์ด ์์ฃผ ์ค์ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ฌ๋ฌ๋ถ์ด ๊ณ์ ํ์ฅ์์๋ ์์ฑํ AI ๋์ ์ ๊ณ ๋ฏผํ๊ณ ๊ณ์ ๋ค๋ฉด, ๊ทธ๋ฐ ๋ถ๋ถ์ ๋ํด์๋ ๋ ํฐ ๊ด์ฌ์ ๊ธฐ์ธ์ด์ จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค.
*๋ค์ ๋ฒ์๋ โ์์โ์ ์ด๋ป๊ฒ ํ๊ฐํ ์ง์ ๋ํด์ ํ ๋ฒ ์คํ์ ํด ๋ณผ๊น์?
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ์ฌ๋ฏธ์๊ฒ ๋ณด์ จ๋ค๋ฉด ์น๊ตฌ์ ๋๋ฃ ๋ถ๋ค์๊ฒ๋ ๋ด์ค๋ ํฐ๋ฅผ ์ถ์ฒํด ์ฃผ์ธ์.
1 https://huggingface.co/black-forest-labs/FLUX.1-schnell
2 https://platform.openai.com/docs/guides/function-calling
3 https://docs.anthropic.com/en/docs/build-with-claude/tool-use
4 https://platform.openai.com/docs/guides/vision
5 https://docs.anthropic.com/en/docs/build-with-claude/vision
6 https://docs.ragas.io/en/stable/concepts/metrics/faithfulness.html
Reply