Turing Post Korea
Posts
Topic #43: AI가 스스로 만든 함정에서 AI를 구하자: HITL과 합성 데이터의 진화

Topic #43: AI가 스스로 만든 함정에서 AI를 구하자: HITL과 합성 데이터의 진화

AI가 스스로 훈련하는 Self-Training 시대, 합성 데이터를 안전하게, 쓸만하게 만들어주는 HITL 기법을 살펴봅시다.

Ksenia Se & Ben Eum
June 27, 2025

글을 시작하며

2023년 말 이후에, Ilya Sutskever 같은 AI 전문가들은 우리가 구할 수 있는 실제 데이터 (Real Data)의 한계에 대해서 이야기하기 시작했던 것 같습니다.

어쩌면 이미 더 이상 모델을 훈련시킬 만한 충분한 웹 데이터(Web Data)는 남아 있지 않은 건지도 모르죠. 그렇다면, AI 모델을 계속해서 훈련시킬 수 있는 ‘데이터셋(Dataset)’을 보충할, 새로운 방법을 찾아야 합니다.

많은 경우에는, 모델이 스스로 생성하는 데이터, 즉 ‘합성 데이터(Synthetic Data)’를 만들도록 해서 AI 훈련의 여러 단계에서 활용할 수 있지 않겠는가 하는 가능성을 이야기하고 있습니다. 겉보기에는 간단해 보이기도 해요 - 그냥 더 많은 데이터를 생성하면 되는 거 아닐까요? 하지만, 실상은 그렇게 간단하지 않습니다. 잘 아시다시피, 합성 데이터(Synthetic Data)는 정확성이 떨어지는 경우도 많은데, ㅇ렇게 품질이 낮은 데이터를 가지고 모델을 훈련시키면, 모델 붕괴(Model Collapse) — 즉 성능이 심각하게 저하되는 현상 — 가 발생할 수 있습니다.

간단히 이야기하자면, ‘AI가 아무런 감독이나 지원이 없어도 알아서 충분히 좋은 훈련용 데이터를 생성할 수 있는 세상’, 아직 멀었다고 봅니다.

그렇다면, 우리가 해야 할 그 다음 단계의 일은 뭘까요?

오늘은, 여러 조직의 AI 팀들이 HITL(Human-in-the-Loop) 기법과 시스템을 활용해서 ‘합성 데이터를 어떻게 유용하고 안전하게, 쓸만하게’ 만들고 있는지 한 번 살펴보겠습니다 - 사람이 이 전체 과정을 어떻게 가이드도 하고 검증도 하는지 들여다보고, 실제로 구현되고 있는 사례도 이야기 나눠보겠습니다.

오늘 에피소드에서는, 다음과 같은 내용을 다룹니다:

합성 데이터란 무엇인가 – 그리고 왜 ‘사람의 손길’이 필요한가

AI가 스스로를 위해서 데이터를 생성한다 — 간단히 말하자면, 이게 바로 합성 데이터(Synthetic Data)의 핵심 아이디어죠. 실제 세계에서 발생한 데이터를 수집하는 대신, 모델이 현실을 모방하면서 인공적인 데이터 - 텍스트, 이미지, 비디오, 구조화된 테이블 등 - 을 만들어 냅니다. 알고리즘이 알고리즘을 위해 만든 데이터라고 말하기도 하죠.

이 개념은 새로운 게 아닙니다. 합성 데이터(Synthetic Data)는 오랫동안 로보틱스(Robotics)와 자율주행(Autonomous Driving) 분야에서 ‘드물지만 발생할 수 있는, 또는 위험한 극한 상황(Edge Case)’을 시뮬레이션하기 위해서 꽤 사용돼 왔어요. - 이런 상황이 발생할 때까지 기다려서 데이터를 수집할 수는 없으니, 더 빠르게, 더 안전하게 테스트를 할 수 있게끔 해 주는 방식이죠.

그런데, 2024년에 이 데이터 문제가 훨씬 더 시급해졌습니다. Ilya Sutskever는 ‘우리가 실제 데이터(Real Data)의 정점(Peak)에 도달했다고 경고’하기도 했구요. 일론 머스크는 훨씬 더 적나라하게 이야기했습니다: “이제 AI 훈련을 위해서 사용할 수 있는, 인류가 지금까지 쌓아 온 지식의 총량이 거의 바닥났습니다. 그리고 그건 사실 작년에 일어난 일이예요.” 인터넷이 AI 모델을 영원히 먹여 살릴 수 없다는 건 명확한 것 같습니다.

왜 지금 합성 데이터(Synthetic Data)가 특히 중요할까요?:

데이터의 공백을 메워줍니다 — 특히 드물거나 위험하거나, 특정한 도메인에 특화된 시나리오(예: 비행기 추락, 희귀 질병 등)를 AI 모델에 훈련시킬 때 아주 유용합니다.
개인정보를 보호하는데 도움이 됩니다 — 현실적이면서도 사실은 가짜인 사용자 데이터를 가지고 훈련할 수 있게 해줍니다.
개발 및 운영 비용을 줄여줍니다 — 값비싼 레이블링(Labeling)을 감당할 필요가 줄어들고, 데이터 수집 주기도 아주 느린데, 그 주기를 줄일 수 있습니다.
편향성(Bias)을 줄일 수 있습니다 — 사람이 통제하는 조건에서 다양하고 균형 잡힌 데이터를 생성할 수 있기 때문입니다.

그렇다면 말이죠. 왜 그냥 무한대로 합성 데이터(Synthetic Data)를 생성해서 해결한다는 이야기는 안 나오는 걸까요?

그 이유는 바로, 저품질의 합성 데이터(Synthetic Data)는 소위 말하는 ‘모델 붕괴(Model Collapse)’라는 걸 일으키기 때문입니다 — 이건, 모델의 오류가 자기 증식하는 일종의 악순환이죠.

그래서, 이제 합성 데이터를 통제하는 데 집중하는 새로운 기술들이 많이 등장하고 있습니다 — 모델을 망치는 것이 아니라 개선시키기 위해서죠.

최근에 부상하고 있는 그런 방법들 중 하나는, Inference-Time Self-Training 입니다. 모델이 출력물을 생성하고, 그걸 비판하고, 그 중에 가장 좋은 답변을 기반으로 해서 다시 훈련합니다. 폐쇄형 피드백 루프(Closed Feedback Loop)를 만들어서 AI가 스스로를 다듬는 방식이죠. 하지만 이것만으로는 충분하지가 않습니다.

즉, 생성된 데이터가 높은 품질을 갖도록 보장하려면, 여전히 사람이 필요합니다.

앤쓰로픽, 오픈AI 같은 기업들은, 모델을 훈련하기 위해서 대량의 합성 데이터(Synthetic Data)를 생성하지만, 동시에 Scale AI, Toloka, SuperAnnotate 같은 플랫폼을 통해서 사람의 피드백을 취합해서 통합을 합니다 — 응답에 대해서 순위를 매기거나, 극한 상황(Edge Case)에 레이블을 붙이거나, 보상 모델(Reward Model)을 다듬는 등 다양한 작업에서 사람의 도움이 필요하다는 걸 이런 회사들은 너무나 잘 알고 있죠.

Toloka의 창업자이자 CEO인 Olga Megorskaya가 생각하는 HITL의 진화에 대해 이야기한 튜링 포스트의 인터뷰도 참고하시면 좋겠습니다:

🎙️AI에게 인간이 여전히 필요한 이유

AI 데이터 솔루션 기업 Toloka의 창업자/CEO, Olga Megorskaya와의 인터뷰

turingpost.co.kr/p/ai-toloka-why-ai-needs-human

자, 그럼 이렇게 HITL(Human-in-the-Loop) 기반의 워크플로우가 어떻게 합성 데이터(Synthetic Data)를 더 현실에 맞게, 유용하게, 안전하게 만들어주는지 한 번 살펴보고, 실제로 현장에 적용하고 있는 기업들의 사례도 알아보겠습니다.

‘창조’의 엔진: 합성 데이터를 만드는 기술들

그런데, 해결책을 살펴보기 전에, ‘도구들’을 잘 이해하는 것이 중요하겠죠.

합성 데이터(Synthetic Data)를 만든다는 건, 모든 상황에 똑같이 적용할 수 있는 하나의 절차가 있는 게 아닙니다. 즉, 하려고 하는 일이나 환경에 따라서 특정한 방법을 선택하게 된다는 것이죠:

통계적 방법(Statistical Methods):
‘고전적인 접근법’이죠. 실제 데이터셋(Real Dataset)의 통계적 특성(예: 평균, 표준편차, 열 간의 상관관계 등)을 분석하고 나서, 이런 특성을 모방하는 새로운 데이터를 생성할 수 있습니다. 정규 분포(Normal)나 포아송 분포(Poisson)와 같은 잘 알려진 분포를 활용해서, 이 방법은 분석이나 테스트용으로 단순하고 구조화된 테이블 데이터(Tabular Data)를 생성하는 데 적합합니다. 다만, 통계에 대한 전문 지식이 필요하다는 점, 그리고 복잡하고 비선형적인 관계를 가진 정교한 데이터를 포착하는 데는 한계가 있다는 점을 유의해야 합니다.

생성적 적대 신경망(Generative Adversarial Networks, GANs):
GAN은 데이터를 생성하기 위해서, 아주 혁신적으로 ‘고양이와 쥐’ 게임의 개념을 신경망에 도입했죠. 두 개의 신경망(Neural Network)으로 구성되어 있는데, 바로 가짜 데이터를 생성하는 생성기(Generator), 그리고 가짜와 진짜 데이터를 구별하려는 판별기(Discriminator)가 그 두 개입니다. 이 둘은 서로 경쟁하면서 훈련하는데요, 생성기는 더 그럴듯한 가짜를 만들게끔 개선되고, 판별기는 그걸 더 잘 식별하게끔 향상됩니다. 이 ‘적대적 학습’ 과정은 특히 이미지의 영역에서 아주 사실적으로 보이는 데이터를 만들어냅니다. 하지만 GAN은 훈련하기 어렵고 제어하기도 까다롭다는 단점이 있습니다.

변분 오토인코더(Variational Autoencoders, VAEs):
VAE는 전혀 다른 방식을 취합니다. 먼저, 실제 데이터를 단순화된 저차원 표현(Latent Space)으로 압축해서 가장 핵심적인 특징을 포착합니다. 그 다음에, 이 압축된 공간으로부터 디코더(Decoder)를 통해서 데이터를 다시 복원하면서 약간의 변형을 줍니다. 이 기법은 기존 데이터를 바탕으로 다양하고 새로운 버전을 생성하는 데 특히 유용합니다 — 예를 들어서, 하나의 제품 이미지를 여러 변형된 모습으로 생성하거나, 다양한 예술 스타일을 실험하는 경우에 적합합니다.

트랜스포머 모델(Transformer Models):
현재, 합성 데이터(Synthetic Data) 생성과 관련된 핵심 기술이 바로 트랜스포머 아키텍처(Transformer Architecture)입니다. 우리가 잘 아는 GPT, Claude와 같은 모델을 구성하는 핵심이죠. 트랜스포머는 시퀀스와 문맥(Context)을 이해하는 데 탁월한 능력이 있으니까, 일관성있고 맥락이 풍부한 텍스트, 코드, 심지어는 복잡하게 구조화된 데이터까지 생성하는 데 압도적인 성능을 보여 줍니다. 예를 들어서, 진짜같은 상품 리뷰를 작성하거나, 챗봇 훈련용 합성 대화를 생성하거나, 금융 모델링을 위한 복잡한 테이블 데이터셋을 만들 수도 있습니다.

기계 속 유령 (Ghost in the Machine): ‘모델 붕괴’의 위험

이렇게 괜찮은 도구들이 많은데, 왜 그냥 데이터를 마구 생성해서 전지전능한 AI를 만들지 않는 걸까요? 아까 언급한 것처럼, 그 해답은 모델 붕괴(Model Collapse)라는 위험한 현상에 있습니다.

모델 붕괴(Model Collapse)는 AI 모델이 주로 자기 자신이 생성한 합성 데이터(Synthetic Data)에 기반해서 훈련을 할 때 발생하는데, 자기 파괴적(Self-Degradation)인 폐쇄형의 피드백 루프(Feedback Loop)입니다.

모델이 데이터를 생성하고, 그 데이터로 다시 훈련을 하는데, 다음 사이클에서는 다양성이 떨어지고 오류가 더 많은 데이터를 생성하게 됩니다. 이렇게 생성되는 데이터는 이전 세대의 편향성(Bias)과 인공적인 흔적(Artifact)을 점점 더 증폭시킵니다.

합성 데이터만 사용해서 반복 훈련한 생성형 AI 모델이 세대를 거듭할수록 인공적인 흔적이 점점 심해지는 현상. Image Credit: Rice University

시간이 지날수록, 모델은 현실 세계의 풍부함과 예측 불가능성을 점점 잊어버리고, 출력 결과는 점점 밋밋하고 반복적이고 사실과 다를 때도 많은, 뭐랄까 ‘죽’ 같은 형태로 수렴하게 됩니다. 세계(World)에 대해서 모델이 이해하고 있는 바가 점차 안쪽으로 "붕괴(Collapse)"되기 시작하죠.

연구자들은 모델이 이렇게 잘못되기 시작할 때, 실제의 데이터 분포(True Data Distribution)에 대한 정보를 점차 잃게 되고, 결국 성능이 치명적으로 하락하는 결과로 이어질 수 있다는 것을 입증했습니다.

사람이 붙잡고 있는 균형추: HITL이 합성 데이터를 제대로 작동하게끔 하는 법

여기서 바로 혜성처럼 (^.^) HITL(Human-in-the-Loop) 접근 방식이 필수 해법으로 등장합니다.

합성 데이터(Synthetic Data)를 통제하기 위해서 HITL이 정확히 어떻게 활용되는가 하면:

합성 데이터의 검증(Validating) 및 큐레이션(선별; Curating)

합성 데이터를 무작정 사용한다는 건, 모래 위에 집을 짓는 거 같은 것이죠. 그래서, 사람이 개입하는 첫 번째 관문은 바로 품질 관리(Quality Control)예요.
예를 들어서, 제조 현장에서 사실 결함률은 낮은 편인데, 그럴 때 잘 나타나지 않는 제조 결함 이미지를 수천 개쯤 합성으로 만들 수 있겠죠. 그런데 그 중 일부는 물리적으로 말이 안 되는 이미지일 수도 있습니다. 또는, 수천 줄의 의료 데이터를 생성할 수는 있지만, 그 중에 일부는 말이 안 되는 증상을 포함할 수도 있구요.

이때 HITL 워크플로우는 생성 → 사람의 검토 → 수정 → 선별이라는 반복적인 순환 구조로 나타납니다:

(사람) 전문가들은 생성된 데이터셋(Dataset)을 검토해서, 비현실적인, 말이 안 되는 데이터를 제거하고, 사실과 다른 오류를 수정할 뿐 아니라, 미묘한 인공적 흔적(Artifact)을 표시합니다. 이렇게 해서, 최종 훈련 데이터셋에는 고품질이고 현실적인 데이터만이 포함되도록 보장해서, 모델이 잘못된 패턴을 학습하는 것을 방지할 수 있습니다.

데이터의 레이블링(Labeling) 및 정제(Refining)

데이터에 주석을 다는 작업((Annotation)은 AI 개발 과정에서 가장 시간이 많이 드는 단계 중 하나입니다.
HITL은 이 과정을 단축시켜주는 강력한 해결책을 제공하는데요. 처음부터 레이블을 다는 대신, 모델이 사전 레이블링(Pre-Labeling)을 수행할 수 있습니다. 예를 들어서, AI가 이미지에 대해서 초기의 바운딩 박스(Bounding Box)를 제안하거나, 텍스트에 대한 감정 레이블(Sentiment Label)을 미리 붙일 수 있습니다. 그러면, 이후에 사람이 이 합성으로 생성된 ‘추측(Guess)’ 내용을 검토하고 수정하기만 하면 됩니다.

이렇게 ‘사람이 편집자 역할을 하는(human-as-editor)’ 접근법은 레이블링의 속도를 크게 높여주면서도, 최종적인 정확도는 사람의 전문성에 의해 보장, 확보됩니다. 이렇게 정제한 데이터를 모델을 파인튜닝(Fine-Tuning)하는 데 사용하거나, 더 작고 효율적인 모델에 지식을 압축하는 지식 증류(Knowledge Distillation)에 활용하기도 합니다.

Image Credit: Llama 3.1 for Data Pre-Labeling, Lable Box 블로그

RLHF(Reinforcement Learning from Human Feedback, RLHF)

아마, 가장 정교한 HITL 전략이 RLHF일 겁니다. 이 방법은 모델의 행동을 사람의 선호(Human Preference)에 직접적으로 맞추기 위한 기법인데, 그 과정이 아주 세련되게 만들어져 있어요:
- 모델이 하나의 프롬프트(Prompt)에 대해서 여러 개의 응답을 생성합니다.
- 사람 평가자(Human Evaluator)가 그 응답들을 도움이 되는 정도, 정확성, 무해성 등의 기준에 따라서 가장 좋은 것부터 가장 나쁜 것까지 순위를 매깁니다.
- 이 순위(Ranking) 데이터를 사용해서 별도의 보상 모델(Reward Model)을 훈련시키는데, 이 모델은 사람이 어떤 출력값을 선호할지를 예측하도록 학습합니다.
- 원래의 AI가 이 보상 모델을 기반으로 파인튜닝(Fine-Tuning)되어서, 높은 점수를 받을 수 있는 응답을 생성하게끔 강화됩니다.
이 피드백 루프(Feedback Loop)를 통해서 모델에게 ‘사람의 관점에서 좋은(Good) 게 어떤 것인지’를 직접 가르치는 거죠. 이게 바로 ChatGPT나 Claude 같은 모델들이 단순히 다음 단어를 예측하는 수준을 넘어서, 미묘하고 유익한 대화를 할 수 있는 이유입니다.
단순한 예로, 여러분이 챗봇에게 “틀렸어, 그 답변을 고쳐 줘”라고 말할 때, 바로 그때 직접적인 피드백(Feedback)을 제공하고 있는 겁니다. 이런 피드백이 누적되면 모델의 미래 행동을 형성하는 데 기여하게 됩니다.

위에 설명드린 모든 기법이 일종의 피드백 루프(Feedback Loop)로 작동합니다: AI가 새로운 데이터나 응답을 생성하고, 사람은 잘못된 합성 데이터(Synthetic Data)를 걸러내고, 현실 세계의 맥락(Real-World Context)을 주입하고, 도메인 지식(Domain Knowledge)과 윤리적 기준(Ethical Norms) 등에 맞춰서 AI의 방향을 조정, 가이드합니다.

‘합성 데이터 + HITL’ 체계를 활용하는 실제 사례

합성 데이터(Synthetic Data)와 HITL(Human-in-the-Loop)의 조합은 AI 분야 전반에 걸쳐서 다양한 방식으로 적용되고 있는데요, 아래는 그 중에서도 흥미로운 사례 몇 가지입니다.

오픈AI의 GPT-4.5 사례

2025년 2월, 오픈AI가 GPT-4.5를 출시하면서 그 전작을 따라다녔던 문제 하나를 조용히 해결했습니다: 바로 아첨(Sycophancy) 문제인데요. GPT-4는 사용자의 의견에 지나치게 동의를 하고, 진실되거나 균형 잡힌 답변을 제공하기보다는 사용자의 입장을 되풀이한다는 비판을 받았습니다.

이 문제는 정확성(Accuracy)보다 동의(Agreement)에 더 높은 점수를 부여한 편향된 인간 피드백(Biased Human Feedback)을 기반으로 보상 모델(Reward Model)이 훈련되면서 발생한 것이었습니다.

GPT-4.5는 다른 길을 택했습니다. 더 작은 모델들이 생성한 합성 데이터(Synthetic Data)로 먼저 훈련한 다음, HITL(Human-in-the-Loop) 피드백을 통해서 정제했습니다. (사람) 리뷰어들은 모델의 출력 결과를 순위 매기고, 수정하고, 논의하면서 보상 모델을 더 정밀하게 훈련시켰습니다. 이 새로운 파이프라인은 아첨(Flattery)보다는 명확성(Clarity), 뉘앙스(Nuance), 강건성(Robustness)을 우선시했습니다.

이렇게 AI가 생성한 예시들과 구조화된 사람의 감독을 결합해서, GPT-4.5는 더 날카롭고, 조정 가능성이 높아졌고, 단순히 사용자가 듣고 싶어 하는 말만 되풀이할 가능성은 줄어들었습니다 (물론 여전히 저한테는 매우 친절하긴 합니다 ^.^)

Image Credit: 오픈AI의 ‘Introducing GPT-4.5 블로그

마이크로소프트의 Phi-4 훈련 전략

마이크로소프트의 Phi-4는 140억 개 파라미터(14-Billion-Parameter)를 가진 강력한 소형 언어 모델(Small Language Model)로, 데이터 선별(Data Curation)의 실전 교과서라고 할 수 있습니다. 이 팀의 전략은, 단순한 모델 크기보다 데이터 품질(Data Quality)을 우선시한 건데, 그 핵심에는 합성 데이터(Synthetic Data)가 있었습니다.

사전 훈련(Pre-Training), 중간 훈련(Mid-Training), 사후 정렬(Post-Training Alignment)에 이르기까지 총 50개 이상의 정교하게 제작된 합성 데이터셋(Synthetic Dataset)이 사용되었습니다. 이 데이터셋들은 멀티 에이전트 프롬프팅(Multi-Agent Prompting) - 여러 AI 에이전트가 서로 질문 답변을 하면서 협업하는 방식으로, 더 정교하고 다양한 출력을 생성하기 위한 프롬프트 설계 기법 - 과 자기 수정(Self-Revision) 워크플로우를 통해서 생성되었고, 연쇄적 사고(Chain-of-Thought, CoT) 추론과 같은 기술을 모델에게 가르치기 위해서 설계되었습니다. 예를 들어서, 복잡한 수학 문제의 풀이 과정을 모델이 단지 정답만이 아니라 사고 과정을 학습할 수 있도록, 단계별로 합성된 방식으로 다시 쓰는 식입니다.

하지만 Phi-4의 훈련 과정은 최상의 합성 데이터조차도 현실(Reality)에 기반해야 한다는 점을 보여줍니다. 최종 사전 훈련 구성물(Final Pre-Training Mixture)에는 고도로 필터링된 웹 데이터(Web Data), 코드(Code), 학술 논문(Academic Paper)이 포함되었는데, 이것들은 직접적인 훈련 자료로도, 그리고 합성 생성(Synthetic Generation)을 위한 시드(Seed)로도 활용되었습니다.

Image Credit: Phi-4 테크니컬 리포트

HITL(Human-in-the-Loop) 요소는 사후 정렬(Post-Training Alignment) 단계에서 가장 두드러지게 활용되었다고 하는데, 이는 DPO(Direct Preference Optimization)의 특수한 형태라고 합니다:

핵심 토큰 탐색(Pivotal Token Search, PTS)

연구자들은 하나의 응답에서 그 성공 또는 실패를 결정짓는 특정 토큰(Token, 단어나 단어의 일부)을 식별했습니다. 그런 다음에, 좋은(Good) 핵심 토큰이 포함된 응답과 나쁜(Bad) 핵심 토큰이 포함된 응답 한 쌍의 합성 DPO 데이터 페어(Pair)를 생성했고, Phi-4가 더 나은 응답을 선호하게끔 훈련시켰습니다. 마치 사람이 주도하는, 모델 출력에 대한 마이크로 수술(Micro-Surgery)과 같은 거죠.

GPT-4o 판별 비교(GPT-4o-Judged Comparisons)

선호 데이터(Preference Data)를 대규모로 확보하기 위해서, 마이크로소프트는 GPT-4o를 사용해서 여러 모델의 출력 쌍을 평가하고 레이블링(Labeling)하도록 했습니다. 이 AI 기반 피드백(AI-Driven Feedback)은 사람이 정의한 기준(Human-Defined Criteria)에 따라 작동하고, 수십만 개의 합성 선호 데이터쌍(Synthetic Preference Pair)을 생성해서 Phi-4를 파인튜닝하는 데 사용했습니다.

중요한 것은, 합성 데이터(Synthetic Data)는 Phi-4가 “모르겠습니다(I don’t know)”라고 말해야 할 때를 학습시키는 데도 활용되었다는 겁니다. 마이크로소프트의 연구팀은 답변할 수 없는 질문(Unanswerable Question)에 대한 예시를 생성하고, 정답으로는 공손한 거절 표현을 포함한 합성 응답을 사용했습니다. 이건 많은 모델이 가진 핵심적인 약점인 환각(Hallucination)을 직접적으로 방지하는 전략입니다.

그 결과는 아주 놀라웠습니다. Phi-4는 여러 추론(Reasoning) 및 코딩(Coding) 벤치마크에서 GPT-4o 같은 훨씬 더 큰 모델들을 능가하는 모습을 보여주었고, 합성 데이터가 중심이지만 사람이 직접 선별하는 과정을 거치는 데이터 전략이 아주 효과적일 수 있다는 것을 입증했습니다.

월마트의 도입 사례

비즈니스의 영역에서도, HITL(Human-in-the-Loop)과 합성 데이터(Synthetic Data)가 실질적인 문제들을 해결하고 있습니다. 예를 들어서, 소매 유통 산업의 대기업인 월마트에서는, 추천 엔진(Recommendation Engine)을 훈련시키기 위해서 합성된 고객 행동 데이터(Synthetic Customer Behavior Data)를 활용하는 방안을 연구해 왔다고 해요.

연구자들은 제품을 조회하거나 장바구니에 담는 행동과 같은 사용자 행동의 일련의 순서를 시뮬레이션한 가상 쇼핑 세션(Simulated Shopping Session)을 생성해서, 월마트의 TMF(Triple Modality Fusion) 모델을 훈련시켰습니다.

이 시퀀스들은 합성된 데이터였지만, 추천 대상(즉, ‘다음으로 구매할 항목’)은 사람 전문가들이 선정했습니다. 실제 세계의 논리적인 쇼핑 패턴을 반영하기 위해서 목표 항목을 지정했구요. 이렇게 사람이 주도하는 방식(Human-Guided Approach) 덕분에 월마트에서는 실제 고객 데이터를 사용하지 않고도 다양한 쇼핑 시나리오를 기반으로 모델을 실험하고 훈련할 수 있었는데, 이는 개인정보 보호(Privacy)를 지키면서도 통찰력 있고 상업적으로 가치 있는 예측(Commercially Valuable Prediction)을 생성할 수 있게 해 준 사례입니다.

엔비디아의 Cosmos와 컴퓨터 비전의 미래

튜링 포스트 코리아의 이전 글들에서 월드 모델, 그리고 엔비디아의 Cosmos 모델에 대해서 다룬 적이 있습니다:

Topic #35: '월드 모델 (World Models)'이란 무엇인가?

월드 모델의 역사와 현재 - 그리고 'AI의 미래'를 그릴 때 월드 모델이 필수 요소인 이유

turingpost.co.kr/p/topic-35-world-models

Topic #24: 엔비디아의 'Cosmos WFM 플랫폼'에 대해 알아봅시다!

Physical AI의 근간이 되는 월드 모델 - 엔비디아는 이걸 어떻게 구현하고 있을까요?

turingpost.co.kr/p/topic-24-ndivia-cosmos-wfm

하지만, 합성 데이터(Synthetic Data)와 HITL(Human-in-the-Loop) 활용 사례의 관점에서 바라볼 수 있는 Cosmos Transfer 모델의 흥미로운 지점들도 있어서 언급하려고 합니다.

Cosmos Transfer 모델은 시뮬레이션으로부터의 Segmentation Map, Depth Map, 궤적Trajectory 등의 입력을 받아서 고품질의 사실적인 비디오 프레임(Photorealistic Video Frame)과 센서 판독값(Sensor Reading)으로 변환합니다. 개발자들은 다양한 카메라 시점(Camera View), LiDAR 스캔(LiDAR Sweep), 그리고 날씨나 교통 상황 등 다양한 시나리오를 인공적으로 생성할 수 있습니다.

이런 합성 데이터(Synthetic Data)는 특히 사후 훈련(Post-Training)에 유용해서, 현실 세계에서 포착하기 어려운 시나리오 — 예를 들어서 드물게 발생하거나 위험한 상황 — 에 대해서 모델을 추가로 훈련하거나 파인튜닝하는 데 사용됩니다.

이 모델은 엔비디아의 Omniverse(실시간 3D 시뮬레이션 플랫폼)에서 제공되는 정답 기반 시뮬레이션(Ground-Truth Simulation)을 활용하고 있는데, 이게 Cosmos 모델을 정확, 안전하면서도 현실적인 환경에 적응시킬 수 있도록 도와주는 핵심 요소입니다.

Image Credit: 엔비디아 Cosmos 블로그

(사람) 엔지니어와 도메인 전문가는 시뮬레이션 시나리오를 제어하고 선별(Curation)하면서 루프 안에 머무릅니다. 엔비디아는 Omniverse에서 블루프린트(Blueprint) 기능을 제공해서, 개발자가 합성 환경(Synthetic Environment) 안에서 날씨(Weather), 조명(Lighting), 행위자 행동(Actor Behavior) 등의 파라미터를 다양하게 조정할 수 있도록 합니다.

예를 들어서, 디자이너가 야간 강우(Night-Time Rain) 시나리오를 지정한 뒤에, 그에 대한 다양한 변형(Variation)을 생성할 수 있습니다. 이런 전문가의 입력은 합성 데이터셋(Synthetic Dataset)이 관련된 코너 케이스(Corner Case)를 포괄하고, 현실성(Realism)을 갖추도록 보장합니다.

데이터를 생성한 이후에는, 예를 들어서 자율주행 테스트 엔지니어(Autonomous Driving Tester)나 로보틱스 엔지니어(Robotics Engineer)와 같은 전문가들이, 합성 시나리오 안에서의 모델 성능(Model Performance)을 평가합니다. 이렇게 효과적으로 로봇이나 차량이 시뮬레이션에서 올바르게 동작하는지를 검증(Validation)하게 됩니다.

맺음말: ‘완전한 자동’이 아니라 ‘협업’이 미래다

2024년 이후의 AI 개발 환경은 새로운 시너지(Synergy)를 통해서 정의되고 있다고 봅니다. 고품질의 현실 세계 데이터(Real-World Data)가 고갈되어 가면서, 사람이 수집하고 만들어낸 데이터셋(Dataset)에만 의존하는 건 더 이상 현실적이지가 않습니다. 이미 합성 데이터(Synthetic Data)가 더 역량이 뛰어나면서도 안전한 AI 시스템을 구축하기 위해 필수가 되어버린 시대에 들어섰습니다.

하지만 마이크로소프트나 엔비디아 등의 사례가 보여주듯이, AI 혼자만으로는 해답을 낼 수가 없습니다. 모델 붕괴(Model Collapse)의 위험은 실제 존재하는 위협이고, 더 강력한 AI로 가는 길은 사람의 판단(Human Judgment)이 반드시 개입되어야 합ㄴ디ㅏ. 사람이 여전히 이 워크플로우(Workflow)의 가장 중요한 부분이라는 거죠 — 더 이상 단순한 데이터 수집의 역할이 아니라, 큐레이터(Curator), 감독관(Director), 그리고 윤리적 자문(Ethicist)으로 역할을 해야 합니다. 사람이 바로 목표를 설정하고, 결과를 검증하고, 알고리즘이 무의미하고 자기 강화적인 허구(Self-Reinforcing Fiction)로 이탈하지 않도록 현실적인 근거(Reality Grounding)을 제공합니다.

앞으로, 데이터셋 개발자(Dataset Developer)들은 점점 더 리더십과 관리 역할을 맡게 될 거고, 단지 데이터를 다루는 것을 넘어서 AI 개발의 전체 방향성을 형성하게 될 겁니다. 결국, AI의 미래가 완전 자동화(Fully Automated)가 아닌, 협업(Collaborative)이라는 사실을 다시 한 번 확인하게 될 겁니다 — 사람의 지능(Human Intelligence)이 기계가 만들어내는 생성 과정(Machine-Scale Generation)을 이끌어 가면서, 가능성의 새로운 경계(New Frontier of Possibility)를 여는 미래, 이것이 바로 AI와 우리가 공존하는 미래입니다.

보너스: 참고자료

Ilya Sutskever: "Sequence to sequence learning with neural networks: what a decade" (비디오)
Elon Musk says all human data for AI training ‘exhausted’ The Guardian article by Dan Milmo
What Is Synthetic Data? (엔비디아 블로그)
Synthetic Data for Deep Learning (논문)
Introducing GPT-4.5 (오픈AI 블로그)
Phi-4 Technical Report
Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations
Synthetic Data RL: Task Definition Is All You Need
Domain Randomization for Object Detection in Manufacturing Applications using Synthetic Data: A Comprehensive Study
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
On the Diversity of Synthetic Data and its Impact on Training Large Language Models

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.