들어가며

지난 주의 헤드라인은 아무래도 CES 관련 소식들이 점령하지 않았나 - AI 관점에서는요 - 싶습니다. 아직까지도 CES 후속 기사라든가 CES의 의미, 앞으로의 (긍정적, 부정적인) 전망 등이 계속 이어지고 있으니까요.

오늘 튜링 포스트 코리아에서는, 잠시 바쁘게 돌아가는 세상에서 시선을 돌려서, 다소 고전적인 주제를 한 번 살펴볼까 합니다 - 바로 ‘GAN (Generative Adversarial Network; 생성형 적대적 신경망)’ 이야기인데요, 지난 1월 9일 발표된 ‘The GAN Is Dead; Long Live the GAN! A Modern GAN Baseline’이라는 논문을 보고 한 번 이야기해보고 싶다는 생각이 들었습니다. ‘현대적 AI’라는 관점에서 한 획을 그은 신경망 아키텍처 중 하나임에 분명하지만, 실제 적용의 난점들 때문에 지금은 디퓨전 (Diffusion) 모델 계열에게 그 자리를 내주었다고 할 수도 있는 GAN. GAN은 과연 ML에서 가장 매력적인 아이디어 중 하나라는 타이틀을 앞으로도 유지할 수 있을까요?

GAN의 탄생: 두 네트워크의 게임

‘GAN (Generative Adversarial Networks; 생성형 적대적 신겨경망)’ 논문은 2014년 이안 굿펠로우 (Ian Goodfellow)와 그가 이끈 팀이 소개했죠.

이안 굿펠로우. Image Credit: 내외방송

GAN의 개념은 단순하면서도 혁신적이었어요: 생성자 (Generator)와 판별자 (Discriminator), 두 개의 신경망이 제로섬 게임 조건 아래서 경쟁하는 겁니다.

(*편집자 주: 몬트리올 대학교의 아론 쿠르빌 교수에게 들은 바로는, 이안 굿펠로우가 동료들과 몬트리올의 한 바에서 술을 마시면서 이야기를 나누다가 갑자기 아이디어가 떠올라서, 술이 살짝 취한 상태에서 연구실로 돌아가서 코딩을 하면서 GAN을 만들게 되었다고 해요 ^.^;)

GAN 컨셉

  • 생성자 (Generator)
    이 네트워크는 무작위의 노이즈로부터 가짜 데이터 (예: 이미지, 오디오, 텍스트)를 만듭니다. 이 네트워크의 목표는 다른 네트워크 (판별자)가 가짜인지 구분할 수 없을 정도로 실제와 같은 데이터를 생성하는 거죠.

  • 판별자(Discriminator)
    이 네트워크는 ‘심판’ 역할을 합니다. 데이터 (실제와 가짜 모두)를 보고 그게 진짜인지 생성자가 만든 것인지 판단하려고 하죠.

이런 구조로 적대적 트레이닝 (Adversarial Training)을 반복하면서 두 네트워크가 모두 발전하게끔 만들어서, 결국 ‘실제와 구분할 수 없는’ 합성 데이터를 만들어내게 됩니다.

‘GAN’의 개념은 흥미로울 뿐 아니라 그 영향도 커서, 2016년 얀 르쿤은 “(GAN은) 우리가 한동안 생각해 낸 것들 중 최고의 아이디어”라고 말한 적도 있을 정도였습니다.

Image Credit: 얀 르쿤의 RI 세미나 ‘The Next Frontier in AI: Unsupervised Learning’

VAE (Variational Autoencoders)라든가 RBM (Restricted Boltzmann Machines) 같은 이전의 생성형 모델들과 비교했을 때, GAN은 더 선명한 이미지를 생성하고 더 복잡한 패턴을 학습할 수 있었기 때문에, AI 기술의 새로운 가능성을 열었다고 평가되었습니다.

물론, 무슨 기술이든 한계가 있죠 - GAN이 맞닥뜨린 현실적인 문제는 바로 모델의 불안정성, 모드 붕괴 (Mode Collapse) 같은 것들이었죠.

디퓨전 모델로의 전환

큰 관심을 받은 GAN이었지만, 시간이 흘러가면서 이런 불안정성 문제, 그리고 모드 붕괴의 문제 등 학습 상의 어려움이 더 이상 무시할 수 없는 문제가 되었죠. 그러던 와중에, 2022년 즈음해서 새로운 도전자인 디퓨전 모델 (확산 모델; Diffusion Model)이 등장했습니다. 이 모델은 데이터를 생성하는 걸 점진적인 개선 과정이라는 관점에서 접근했고, 그 때문에 더 안정적이었고 학습하기도 쉬웠습니다.

Deep Generative Model 간 비교. Image Credit: Towards AI

디퓨전 모델은 다양한 출력물을 고품질로 만들어낼 수 있어서, 연구자들 입장에서는 골칫거리는 적으면서 효과가 좋아서 빠르게 주목을 받게 되었구요. 한 때 생성형 모델의 스타였던 GAN은 디퓨전 모델에 살짝 (?) 밀리는 듯한 느낌으로 대화에서 점차 사라지게 되었습니다.

The GAN Is Dead; Long Live the GAN!

그렇지만, GAN의 가능성을 여전히 믿는 연구자들이 있었죠! 바로 며칠 전인 2025년 1월 9일, ‘The GAN Is Dead; Long Live the GAN!’이라는, 대담하면서도 아이러니한 제목의 논문이 지금 GAN에 대한 관심을 다시 불러일으키고 있는데요 - ‘GAN은 죽었다; GAN 만세!’라는, 어찌보면 이상하게 들리는 제목이죠?

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, 그리고 James Tompkin이 쓴 이 논문은, ‘GAN이 맞닥뜨린 문제점들이 본질적인 결함이 아니라 구식의 아키텍처와 기술 때문이다’라고 주장하고 있습니다.

연구진의 아이디어의 핵심은, ‘더 좋은 손실 함수’에요 - 손실 함수가 AI에서 얼마나 중요한지는 다들 잘 아시잖아요? 결국 본질로 돌아오는가봅니다 - GAN이 얼마나 학습을 잘 하고 있는지 측정하는, 더 똑똑한 방법을 새로 고안한 건데요. 이걸 ‘상대적 GAN 손실 (Relativistic GAN Loss)’라고 부르는데, GAN의 학습 과정을 더 부드럽게 만들고, 결과적으로 이상한 출력물이 갑자기 나온다든가, 한정된 종류의 이미지만 반복해서 나온다든가 하는 일반적인 문제들이 덜 발생하게 합니다.

또, 연구진은 GAN 아키텍처를 ‘현대화’하기도 했는데요. 아주 사실적인 얼굴을 생성하기로 잘 알려진 모델, StyleGAN2에서부터 시작해서, 최신의 AI 설계 기법들을 반영해서 더 이상 필요하지 않은 모든 요소들을 도려내 버렸습니다. 그리고 ResNet이라든가 ‘그룹 합성곱 (Grouped Convolution)’ 같은 더 나은 구성 요소들을 추가해서 R3GAN이라는 더 간단하면서도 강력한 GAN을 만들어 냈습니다.

이 R3GAN은 더 잘 작동할 뿐 아니라 더 단순하다고 말씀드렸죠. FFHQ (사람 얼굴 데이터셋)라든가 CIFAR-10 (일상적으로 볼 수 있는 물체들의 작은 이미지) 같은 표준 벤치마크에서, R3GAN은 일부 디퓨전 모델을 포함한 기존의 다른 모델들을 능가하는 모습을 보여줍니다. 게다가, 학습 속도도 더 빠르고 컴퓨팅 파워도 덜 사용합니다.

FFHQ-256 데이터셋을 기반으로 R3GAN이 생성해낸 얼굴들. Image Credit: 오리지널 논문

GAN이 너무 까다롭거나 구식이라고 생각해서 피해왔다면, 지금, 그리고 앞으로 GAN - 새로운 GAN이겠죠 - 을 다시 시도해 볼만한 좋은 시기가 올지도 모르겠습니다. 우리도, GAN을 활용해서 뭘 해 볼 수 있을지 한 번 다시 생각해 볼만한 시간이구요.

AI 혁신, 그 ‘반복적인 (Iterative) 과정’

앞에서 살펴본 ‘GAN의 부활’. 여기서 바로 AI - 또는 머신러닝 - 혁신이 가지고 있는 ‘반복적인 (Iterative)’ 특성을 살펴볼 수 있습니다. 과거의 연구, 현재의 연구들이 서로의 장단점들을 복잡하게 섞어가면서 또 새로운 연구 주제를 만들어내고, 다음 세대 AI 어플리케이션의 기초를 만들어 냅니다. 바로 이 때문에, 끊임없이 변화하는 AI 연구를 어떤 수준에서든 팔로우업하는 게 AI 어플리케이션이나 서비스를 만들어내는 입장에서도 중요한 것이 아닐까 합니다.

새로 등장한 R3GAN을 위시해서, 새로운 시대의 새로운 GAN들이 또 계속 등장하지 않을까 하는데요. 고품질의 합성 데이터를 생성하는 GAN의 능력, 생성형 AI 데이터에 대한 수요가 폭증하는 지금, 그 어느 때보다 중요합니다. 앞으로 특히 개인정보의 보호라든가, IP 보호 등의 문제로 실제 데이터를 활용하는게 어려운 상황에서 그 중요성은 더욱 커져갈 것으로 생각합니다.

트위터 라이브러리 (Twitter Library) 🐦

LLM을 포함해서, ‘연구’를 지원할 목적으로 만들어진 AI 어시스턴트를 활용한다면, 과학 연구 수행이 훨씬 더 가속화될 수 있습니다.

오늘은 과학 연구를 위해서 고안된 10가지 AI 시스템을 알아보겠습니다:

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 팀이 읽고 있는 것들 📝

The Focus AI의 Will Schenk가 구글의 DeepResearch, 오픈AI의 GPT-4o와 o1, 마이크로소프트의 Phi-4, Claude, Perplexity, DeepSeek 등 다양한 ‘AI 리서치 도구’들을 비교해 보고 있는데요. ‘밤이 어두운 이유는 뭘까?’라는, 어찌보면 다소 철학적이기도 하고 생각보다 복잡한 질문을 던지고 그 결과가 Will 자신의 입장에서 얼마나 만족스러운지 생각해 보고 있습니다. Will은 DeepResearch가 다른 모델들보다 더 깊이있고, 신뢰할 수 있고, 참고 문헌이 잘 갖춰진 통찰력을 제공한다고 생각한다고 합니다. 여러분도 한 번 이런 비교 해 보시면 어떨까요?

구글, 애플을 거친 소프트웨어 엔지니어이자 UX 디자이너인 Ben Hylak이 o1과 관련된 자신의 경험을 풀어놓습니다. o1이 채팅을 위한 모델이 아니라 문제 해결 - 여기서는 ‘보고서 생성’이라는 표현을 썼는데요 - 을 위한 모델로, o1의 잠재력을 잘 활용하려면 사용자 입장에서 어떤 주의할 점이나 스킬을 갖춰야하는지에 대해서 기술하고 있습니다. 그리고 글의 말미에는, ‘생성형 AI 기술로 보고서 생성 서비스를 만들 때 생각해 볼 만한 UI 관점이 팁(?)이라고 할까, 그런 내용들도 포함하고 있으니 한 번 관심있는 분들 보시면 좋겠습니다.

칩 후이옌이 본인의 저서 ‘AI Engineering’의 에이전트 관련 섹션을 다시 편집하고 업데이트해서 단독 포스트 ‘Agents’를 만들었네요. 칩 후이옌 버전의 ‘Agent의 모든 것’ 정도로 생각하고 일독해 볼만한 것 같습니다.

앨런AI 연구소의 Nathan Lambert가 NeurIPS에서 했던 LLM 관련 튜토리얼을 다시 녹화한 비디오, 그리고 정리한 글인데요. 작년 후반부터 큰 이슈가 되고 있는 Post-Training 관련해서 많은 내용이 담겨 있습니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick!

Top Pick에 해당하는 논문들이 상당히 많네요 ^.^;

  • Sky-T1: Train Your Own O1 Preview Model Within $450
    이 논문은 추론과 코딩 작업을 목적으로 32B 모델을 학습시키는 과정을 통해서 ‘고성능 추론 모델의 경제성’을 보여줍니다. —> [더 보기]

  • RStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

    몬테카를로 트리 서치와 반복적인 자기 개선 (Self-Improvement) 기법을 통해서 소형 모델들이 수학적 추론에서 뛰어난 성능을 보여줄 수 있다는 걸 보여줍니다. —> [더 보기]

  • Test-time Computing: From System-1 Thinking to System-2 Thinking

    견고하게 문제를 해결하기 위해서, 직관적인 전략, 그리고 심사숙고하는 전략을 결합해서 AI의 추론 능력을 향상시키는 방법을 탐구합니다. —> [더 보기]

  • Towards System 2 Reasoning in LLMs: Learning How to Think with Meta Chain-of-Thoughts

    복잡한 문제 해결 작업에서의 추론 능력을 향상시키기 위해서, 반복적 탐색과 검증을 할 수 있는 Meta-CoT 기법을 제안합니다. —> [더 보기]

  • REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models
    PPO에서 영감을 받은 기술들을 ‘REINFORCE’ 프레임웍에 통합, RLHF를 개선했고, 이런 방법을 통해서 비평가 네트워크(Critic Network) 없이도 더 빠르고, 안정적이며, 효율적인 Alignment를 할 수 있다는 걸 보여줬습니다. —> [더 보기]

  • Cosmos World Foundation Model Platform for Physical AI
    다양한 응용 분야를 대상으로, 물리 법칙을 고려한 대규모 시뮬레이션을 통해서 로보틱스 시스템을 학습시키는 모델을 소개합니다. —> [더 보기]

추론 및 수학적 역량

  • Search-o1: Agentic Search-Enhanced Large Reasoning Models
    추론 모델을 위한 RAG을 도입, 외부 지식을 통합해서 복잡한 도메인에서 답변의 정확도를 향상시킵니다. —> [더 보기]

  • BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-Step Reasoning
    수학적 과제를 위한 단계별 추론을 개선해서, 유사성이 낮고 어려운 벤치마크에서 정확도를 크게 향상시켰습니다. —> [더 보기]

  • URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
    멀티모달 작업을 위한 CoT 추론에 중점을 두고, 수학적인 문제 해결을 위한 견고한 프레임웍을 제공합니다. —> [더 보기]

  • DOLPHIN: Closed-Loop Open-Ended Auto-Research through Thinking, Practice, and Feedback
    아이디어 생성, 검증, 개선을 통합하는 반복적 피드백 루프를 통해서 자동적인 연구 수행 과정을 혁신합니다. —> [더 보기]

Robotics and Physical AI

  • OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives
    로봇 조작을 위한 비전-언어 프레임워크를 제안하면서, 다양한 작업에서 ‘Zero-shot 일반화 (Generalization)’를 달성했습니다. —> [더 보기]

RAG (Retrieval-Augmented Generation)

  • VideoRAG: Retrieval-Augmented Generation over Video Corpus
    비디오 기반의 질문에 대한 응답 정확도를 향상시키기 위해서 시각적 검색과 텍스트 검색을 결합합니다. —> [더 보기]

  • Personalized Graph-Based Retrieval for Large Language Models enriches
    개인화된 텍스트 생성을 위해서, 사용자 중심의 지식 그래프를 통합, 검색을 수행합니다.
    —> [더 보기]

  • GeAR: Generation Augmented Retrieval
    세밀한 텍스트 단위를 찾고 검색하기 위해서 이중 인코더(Bi-Encoder) 아키텍처를 사용해서 검색과 생성을 연결합니다. —> [더 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

Avatar

or to participate

Keep Reading