• Turing Post Korea
  • Posts
  • FOD#59: 합성 데이터 (Synthetic Data)로 AI 모델 빚어내기

FOD#59: 합성 데이터 (Synthetic Data)로 AI 모델 빚어내기

+ 금주의 재미있는 소식, 그리고 주목할 만한 업계 동향과 연구

금주의 Turing Post 예고:

  • AI 101: 지식 그래프를 기반으로 더욱 정교하게 질문을 처리하고 뛰어난 응답 성능을 보여주는 GraphRAG에 대해서 알아봅니다.

  • Interview with Innovators: LLM이 코딩을 해 주는 시대, 개발자는 어떻게 AI와 공존할지, Sentry의 디렉터 일라이 후튼 (Eli Hooten)과 이야기해 봅니다.

지난 주, 합성 데이터 (Synthetic Data)를 활용하는 방법과 관련된 아주 흥미로운 논문 두 편이 나왔습니다. 첫 번째는 Cohere의 연구자들이 쓴 ‘LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives’라는 논문인데, 거대 모델을 파인튜닝할 때 어떻게 합성데이터를 활용하는지 탐색합니다. 두 번째는 Tencent AI Lab의 ‘Scaling Synthetic Data Creation with 1,000,000,000 Personas’라는 논문으로, 여기서는 다양하고 사실적인 합성 데이터를 만들기 위해 사용할 수 있는 거대한 페르소나 중심의 프레임웍을 공개하고 있습니다.

이런 접근 방식들을 ‘결합’할 수 있다면 어떨까요? ‘Active Inheritance’를 통해서 AI 모델이 유해한 표현하는 것을 줄이거나 어휘의 다양성을 높이는 등 바람직한 행동을 보이도록 유도할 수 있다는 건데, 여기에 Persona Hub의 방대하고 다양한 페르소나를 활용할 수 있다고 한 번 상상해 볼까요? 10억 개의 페르소나라는 건 정말 장난이 아니게 많은 숫자인데, 이 정도 숫자를 활용하면, 진짜 다양성을 달성하고, 윤리적으로 건전하고, 제대로 기능할 수 있는 데이터로 학습한 차세대 AI - 어쩌면 ‘새로운 AI 국가’? - 를 만들어낼 수 있을까요?

잠재력은 엄청난 것 같지 않으세요? 이 논문들을 하나로 합쳐서 생각해 보면, 단순히 AI 모델을 학습하는 것이 아니라, 데이터 자체를 정교하게 생성해서 모델을 ‘빚어내는’ 것 같은 미래가 눈에 그려지는데요. 어떻게 보면 살짝 섬뜩하기도 하죠?

물론, 세상 일이 그리 쉽나요….진지하게 고려해야 할 몇 가지 질문이 여전히 있습니다. 정교하게 생성된 데이터로 AI 모델의 행동을 의도대로 조정하는 수준까지 간다고 하면, 어떻게 또 ‘의도하지 않은’ 편견이 스며들지 않도록 보장할 수 있을까요? 10억 명의 페르소나에서 얻어낸 데이터는 정말 방대한 건데, 이런 규모의 데이터를 그럼 어떻게 윤리적으로, 효과적으로 관리할 수 있을까요? 이 소위 ‘AI 국가’가, 우리같이 편견을 가진 사람들과는 다르다는 걸 어떻게 확신할 수 있을까요?

이미 합성 데이터는 빠르게 증가하고 있는데, 우리는 여전히 위 질문에 대한 답이 없습니다. 아니 과연 저게 충분한 질문인지, 올바른 질문인지조차 잘 모르겠네요. AI 영역에서 합성 데이터에 대한 논의는 이제 막 시작 중이니, 그 엄청난 가능성과 매력을 열정적으로 쫓되 신중하게 진행해야 할 것 같습니다.

Twitter Library

오늘의 트위터 포스트도 우연히(?) Meta AI의 Yann Lecun 교수의 포스트네요.

지금 캘리포니아 주의회에서 ‘첨단 AI 시스템을 위한 안전과 보안 혁신법 (Safe and Secure Innovation for Frontier Artificial Intelligence Systems Act; SB-1047)’을 마련해서 지난 달 주 상원을 통과했고 다가오는 8월 하원 표결을 앞두고 있는데요.

이 법안이 파운데이션 모델의 개발자, 스타트업들이 추구하는 R&D 관점의 혁신을 가로막아 전세계의 인공지능 생태계를 리드하는 실리콘밸리의 경쟁력을 깎아먹고 소비자의 혜택도 저해할 것이라는 관점에서 빅테크를 포함한 실리콘밸리의 AI 업계, 학계 등에서 크게 반발하고 있습니다. Andrew Ng, Yann Lecun 교수 등은 이 법안을 거부하는 연판장을 돌리고 있고, (Dan Hendrycks에 따르면) Geoffrey Hinton 교수, Yoshua Bengio 교수 등은 찬성 쪽이라고 합니다. Dan Hendrycks가 의장으로 있는 CAIS라는 단체가 이 법안 제정을 주도하고 있는데, Dan Hendrycks는 일론 머스크가 이끄는 xAI의 ‘안전’ 고문이예요. 혹시 일론 머스크가 OpenAI나 기타 앞서나가고 있는 스타트업들, 빅테크의 속도를 늦추기 위한 미봉책으로 뒤에서 힘을 발휘한 걸까요…? 그냥 한낱 수준낮은 음모론일 뿐이겠죠.

AI에 대한 규제는 신속하지만 신중하게, 소비자의 안전을 우선하되 혁신을 오히려 더 가속화하는 방향으로 이루어져야 한다고 생각합니다.

주목할 만한 업계 동향

  • AI, 과연 ‘돈’이 되는가

많은 사람들이 세콰이어 캐피탈 (Sequoia Capital)이 내놓은 ‘AI’s 600 billion bubble’ 관련 보고서에 대해 의견을 내고 있네요. 골드만 삭스 (Goldman Sachs)의 매크로 리서치 ‘GenAI: too much spend, too little benefit’도 이 논의에 불씨를 지피고 있습니다.

  • 앤쓰로픽 (Anthropic), ‘AI 안전’ 키워드로 치고 나가나

앤쓰로픽은 ‘안전한 AI (AI Safety)’ 수준 평가와 ‘AI의 고급 기능’ 측정에 초점을 맞춰서 최첨단 AI 모델을 평가하는 제 3자 외부 업체들에 자금 지원을 진행하는데, 많은 사업자들의 지원을 기다리고 있습니다. ‘안전’ 영역이 AI 사업자들이 경쟁을 펼칠 새로운 전장이 될까요?

챗봇의 트렌드세터인 캐릭터 AI는 점점 경쟁이 치열해지는 가운데 구글, 메타와 동시에 썸을 타고 있습니다. 한 때, 기발해 보이는 대화 능력을 보여주면서 사랑받았던 이 챗봇은 이제 경쟁에서 살아남기 위해서 파트너십을 고민하면서 컨텐츠 관련 논란을 헤쳐나가는 중입니다.

  • 애플(Apple)의 AI 모험

애플은 오픈AI와 협력 관계를 만들어가면서 오픈AI의 이사회에 옵저버 자리를 확보했습니다. 필 쉴러 (Phil Schiller)가 양사의 파트너십을 총괄, 챗GPT를 애플 기기에 잘 통합하고 시리의 스마트 기능을 강화하는 것을 목표로 하고 있습니다.

(7.11 추가) 7.10 뉴스에 따르면, 애플이 미국과 유럽 규제기관의 ‘AI 분야 독점적 우위’에 대한 조사를 우려, 오픈AI 이사회에 참여하지 않을 것으로 알려지고 있습니다.

  • 스태빌리티 AI (Stability AI)의 모델 가중치 공개

스태빌리티 AI는 새로운 커뮤니티 라이선스에 따라서 Hugging Face에 Stable Diffusion 3 Medium 모델의 가중치를 공개했습니다. 소규모 기업과 연구자들은 무료로 사용할 수 있고, 대형 사업자는 기업용 라이선스를 구매해야 합니다.

  • 상하이에서 열린 WAIC (세계 인공지능 컨퍼런스)

미국의 지속적인 규제에도 불구하고, 중국 AI 기업들은 계속해서 시장의 선두주자들과 가열찬 경쟁을 벌이고 있는데요. ‘제재’가 혁신을 촉진하는 계기가 되는 것인지, 어쨌든 중국 기업들은 자사 경쟁력을 유지하기 위한 방안들을 계속해서 고안해 내고 있는 것으로 보입니다. WAIC에서 센스타임 (SenseTime)은 SenseNova 5.5를 공개하면서 이 모델이 주요 지표에서 GPT-4보다 뛰어난 성능을 발휘한다고 주장했습니다. 알리바바는 2,000만건 이상의 다운로드를 기록한 Tongyi Qianwen 모델의 사용자 증가 추세를 강조하기도 했구요. 두 회사 모두 AI 영역의 치열한 중국 내 경쟁 속에서도 오픈소스 개발에 대한 노력을 강조하고 있습니다.

아시다시피, 일론 머스크는 중국을 자주 방문하는데요. 테슬라의 옵티머스 휴머노이드 로봇이 큰 화제를 모았습니다 (유리벽 뒤에 전시된 것일 뿐이지만). 이 외에도 18개의 중국 로봇 회사가 고비용, 그리고 미국의 기술 규제를 창의적인 방법으로 극복한 로봇들을 선보였습니다.

클라우드 컴퓨팅, AI 어플리케이션 개발 같은 분야를 중심으로, 중국 기업이 미국이 기술에 대한 제재를 극복하고 어떻게 혁신할 것인가에 대한 논의가 집중적으로 이루어졌습니다.

  • Kyutai의 음성 인터페이스 혁명

Kyutai는 단 8명으로 구성된 팀이 딱 6개월 만에 개발한, 최초의 공개된 음성지원 AI, Moshi를 선보였습니다. 파리에서 시연한 Moshi의 코드와 모델 가중치는 누구에게나 무료로 제공되어서, AI 학계와 업계의 협업을 더 가속화할 것으로 보입니다. 다양한 반응이 있었지만, Hugging Face의 CTO 줄리앙 쇼몽 (Julien Chaumond)의 반응이 제일 재미있네요 ㅎㅎ

살펴볼 만한 다른 뉴스레터 포스팅

새로 나온, 주목할 만한 연구 논문

최적화와 성능 개선

  • MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention - Dynamic Sparse Attention을 활용해서 Long Context LLM의 Pre-filling 단계를 가속화, 정확도를 유지하면서 추론의 Latency를 크게 줄입니다. 논문 보기

  • AGENTLESS: Demystifying LLM-based Software Engineering Agents는 로컬라이제이션과 복구, 이 2단계 프로세스를 통해 LLM 소프트웨어 개발을 간소화하여 성능이 높으면서도 비용은 적게 드는 개발을 할 수 있게 합니다.
    논문 보기

  • RouteLLM: Learning to Route LLMs with Preference Data - Data Augmentation 및 사람의 선호도 데이터를 이용해서 응답의 품질을 유지하면서 강력한 LLM과 약한 LLM을 동적으로 비용 효과적으로 선택할 수 있게 함으로써 비용을 절감하는 방법을 제안합니다. 논문 보기

  • LiteSearch: Efficacious Tree Search for LLM은 새로운 트리 검색 알고리즘을 개발, 수학적 추론 작업에서 LLM의 성능을 개선하고 계산 비용을 줄이면서 경쟁력 있는 성능을 유지하도록 해 줍니다. 논문 보기

  • Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models - MoE (Misture-of-Experts) 아키텍처를 대상으로 한 ESFT(Expert-Specialized Fine-Tuning)를 제안하여 작업에 가장 관련성이 높은 Expert만 파인튜닝하는 방식으로 파인튜닝의 효율성과 성능을 개선합니다. 논문 보기

벤치마크 및 평가

  • TabReD: A Benchmark of Tabular Machine Learning in-the-Wild
    시간적 분할이 되어있는 테이블 데이터셋을 위한 벤치마크 모음을 제공해서, 다양한 모델 아키텍처의 성능, 그리고 시간적 분할의 영향을 보여줍니다. 논문 보기

  • Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems - 정확한 인용, 포괄적인 커버리지라는 관점에서 모델의 한계를 보여주면서, Long-Context를 요약하는 LLM과 RAG 시스템을 평가하기 위한 SummHay 태스크를 제안합니다. 논문 보기

  • MIRAI: Evaluating LLM Agents for Event Forecasting - 고도화된 시간적 추론의 필요성을 강조하면서, GDELT 이벤트 데이터베이스를 사용하여 International Events를 예측하는 LLM 에이전트의 역량을 평가하는 벤치마크를 개발하고 있습니다. 논문 보기

  • WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? - LLM의 시각적 수학적 추론 평가 벤치마크를 소개하면서, 부족한 지식 때문에 LLM이 시각적 수학적 추론에서 아직 충분히 좋은 결과를 보여주지 못하고 있음을 보여줍니다. 논문 보기

콘텐츠 규제, 얼라인먼트 (Alignment) 및 안전

  • UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI - 언러닝은 ICL (In-Context Learning)을 통해서 제거된 지식을 다시 집어넣는 것까지 방지하지는 못한다는 점을 보여주고, 강력한 콘텐츠 필터링 메커니즘의 필요성을 강조합니다. 논문 보기

  • ProgressGym: Alignment with a Millennium of Moral Progress 는 역사적 텍스트와 LLM을 사용하여 인류의 도덕적 진보 방향과 LLM의 Alignment를 맞추는 프레임웍을 소개하고, 진화 발전하는 가치를 추적하고 AI의 가치 종속 위험 (한 시점의 가치에 고정되는 위험)을 해결할 수 있는 벤치마크를 제공합니다. 논문 보기

  • Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks 는 유해한 지식을 아예 학습하지 않는 방법으로 탈옥 (Jailbreak) 공격을 방어하는 방법을 제안, 공격 성공률을 크게 낮추고 일반화 가능성을 유의미하게 입증합니다. 논문 보기

  • A False Sense of Safety: Unsafe Information Leakage in ‘Safe’ AI Responses - 현재 AI 안전 조치의 한계를 살펴보고, 안전해 보이는 결과물을 악용하는 '추론적 공격자 (Inferential Adversaries)'의 개념을 소개하고 새로운 방어 메커니즘의 필요성을 강조합니다. 논문 보기

  • Self-Evaluation as a Defense Against Adversarial Attacks on LLMs - 자체적인 평가를 통해 방어 메커니즘을 개발하여 공격 성공률을 낮추고, 기존 방어 성능을 능가하면서도 적응형 공격에도 견고하게 대응하는 방법을 제안합니다.
    논문 보기

멀티모달 모델과 어플리케이션

  • 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities는 20개 이상의 다양한 모달리티에 대해 비전 모델을 학습시켜서, 성능 저하 없이 광범위한 작업을 수행할 수 있도록 멀티모달 생성 및 검색 능력을 향상시켜 줍니다. 논문 보기

  • Understanding alignment in multimodal LLMs: a comprehensive study - 이미지 콘텐츠에 대한 멀티모달 LLM의 Alignment를 탐색하고, BDHS (Bias-Driven Hallucination Sampling)을 제안하며, 오프라인과 온라인 방법론을 결합하는 것의 이점을 강조합니다. 논문 보기

  • ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning은 LLM을 로봇 운영 체제(ROS)와 통합하여 직관적인 로봇 프로그래밍을 용이하게 하고 피드백을 통합하여 작업을 개선하고 견고성과 확장성을 입증합니다. 논문 보기

  • STARK: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge - 다양한 소셜 페르소나와 이미지가 포함된 대규모 멀티모달 대화 데이터 세트를 도입하여 시각적 상상력이 뛰어난 고급 대화 모델을 만들 수 있습니다. 논문 보기

새로운 기술적 접근방법 및 새로운 모델

  • Chain-of-knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs는 지식 그래프와 Trial-and-Error 메커니즘을 사용해서 LLM의 지식 추론 능력을 향상시키고 Rule Overfitting 문제를 해결합니다. 논문 보기 

  • Learning to (Learn at Test Time): RNNs with Expressive Hidden States - 테스트 시퀀스 중에도 숨겨진 상태를 업데이트하는 TTT(테스트 시간 훈련) 레이어를 제안하여, Long-Context 시나리오에서 트랜스포머 및 최신 RNN 베이스라인보다 우수한 성능을 보여줍니다. 논문 보기

  • E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS는 단순한 아키텍처의 Non-autoregressive Zero-shot TTS 시스템을 도입해서 사람 수준의 자연스러움과 최첨단 화자 유사도 (Speaker Similarity) 및 명료도 (Intelligibility)를 구현합니다. 논문 보기

Long Context와 검색 성능

  • Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP는 입력의 길이만 가지고 Long-Context NLP 작업을 정의하는 것은 충분하지 않다고 주장하며, 진짜 어렵고 복잡한 Long-Context 시나리오에서 LLM 기능을 더 잘 평가하고 개발할 수 있는 분류법을 제안합니다. 논문 보기

  • Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER - 정의, 가이드라인 등이 포함된 풍부한 프롬프트로 인스트럭션 튜닝을 함으로써, NER 태스크에서 이전에 없었던 엔티티 유형이 등장해도 잘 일반화할 수 있도록 모델의 능력을 크게 향상시킵니다. 논문 보기

새로운 컨셉의 아키텍처와 기술

  • Consistency Flow Matching: Defining Straight Flows with Velocity Consistency 는 Velocity 필드에 Self-Consistency를 적용하여 생성형 모델의 Flow Matching을 개선하고 트레이닝 효율성과 샘플 품질을 향상시킵니다.
    논문 보기

  • DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning - 문제를 논리적 하위 작업으로 분해하고 자체 수정 기능을 통합하여 강력한 일반화 기능을 보여줌으로써, 복잡한 수학 작업에서 LLM 성능을 향상시킵니다. 논문 보기

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.