FOD#57: '지능'을 어떻게 측정할 것인가

François Chollet의 ARC 프라이즈 - AGI로 가는 길을 탐색하는 상금 100만불짜리 콘테스트

금주의 Turing Post:

  • GenAI Unicorns: 서구권의 AI 스타트업과 경쟁하면서 창업 1년만에 25억불 기업가치를 달성한, 대표적인 중국 생성AI 스타트업 Moonshot AI를 소개합니다.

  • Interview with Innovators: Microsoft의 소형 언어모델 패밀리 Phi를 개발한 두 명의 주요 연구자와 대화를 나눴습니다. 인터뷰는 여기에.

"우리가 ‘지능’에 대해 이야기할 때, ‘지능’이라는 게 뭐냐라는 질문에 충분히 만족할 만한 답이 없다는 것 자체가 이 분야가 아직 성숙하지 못하다는 것의 반증이라고 생각합니다. 더 큰 문제는, 이 ‘지능’을 명확하게 정의한다거나 ‘지능’을 향해 우리가 얼마나 나아가고 있는가를 확인하고 체크하는 작업에 거의 관심들이 없다는 것이구요.”

Google의 소프트웨어 엔지니어이자 인공지능 연구자인 Francois Collet가 2019년 11월 발표한 논문 “On the Measure of Intelligence”에서 한 말인데요. 지능이라는 게 무엇인가를 우아하게 고찰한 이 논문에서 Francois는 두 가지의 대조적인 관점을 강조했습니다:

  • 심리적인 관점: 프랑스의 심리학자 Alfred Binet (IQ - 지능지수 - 를 개발한 사람입니다) 같은 인물이 좋아할 만한 이 접근은, 인지적 능력 (Cognitive Abilities)을 정량화하기 위해서 IQ와 같은 심리 측정 테스트를 기준으로 두는데, 제한된 범위 내에서의 기존 기술을 측정하는데 중점을 둡니다.

  • AI의 관점: Alan Turing이 개척했다고 볼 수 있는 이 관점은, 지능을 ‘다양한 환경에서 목표를 달성할 수 있는 능력’으로 보고 적응력 (Adaptation)과 학습 (Learning)을 강조합니다.

논문에서, Francois는 위 두 가지 관점이 모두 불완전하다고 주장하면서, ‘Skill-Acquisition Efficiency’ (‘기술 습득 효율성’ 정도로 번역하겠습니다)에 기반하여 지능을 새롭게 정의합니다:

“시스템의 ‘지능’은 선행된 작업 (Priors), 경험 (Experiences), 그리고 일반화 (Generalization)의 난이도에 연관되는 특정 범위의 작업에 대해 얼마나 효율적으로 기술을 습득하느냐 (Skill-Acquisition Efficiency)의 지표입니다.”

해당 논문에서 Francois는 AI의 일반화 (Generalization) 능력을 평가하기 위한 목적으로 만들어진 ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) 데이터셋을 소개하기도 했습니다.

그로부터 5년이 지난 2024년, ARC-AGI는 여전히 깨지지 않는 철옹성처럼 굳건히 서 있습니다. 불행하게도 AGI에 대한 논의가 ‘지능을 어떻게 바라볼 것이냐’에 대한 관점에서 그저 ‘종말론적 태도’가 지배하는 시나리오로 옮겨가 버린 것 같습니다. 다시 모두의 관심을 돌리고 이 영역의 발전을 장려하기 위해서, Francois는 Zapier의 공동창업자 Mike Knoop과 함께 100만불의 상금을 걸고 ARC 프라이즈 2024를 설립했습니다. 이 콘테스트의 목표는, 광범위한 학습 데이터가 없더라도 새로운 추론 작업을 해결할 수 있는 AI 시스템의 개발을 독려해서, 결국 AGI로 가는 길을 탐색하는 것입니다.

Twitter Library

주목할 만한 뉴스

  • Microsoft, Recall AI 출시 연기, 그리고 Copilot Pro용 GPT Builder 중단

지난 번 뉴스레터 FOD #56에서 잠깐 언급한 바 있는데요. Microsoft가 개인정보 보호 이슈 때문에 컴퓨터 사용량을 추적하는 Recall AI 기능 출시를 연기합니다. 원래는 다음 주 출시 예정이었지만, 출시 전 피드백 수집을 위해서 Windows Insider 프로그램 사용자에게만 먼저 제공된다고 합니다. 다시 한 번 Microsoft가 얼마나 보안 관련 이슈에 민감한지 알 수 있네요.

그리고, 2024년 7월 10일부터 Microsoft는 Copilot Pro 고객을 위한 GPT Builder를 중단하고 사적으로 만들어진 모든 커스텀 챗봇을 삭제한다고 합니다.

  • Mistral의 주요 펀딩 일정

창업한지 이제 겨우 1년 남짓인 프랑스 AI 스타트업 Mistral이 62억불 기업가치로 6억 4,500만불의 투자를 유치했습니다. 오픈소스 진영의 보루 중 하나로 평가받는 이 회사는, OpenAI나 Anthropic 같은 회사의 대항마이기도 하지만 동시에 Microsoft로부터 투자를 받기도 했습니다. Turing Post에서 실었던 Mistral 분석 기사 “Mistral’s Bold Journey” (영문)도 한 번 보시면 좋겠습니다.

  • Apple, PCC (Private Cloud Computing) 도입, 그리고 OpenAI와 무료 계약 체결

Apple은 항상 자사가 얼마나 보안을 중요시하는지 강조하는 회사죠. 지난 주에는 Private하게 AI 프로세싱을 하기 위해 설계된 클라우드 인텔리전스 시스템, PCC (Private Cloud Compute)를 소개했습니다. 맞춤형 Apple 실리콘과 한층 강화된 OS로 구현된 PCC는 Apple의 디바이스 보안 모델을 클라우드로 확장해 줍니다.

ChatGPT를 Apple 디바이스에 통합하는 이 획기적인 계약이 직접적인 금전 지불 조건이 없이 체결되었다고 합니다! 대신, Apple은 자사 제품의 전반에 걸쳐서 OpenAI의 기술을 홍보한다고 하는데, 브랜드 가치를 중요하게 생각하는 Apple로서는 이게 더 큰 가치를 준다고 볼 수 있겠습니다. Apple은 소비자에게 다양한 종류의 챗봇 서비스를 제공하기 위해서 Google이나 Anthropic과도 협업을 모색하고 있다고 하네요.

  • OpenAI의 임원 채용과 매출 성장

OpenAI가 주요 임원 영입을 발표했습니다: 전 Nextdoor CEO인 Sarah Friar를 CFO로, Twitter와 Instagram에서 일했던 Kevin Weil을 CPO (최고제품책임자)로 뽑았네요.

OpenAI의 연간 매출이 주로 구독과 API 액세스에 힘입어 2023년 말 이후 34억불로 두 배 가량 증가했습니다. OpenAI의 기업가치는 약 860억불인데, 계속해서 이런저런 가십거리나 뉴스가 들리기는 하지만 역시 제품이 확실하니 성과를 거두고 있네요.

  • 삼성, AI 혁신을 선보이다

삼성전자는 2-나노 및 4-나노 공정 노드와 통합된 삼성의 AI 솔루션을 공개하면서 파운드리 산업을 한 단계 더 발전시킨 모습을 보여주었습니다. 삼성의 이 혁신은 고성능, 저전력 반도체로 TSMC와 성공적으로 경쟁하는 것을 목표로 합니다.

  • Luma, Dream Machine의 실망스러운 성능

아직까지는 Luma AI의 Dream Machine (비디오 생성 AI)은 그다지 좋은 인상을 주지 못하는 것 같습니다. 무료이기는 하지만, 큰 쓸모는 없어 보입니다. 영상을 한 번 보시죠:

Turing Post 팀이 보고 읽고 있는 것들

새로 나온, 주목할 만한 연구 논문

Top Pick

NVIDIA의 연구원들이 Nemotron-4-340B-Base, Nemotron-4-340B-Instruct, 그리고 Nemotron-4-340B-Reward로 구성된 Nemotron-4 340B 모델 패밀리를 출시했습니다. 이 모델은 ‘허용적 라이선스 (Permissive License)’에 따라 오픈 액세스로 제공되고, 다양한 벤치마크에서 경쟁력을 입증했습니다. 이 모델들은 8개의 GPU를 갖춘 단일 DGX H100 시스템에 배포하는 데 최적화되어 있고, 모델의 정렬 (Alignment)에 사용된 데이터의 98% 이상이 합성 데이터로서 고품질의 합성 데이터를 생성하는데 있어서 모델이 효과적이라는 점을 보여줍니다.

워싱턴 대학교와 앨런AI연구소의 연구원들이, 프롬프트 엔지니어링이나 시드 질문이 없이도 LLM을 위한 대규모 정렬 데이터를 생성하는 방법 MAGPIE를 개발했습니다. 정렬된 LLM의 자기회귀적 (Auto-regressive) 특성을 활용해서, 4백만개의 명령어를 생성하고 30만개의 고품질 인스턴스를 필터링했습니다. MAGPIE로 조정된 모델은 훨씬 더 큰 데이터셋으로 파인튜닝한 모델과 비슷한 성능을 보여줌으로써, 이 방법이 다양한 고품질의 명령어 데이터 생성에 효과적이라는 점을 입증했습니다.

NVIDIA 연구원들이 사람의 선호도에 잘 맞는 응답을 생성하도록 LLM을 효과적으로 가이드하는 보상 모델 훈련을 할 때 사용하는 선호도 데이터셋 (Preference Dataset)을 소개합니다. 이 데이터셋은 허용적 라이선스 (CC-BY-4.0)로 제공됩니다. 응답 쌍이 10,000개에 불과하지만 HelpSteer2는 RewardBench 기본 데이터셋을 대상으로 최고의 성능 (SOTA)을 보여줍니다. 이 데이터셋은 훈련의 효율성과 품질을 향상시켜서 오픈소스 및 독점적 모델 모두를 능가하는 보상 모델을 만들 수 있습니다.

생성AI 모델에 사용되는 프롬프트 기법에 대한 76페이지 분량의 상세 검토 보고서입니다. 학계 최고 연구소의 연구자들이 58개의 텍스트 전용, 40개의 멀티모달 프롬프트 기법으로 구성된 분류법, 그리고 33개의 프롬프트 관련 용어로 구성된 어휘집을 만들었습니다. 한 번 저장해 놓으시고 그 때 그 때 보면 좋을 것 같습니다.

벤치마크와 평가 프레임웍

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery - 26개의 하위 분야를 대상으로 컴퓨터 사이언스 분야의 LLM을 평가하기 위한 Bilingual 벤치마크를 개발, LLM의 발전을 위한 컴퓨터 사이언스 관련한 추론을 개선하는 것이 중요하다는 것을 보여줍니다. 논문 읽기 

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning - 합성 데이터를 사용해서 LLM의 시간적 추론 능력을 평가하는 벤치마크를 소개합니다. 시간적 의미론 관점에서 그리고 산술적 작업에서 모델이 나타내는 강점과 약점을 잘 보여줍니다. 논문 읽기 

LiveBench: A Challenging, Contamination-Free LLM Benchmark - 현재 최신 소스에서 자주 업데이트되는 문제들을 사용해서 테스트셋의 오염을 제거하고, 매월 진화하는 벤치마크를 통해 수학 및 코딩과 같은 다양한 작업에서 LLM을 테스트, 평가합니다. 논문 읽기 

CRAG: Comprehensive RAG Benchmark - 5개 도메인에서 RAG 시스템의 질문 답변 성능을 평가하는데, 동적이고 복잡한 사실을 적절히 잘 답변하는데 있어서 RAG 방법론의 효과, 그리고 이후의 과제를 보여줍니다. 논문 읽기 

WILDBENCH: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild는 실제의 쿼리를 활용해서 LLM을 벤치마킹하는데, 실제의 어플리케이션을 개선하기 위해서 사람이 판단할 만한 내용과 상관 관계가 높은 응답을 체계적으로 평가합니다. 논문 읽기

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning은 여행 일정 잡기라든가 캘린더 관리 같은 작업에서 LLM이 계획을 어느 정도 잘 하는지를 평가하는데, 작업의 복잡도가 증가할수록 그 성능이 크게 저하된다는 점을 확인했습니다. 논문 읽기

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus - 협업 프레임웍을 활용해서 주관적인 작업에 대한 LLM의 성능을 평가하여, 사람의 판단과 보다 잘 일치하는 일관되고 강건한 모델 랭킹 정보를 제공합니다. 논문 읽기

MCEVAL: Massively Multilingual Code Evaluation은 40개 프로그래밍 언어에 대해 코드 작업을 지원하여 기존 벤치마크의 한계를 해결하는 시도를 하는데, 오픈소스 모델과 폐쇄적 모델 (Closed-source Model)의 차이를 잘 보여줍니다. 논문 읽기

하이브리드 모델 및 특수 모델

TransNAR: Transformers Meet Neural Algorithmic Reasoners - 그래프 신경망을 사용하는 신경 알고리즘 추론기 (Reasoner)와 트랜스포머를 통합, 알고리즘의 추론 성능과 일반화 성능을 크게 개선합니다. 논문 읽기 

SAMBA: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - 선택된 상태 공간 (State Space)와 슬라이딩 윈도우 어텐션 (Sliding Window Attention)을 결합하여 메모리 리콜 및 처리량을 개선, 최대 1백만개 토큰의 시퀀서를 효율적으로 처리합니다. 논문 읽기 

TEXTGRAD: Automatic “Differentiation” via Text - 자연어 피드백을 사용하여 복잡한 AI 시스템을 최적화함으로써 프롬프트 튜닝을 하지 않고도 다양한 어플리케이션에서 Zero-shot 정확도를 향상시킵니다. 논문 읽기 

효율화 및 최적화

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization은 Multiplication을 Shift-and-Add 오퍼레이션으로 치환, 메모리와 에너지 소비를 크게 줄여 LLM 효율성을 향상시킵니다. 논문 읽기 

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters - 활성화 희소성 (Activation Sparsity)을 향상시키기 위해 새로운 dReLU 함수를 사용, LLM 추론의 효율성과 성능을 개선합니다. 논문 읽기 

PowerInfer-2: Fast Large Language Model Inference on a Smartphone은 계산 과정을 분해 (Decomposition)하고 I/O 오버헤드를 최소화하여 스마트폰에서 빠른 LLM 추론을 가능하게 합니다. 논문 읽기 

강건성 (Robustness) 및 신뢰성 (Reliability)

Large Language Model Confidence Estimation via Black-Box Access는 프롬프트의 Perturbation과 로지스틱 회귀를 활용해서 LLM 응답의 확도 (Confidence)를 추정함으로써 기존의 방법보다 뛰어난 성능과 함께 범용 확도 모델의 가능성을 제시합니다. 논문 읽기 

Merging Improves Self-Critique Against Jailbreak Attacks - ‘외부 비평가 모델’을 병합하여 자체적인 비평 기능을 개선하여 LLM의 견고성을 강화하고, 적대적 공격의 성공률을 낮춥니다. 논문 읽기 

Embedding-COrrupted (ECO) Prompts: Large Language Model Unlearning via Embedding-Corrupted Prompts는 추론 중에 Embedding Corruption을 적용하여 성능에 미치는 영향을 최소화하면서 높은 언러닝 (Unlearning) 품질을 보장하고, 이를 다양한 사이즈의 LLM에 적용할 수 있도록 합니다. 논문 읽기 

특수 어플리케이션과 테크닉

Simple and Effective Masked Diffusion Language Models는 Masked Diffusion 언어모델의 훈련을 위한 새로운 방법을 제안하여, 텍스트 생성 및 DNA 염기서열 모델링에서 최첨단 성능을 달성합니다. 논문 읽기

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus는 대규모의 다국어 및 멀티모달 문서 코퍼스를 도입하여 다양한 다국어 이미지-텍스트 작업에서 Few-shot 학습 성능을 크게 개선합니다. 논문 읽기 

Discovering Preference Optimization Algorithms with and for Large Language Models - 다양한 작업에서 SOTA를 달성하기 위해, LLM에 반복적으로 프롬프팅하고 로지스틱 및 지수 손실을 혼합하여 DiscoPOP 알고리즘을 개발합니다. 논문 읽기 

Estimating the Hallucination Rate of Generative AI - 응답의 로그 확률을 평가해서 생성AI 모델의 Hallucination을 추정함으로써 NLP 및 Generation 작업에서의 정확성을 입증할 수 있도록 합니다. 논문 읽기  

Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent “Middle” Enhancement - LLM 컨텍스트 창을 효율적으로 확장하여, 원래의 성능에 방해되지 않고서도 Long Context 성능을 크게 개선하는 CREAM을 소개합니다. 논문 읽기  

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report LLM과 Monte Carlo Tree Search를 결합하여 수학적 추론을 강화함으로써, 복잡한 문제의 해결 능력을 크게 향상시킵니다. 논문 읽기 

Cognitively Inspired Energy-Based World Models는 에너지 기반 모델 (Energy-based Models)을 활용하여 인간의 인지 과정을 모방함으로써, 컴퓨터 비전 작업에서 뛰어난 확장성을 보여주고 NLP 작업에서도 희망적인 결과를 보여줍니다. 논문 읽기 

HUSKY: A Unified, Open-Source Language Agent for Multi-Step Reasoning - 복잡한 다단계 추론을 위한 오픈소스 언어 에이전트를 설계하여, 여러 테크닉을 혼합한 추론 작업에서 이전 에이전트나 프런티어 모델 성능을 상회한다는 것을 보여줍니다. 논문 읽기 

Reply

or to participate.