Turing Post Korea
Posts
FOD#58: AI의 미래는 '멀티모달 (Multimodal)' 시스템일까?

FOD#58: AI의 미래는 '멀티모달 (Multimodal)' 시스템일까?

+ 금주의 재미있는 소식, 그리고 주목할 만한 업계 동향과 연구

Ksenia Se & Ben Eum
July 03, 2024

금주의 Turing Post 예고:

AI 101: Transformer의 대항마 중 하나로 평가되는 Mamba, 그리고 Mamba의 근간인 State Space Model (SSM; 상태공간모델)에 대해서 알아봅니다.
GenAI Unicorns: Elon Musk가 창립한 회사이자 Grok AI의 개발사, xAI는 어떤 회사일까요?

‘AI의 미래는 멀티모달일까?’에 대해서 단답형으로 답을 하자면 당연히 ‘예’일 거라는 건 모두 짐작하실 겁니다. 우리의 여러 감각들은 그 모두가 다 우리가 쌓아가는 지식의 기초라고 할 수 있습니다. 우리 모두는 시각, 청각, 촉각, 미각, 후각을 통해서 세상과 상호작용하고 학습을 계속합니다. 이런 여러 감각을 통한 ‘입력값’이 사람들로 하여금 주변 환경을 탐색하고 생존할 수 있게 해 줄 뿐 아니라, 지적/인지적 발달에도 중요한 역할을 하게 됩니다.

다양한 생명체들이 폭발적으로 등장했던 것으로 알려진 ‘캄브리아기 대폭발 (Cambrian Explosion)을 한 번 생각해 보죠. 동물학자인 Andrew Parker가 말했던 것처럼, 이 캄브리아기에 나타난 초기 동물들이 ‘시각’이라는 감각을 갖게 된 것이 그 이후 해당 종의 급격한 발달에 매우 중요한 촉매 역할을 했다고 합니다. ‘볼 수 있다’는 것이 완전히, 그 전과는 다른 새로운 정보의 세계로 통하는 문을 열었고, 그 이후 사냥이라든가 천적의 회피, 그리고 전반적인 생존 전략에 엄청난 발전을 이끌게 된 것이죠. 비슷하게, 우리 인간의 감각들도 새로운 지식을 학습하는 통로 역할을 하고, 다시 이 학습이 정보의 수집, 연관 관계 파악, 그리고 기존 지식과의 연계 등을 가능하게 하는 겁니다. ‘감각적 경험’과 ‘학습’ 간의 이런 상호작용은 생물들의 세계에만 있는 것은 아닌 것 같습니다 - AI의 세계에서도 ‘다중의 감각으로부터 오는 입력 (Multi-sensory Input)’을 언어모델에 통합하는 것이 점점 중요해지고 있습니다.

“Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs” 논문으로 한 번 빠져들어가 볼까요? 이 논문에서는 멀티모달 LLM 개발을 할 때 시각 (Vision) 중심으로 접근하는 것이 얼마나 중요한지를 강조하고 있습니다. 다양한 언어모델들이 등장하면서 아주 빠르게 스케일을 확장해 왔지만, 시각 컴포넌트를 어떻게 설계하는 것이 좋은지에 대해서는 그렇게 깊이 검토하지 않은 경우도 많습니다. Cambrian-1은 이 격차를 해결하기 위해서, 언어 기반의 지도학습 모델인 CLIP이나 자기 지도학습을 활용한 DINO에 이르기까지 다양한 MLLM (Multimodal LLM)의 시각적 Representation을 체계적으로 평가합니다.

Cambrian-1에서 소개한 핵심적인 아이디어는, SVA (Spatial Vision Aggregator: 공간 비전 어그리게이터)라고 할 수 있는데, 이것은 고해상도의 시각적 특징 (High-resolution Vision Features)을 언어모델과 통합하는 동시에 토큰 수는 줄여주는, 동적인 공간 인지 커넥터 (Spatially-aware Connector)라고, 다소 어렵지만, 표현할 수 있겠습니다 (좀 더 기술적인 이해를 위해서라면 Turing Post의 다른 포스트, What is Spatial Intelligence를 참고해 보시면 좋겠습니다). 이 개념을 통해서 시각 정보를 더 효율적으로 처리할 수 있고 상세한 이미지를 이해해야 하는 작업의 성능도 향상시킬 수 있습니다.

MLLM의 활용 범위는 단순한 이미지 캡셔이나 시각적인 질문과 답변을 훨씬 뛰어넘습니다. 이런 시스템은 특정한 장면에 대해서 복잡한 추론을 할 수 있고, 차트나 다이어그램을 해석하고, 시각적으로 (언어가 아니라) 제시된 수학 문제까지 풀 수 있습니다. 예를 들어, 의료 분야에서 MLLM은 의료 이미지나 환자 기록 등을 모두 분석해서 더 포괄적이고 정확한 진단과 의견을 제시할 수 있습니다.

결국, AI의 미래는 ‘우리가 살아가는, 실제의 복잡한 세상을 이해할 수 있는’ 시스템을 만드는데 있을 겁니다. MLLM은 언어, 그리고 시각 사이의 간극을 메워줌으로써, 세상을 조금은 더 인간처럼 보고, 이해하고, 소통할 있는 AI 시스템에 더 가까이 다가갈 수 있도록 해 줄 것입니다.

“Cambrian-1” 논문 저자들은 멀티모달 시스템과 시각적 Representation 학습이 빠르게 발전할 수 있도록, 논문 내 모델 가중치, 코드, 데이터셋, 지원 도구 및 상세한 Instruction-tuning과 평가 방법을 제공하고 있습니다.

웹사이트: https://cambrian-mllm.github.io
코드: https://github.com/cambrian-mllm/cambrian
모델: https://huggingface.co/nyu-visionix/
데이터: https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench: https://huggingface.co/datasets/nyu-visionx/CV-Bench
평가: https://github.com/cambrian-mllm/cambrian

Twitter Library

오늘의 트위터 포스트는 Meta AI의 Yann Lecun 교수의 포스트인데요. Yann Lecun 교수가 이끄는 Meta AI에서는 AGI로 가는 길 중 하나로, Transformer와는 다른 관점으로 설계된 JEPA (Joint Embedding Predictive Architecture)를 발표한 바 있습니다.

Turing Post에서 AI 101 시리즈의 제 4편으로 JEPA를 다루었는데, Yann Lecun 교수님이 ‘JEPA에 대해 설명한 아주 훌륭한 글’이라고 트위터에 직접 포스팅을 해 주셨네요!

Excellent blog post from Turing Post on JEPA (Joint Embedding Predictive Architecture), my favorite meta-architecture for Self-Supervised Learning of continuous data, such as images, video, and audio.
The post includes a list of relevant papers from my collaborators and me, as… x.com/i/web/status/1…
— Yann LeCun (@ylecun)
8:46 AM • Jun 28, 2024

튜링포스트 코리아에서도 곧 이 JEPA에 대한 AI 101 시리즈를 작업해서 구독자 분들께 보내드릴 예정입니다.

주목할 만한 업계 동향

Microsoft, 그리고 스켈레톤 키 (Skeleton Key)

Microsoft가 멀티턴 (Multi-turn) 전략으로 AI 모델의 가드레일을 우회하여 유해한 컨텐츠를 생성해 내도록 할 수 있는 새로운 탈옥 (Jailbreaking) 기법, 스켈레톤 키를 발견했다고 합니다. 이 공격은 다양한 생성AI 모델에 영향을 미치는데요, Microsoft는 이런 공격을 탐지, 차단하기 위해서 Prompt Shields라든가 Azure AI Content Safety와 같은 기능을 구현했습니다. 개발자들에게는 입력/출력 필터링, 악용/남용을 모니터링하는 활동 등을 권고하고 있구요. Microsoft의 이 연구 내용은 광범위한 업계의 위험 완화 노력을 권장하기 위해서 많은 AI 개발사들과 공유되었습니다.

Hugging Face와 새로운 LLM 리더보드

Hugging Face가 수많은 LLM들에 대해서 다양한 벤치마크를 다시 한 번 새롭게 수행, 평가한 리더보드를 공개했습니다. 몇 가지 느낀 점들 중, 중국계 오픈 모델들이 약진하고 있다는 것과 LLM 개발사들이 여러 벤치마크들 중 핵심적이고 중요한 벤치마크에서 높은 점수를 받도록 모델을 튜닝하는데 집중하고 있다는 것 - 이건 확실히 걱정되는 부분입니다 - 이 눈에 들어오네요.

Pumped to announce the brand new open LLM leaderboard. We burned 300 H100 to re-run new evaluations like MMLU-pro for all major open LLMs!
Some learning:
- Qwen 72B is the king and Chinese open models are dominating overall
- Previous evaluations have become too easy for recent… x.com/i/web/status/1…
— clem 🤗 (@ClementDelangue)
3:42 PM • Jun 26, 2024

LangChain: LangGraph v0.1 + LangGraph Cloud = 확장성있고 안정적인 에이전트 배포 (Deployment)

LangGraph v0.1은 생성AI 기반의 에이전트 어플리케이션을 구축하기 위한 정밀한 컨트롤 기능을 제공하고, 현재 베타 버전인 LangGraph Cloud는 Fault-tolerant 인프라스트럭쳐를 제공합니다. Klarna 또는 Replit 같은 회사들은 이미 이런 도구들을 사용해서 자사의 AI 과제를 효과적으로 추진하고 있는 것으로 알려져 있는데요. LangGraph Cloud는 통합 모니터링, 간소화된 배포 기능도 제공한다고 하네요.

Adept를 거의 삼켜버릴 듯한 Amazon

Amazon은 기업용 워크플로우 자동화 전문 스타트업인 Adept의 임원들을 영입하면서 자사의 AI 역량을 강화하고 있는데요. Adept의 공동창업자이나 CEO인 David Luan과 그의 팀이 Rohit Prasad가 이끄는 Amazon의 AGI 부서에 합류 예정이라고 합니다. Adept는 독립적으로 계속 운영되고, Amazon은 Adept의 일부 기술에 대한 라이선스를 제공할 예정입니다.

Google Deepmind, Gemma 2 출시

Google의 고성능 AI 모델이 이제 9B, 27B 파라미터 사이즈로도 제공됩니다. 이 모델은 단일 NVIDIA H100 GPU에서도 뛰어난 성능과 효율성을 자랑합니다. Gemma2는 주요 AI 프레임웍과 쉽게 통합할 수 있고 예산에 맞춰 다양하게 배포할 수 있습니다. 연구자들은 Kaggle (무료) 또는 Colab 노트북 (Cloud Service의 Academic Credit)을 통해서 Gemma 2에 액세스할 수 있습니다.

Imbue의 ‘70B 파라미터 모델의 트레이닝 과정 공유’

AI 스타트업 Imbue의 70B 모델은 추론 작업의 경우 GPT-4보다 뛰어난 성능을 보여줍니다. Imbue의 기술진이 이 70B 파라미터 사이즈의 모델을 트레이닝하면서 경험한 인프라 셋업 과정, 진행 상태 점검을 위한 스크립트 등을 공유해 주었습니다. 이 경험에서 특히 재현성 (Reproducibility), 자동화된 솔루션, 인프라에 대한 깊은 이해, 그리고 이 작업에 열정과 관심을 가진 팀 등의 중요성을 강조하네요.

Anthropic, Claud Projects와 ‘Build with Claude’ 콘테스트 소개

Pro 및 Team 사용자는 이제 채팅 내용을 정리하고 지식을 효과적으로 공유할 수 있습니다. Projects는 문서를 포괄적으로 통합할 수 있도록 200K의 Context Window를 포함하고, Custom Instruction, Artifacts 같은 기능으로 생산성을 향상시킬 수 있다고 합니다.

Anthropic의 ‘Build with Claude’ 콘테스트는 개발자들이 Claude API를 활용해서 혁신적인 프로젝트를 만들게 하기 위해 고안되었습니다. 이 해커톤은 2024년 6월 26일부터 7월 10일까지 진행되고, 상위 3개 프로젝트에는 10,000불의 API 크레딧이 수여됩니다.

Dario Amodei의 Time 인터뷰도 한 번 읽어보세요.

Stability AI의 새로운 CEO

Prem Akkaraju가 Stability AI의 새로운 CEO가 되었습니다. 그리고 Sean Parker를 필두로 한 투자자 그룹으로부터 긴급 구제금융을 받았네요. 이번에 실시한 자본 확충으로 아마도 기존 투자자들의 지분은 줄어들 가능성이 큽니다.

Baidu와 업그레이드된 Ernie 4.0

현재 3억 명의 사용자를 보유한 Ernie 4.0 Turbo AI 모델은 일단 중국 내에서의 경쟁력 유지를 목표로 하고 있습니다. 동시에 Baidu는 PaddlePaddle AI 생태계를 강화해 왔는데요. OpenAI가 중국 내에서 자사 API를 차단하는 방침에 대응하여, Baidu와 다른 중국 내 AI 사업자들은 이에 영향을 받을 사용자들을 마이그레이션하는 서비스를 제공하고 있습니다.

선도적인 AI 연구자들의 다양한 생각과 접근 방식

OpenAI를 떠난 Ilya Sutskever가 Safe Superintelligence, Inc.를 설립하고 SSI (Safe Super Intelligence; 안전한 초지능)를 구축하겠다는 기치를 내걸 동안, Andrej Karpathy는 Github에서 재미있는 시도를 하고 있습니다 - Github - karpathy/LLM101n: LLM101n: Let’s build a Storyteller. 이 프로젝트는 Python, C, CUDA를 이용해서 Storyteller AI LLM을 처음부터 만드는 방법을 알려주는 강좌입니다. 이렇게 실제로 한 번 만들어보는 과정을 거친다면 AI의 장점과 위험을 더 잘 이해할 수도 있을 것 같습니다.

Turing Post 팀이 보고 있는 것들

AI Anake Oil의 ‘AI 확장성의 신화’
Gradient Flow의 ‘왜 당신의 생성AI 프로젝트는 실패하는가’
Devansh가 선정한 ‘AI, 소프트웨어, 비즈니스, 기술 영역의 흥미로운 컨텐츠’
Nathan Lambert의 RLHF 라운드업
Stratechery의 Marques Brownlee (MKBHD) 인터뷰, ‘유튜브 스타가 된다는 것’

새로 나온, 주목할 만한 연구 논문

Top Pick

LLM Critics Help Catch LLM Bugs - OpenAI 연구원들이 RLHF를 통해 훈련된 LLM Critic, CriticGPT를 개발했는데, 버그를 찾아내고 정확한 피드백을 제공하는 데 있어 사람보다 뛰어난 성능을 보였다고 합니다. 테스트 결과, CriticGPT는 63%에 해당하는 케이스에서 사람보다 더 많은 오류를 감지해 냈습니다. 사람이 하는 리뷰와 결합해서 전반적인 신뢰성을 높이고 오류를 줄일 수 있었다고 합니다.
Meta Large Language Model Compiler: Foundation Models of Compiler Optimization - Meta AI는 코드를 더 잘 최적화하게 하는 LLM Compiler 모델 제품군을 공개했습니다. LLVM-IR 및 어셈블리 코드에 대해 광범위한 학습을 거친 이 모델은, 컴파일러 최적화를 예측하고 개선합니다. 다양한 모델 크기로 제공되는 LLM Compiler는 컴파일러 R&D에서 중추적인 역할을 합니다. Mark Zuckerberg의 최근 인터뷰도 한 번 살펴보세요.

WARP: On the Benefits of Weight Averaged Rewarded Policies - Google Deepmind의 WARP는 가중 평균법을 사용해서 LLM을 병합해서 RLHF를 개선하고, 지식의 망각이라든가 보상 해킹 등의 공통적으로 나타나는 문제를 해결합니다. 이 방법은 사람의 선호도에 더 잘 맞도록 보상 최적화의 균형을 맞춤으로써 실제 세계에서의 어플리케이션에 적용할 수 있는 가능성을 보여줍니다.
Can LLMs Learn by Teaching? A Preliminary Study - 이 논문은 ‘Student’와의 상호작용으로부터 오는 피드백을 기반으로 한 학습으로 LLM이 스스로 개선을 할 수 있는지 실험합니다. 실험의 결과, 모델의 정확도와 기능이 눈에 띄게 향상되는 것을 보여, LLM이 사람의 데이터로부터 독립적으로 학습할 수 있는 실질적인 가능성을 제시합니다.
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale - Hugging Face에서 고급 필터링과 중복 제거의 과정을 거쳐서 LLM 트레이닝을 하기에 최적화되어 있는, 웹 크롤 데이터에서 파생된 방대한 데이터셋, FineWeb을 소개했습니다. 이 데이터셋의 하위 집합인 FineWeb-Edu는 특히 교육 관련 벤치마크에서 좋은 성능을 내도록 도와주는데, 이와 관련된 모든 자료를 공개해 놓았기 때문에 이후 LLM 연구에 활용 가능합니다.

최적화와 개선 기술

STEP-DPO: Step-Wise Preference Optimization for Long-Chain Reasoning of LLMs – 수학적 추론 작업에서 각 추론 단계를 개별적으로 최적화하여 MATH에서 모델 정확도를 3% 가까이 향상시키는 것을 보여주었고, 여러 비공개 모델보다 뛰어난 성능을 발휘합니다.
Adam-mini: Use Fewer Learning Rates To Gain More – 메모리 사용량을 45~50% 줄이면서 AdamW의 성능과 비슷하거나 능가하는 최적화 프로그램을 도입, 리소스가 제한된 환경에서 효율성과 처리량을 개선합니다.
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs – 전체 Wikipedia 문서를 더 작은 단위로 처리하여 RAG의 불균형을 해결하고, 오픈 도메인 QA의 검색 점수와 성능을 개선합니다.
Unlocking Continual Learning Abilities in Language Models – 리허설과 태스크 레이블이 필요 없는 MIGU를 제안하여 언어모델에서 파괴적 망각 (Catastrophic Forgetting)을 방지하고 지속적인 파인튜닝 및 사전 훈련 성과를 향상시킵니다.
Confidence Regulation Neurons in Language Models – 출력의 확도를 조절하는 '엔트로피 뉴런'과 토큰 빈도에 따라 토큰 로그를 조정하는 '토큰 빈도 뉴런'을 식별, LLM이 토큰 예측의 불확실성을 처리하는 방법을 살펴봅니다.

벤치마크 및 평가

LiveBench: A Challenging, Contamination-Free LLM Benchmark – 테스트셋 오염을 방지할 목적으로 자주 업데이트되는 LLM용 벤치마크를 개발, 객관적인 실측 점수로 다양한 작업을 평가합니다.
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions – 139개의 라이브러리로부터 다양한 Function Call이 필요한 까다로운 프로그래밍 작업을 대상으로 LLM을 평가하고, 코드 생성 LLM이 추가적으로 어떤 방향으로 발전이 필요한지 기술합니다.
LongIns: A Challenging Long-context Instruction-based Exam for Large Language Models – Long Context에 대한 LLM의 이해력을 평가하여, 최고 성능을 보이는 모델들이라 하더라도 긴 시퀀스를 다루는데 어려움이 있을 뿐 아니라 16K Context Length에서도 성능이 저하될 수 있다는 점을 확인합니다.
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? – 여러 분야에 걸쳐 AI 모델의 ‘지능’을 평가하는 벤치마크를 소개하며, 초지능을 달성하기 위한 추가 발전의 필요성을 강조합니다.
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs – 멀티모달 LLM의 차트 이해도를 평가, 사람의 수준과 비교하여 차트 이해 능력에 상당한 개선의 여지가 있음을 보여줍니다.
Benchmarking Mental State Representations in Language Models – 다양한 언어모델이 Mental State를 표현하는 능력을 확인, 평가하고, 더 대형 모델 및 Instruction-tuning 또는 RLHF로 파인튜닝된 모델이 더 나은 성능을 나타낸다는 것을 보여줍니다.

데이터 생성 및 개선

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data – 합성 데이터셋으로 모델을 파인튜닝함으로써 Long Context 입력에 대한 LLM의 검색 및 추론 능력을 향상시키고, 이렇게 해서 다른 방법에서 발각되는 환각 (Hallucination) 문제를 완화합니다.
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets – 신뢰할 수 있는 Function Call 데이터셋을 만들기 위한 데이터 생성 파이프라인을 도입, Berkeley Function-Calling Benchmark에서 SOTA 수준의 성능을 달성합니다.
Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts – LLM을 사용하여 정보 검색 대화 데이터 세트를 생성하는 반자동적인 접근 방식을 개발, 응답 품질을 개선하고 여기에 드는 시간과 노력을 줄일 수 있다는 것을 보여줍니다.

문화적, 윤리적 고려사항

How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions – 이 논문은 LLM이 각국의 문화적 가치에 맞게 조언을 제공하는지 평가하고, 문화적 차이에 대한 감수성을 보장하기 위해 더 나은 방식의 LLM 훈련이 필요하다는 것을 강조합니다.
Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges – Judge로서의 다양한 LLM의 성능과 편견(Bias)를 평가, 더 정확한 평가를 하기 위해 해결해야 할 문제점을 확인합니다.

새로운 기술적 접근방법 및 새로운 모델

Symbolic Learning Enables Self-Evolving Agents - 언어 에이전트가 Symbolic Network를 사용하여 스스로 최적화할 수 있는 프레임워크를 도입하여, 모델이 배포된 이후의 자율 학습 및 진화를 지원합니다.
Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model - 이 논문에서는, 언어모델을 훈련하여 인지적 지도 (Cognitive Maps)를 구축하게 되면 모델의 계획 능력이 향상되고 이는 한층 더 발전된 AI 시스템 개발에 대한 힌트를 제공한다는 것을 보여줍니다.
Segment Any Text: A Universal Approach for Robust, Efficient, and Adaptable Sentence Segmentation은 문장 부호가 누락되어 있더라도 높은 이해력을 보여주고, 새로운 영역에도 잘 적응하는, 기존 모델보다 성능이 뛰어난 고효율의 문장 분할 모델 SAT를 소개합니다.
Simulating Classroom Education with LLM-Empowered Agents에서는 전통적인 교실 내에서의 상호작용을 효과적으로 시뮬레이션함으로써 사용자 경험을 향상시키는 멀티 에이전트 Classroom Simulation 프레임웍, SimClass를 소개합니다.

안전 및 보안

WILDTEAMING at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models - 이 논문은 고유한 탈옥 전술 (Jailbreak Tactics) 전술을 찾아내고 구성하는 자동화된 Red-teaming 프레임웍을 도입하여, 적대적 쿼리에 대한 LLM의 강건성을 강화합니다.
AUTODETECT: Towards a Unified Framework for Automated Weakness Detection in Large Language Models - 여기서는 LLM의 약점을 체계적으로 발견하여 모델 성능을 대폭 향상시키는 세 가지 LLM 기반 에이전트가 포함된 프레임웍을 소개합니다.
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool - Context Caching과 Disaggregated Inference 성능을 향상시키기 위해 LLM 서빙 시스템을 최적화하여, 결과적으로 작업의 완료 시간과 응답 시간을 개선할 수 있는 MemServe를 소개합니다.

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.