• Turing Post Korea
  • Posts
  • FOD#58: AI의 미래는 '멀티모달 (Multimodal)' 시스템일까?

FOD#58: AI의 미래는 '멀티모달 (Multimodal)' 시스템일까?

+ 금주의 재미있는 소식, 그리고 주목할 만한 업계 동향과 연구

금주의 Turing Post 예고:

  • AI 101: Transformer의 대항마 중 하나로 평가되는 Mamba, 그리고 Mamba의 근간인 State Space Model (SSM; 상태공간모델)에 대해서 알아봅니다.

  • GenAI Unicorns: Elon Musk가 창립한 회사이자 Grok AI의 개발사, xAI는 어떤 회사일까요?

‘AI의 미래는 멀티모달일까?’에 대해서 단답형으로 답을 하자면 당연히 ‘예’일 거라는 건 모두 짐작하실 겁니다. 우리의 여러 감각들은 그 모두가 다 우리가 쌓아가는 지식의 기초라고 할 수 있습니다. 우리 모두는 시각, 청각, 촉각, 미각, 후각을 통해서 세상과 상호작용하고 학습을 계속합니다. 이런 여러 감각을 통한 ‘입력값’이 사람들로 하여금 주변 환경을 탐색하고 생존할 수 있게 해 줄 뿐 아니라, 지적/인지적 발달에도 중요한 역할을 하게 됩니다.

다양한 생명체들이 폭발적으로 등장했던 것으로 알려진 ‘캄브리아기 대폭발 (Cambrian Explosion)을 한 번 생각해 보죠. 동물학자인 Andrew Parker가 말했던 것처럼, 이 캄브리아기에 나타난 초기 동물들이 ‘시각’이라는 감각을 갖게 된 것이 그 이후 해당 종의 급격한 발달에 매우 중요한 촉매 역할을 했다고 합니다. ‘볼 수 있다’는 것이 완전히, 그 전과는 다른 새로운 정보의 세계로 통하는 문을 열었고, 그 이후 사냥이라든가 천적의 회피, 그리고 전반적인 생존 전략에 엄청난 발전을 이끌게 된 것이죠. 비슷하게, 우리 인간의 감각들도 새로운 지식을 학습하는 통로 역할을 하고, 다시 이 학습이 정보의 수집, 연관 관계 파악, 그리고 기존 지식과의 연계 등을 가능하게 하는 겁니다. ‘감각적 경험’과 ‘학습’ 간의 이런 상호작용은 생물들의 세계에만 있는 것은 아닌 것 같습니다 - AI의 세계에서도 ‘다중의 감각으로부터 오는 입력 (Multi-sensory Input)’을 언어모델에 통합하는 것이 점점 중요해지고 있습니다.

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs” 논문으로 한 번 빠져들어가 볼까요? 이 논문에서는 멀티모달 LLM 개발을 할 때 시각 (Vision) 중심으로 접근하는 것이 얼마나 중요한지를 강조하고 있습니다. 다양한 언어모델들이 등장하면서 아주 빠르게 스케일을 확장해 왔지만, 시각 컴포넌트를 어떻게 설계하는 것이 좋은지에 대해서는 그렇게 깊이 검토하지 않은 경우도 많습니다. Cambrian-1은 이 격차를 해결하기 위해서, 언어 기반의 지도학습 모델인 CLIP이나 자기 지도학습을 활용한 DINO에 이르기까지 다양한 MLLM (Multimodal LLM)의 시각적 Representation을 체계적으로 평가합니다.

Cambrian-1에서 소개한 핵심적인 아이디어는, SVA (Spatial Vision Aggregator: 공간 비전 어그리게이터)라고 할 수 있는데, 이것은 고해상도의 시각적 특징 (High-resolution Vision Features)을 언어모델과 통합하는 동시에 토큰 수는 줄여주는, 동적인 공간 인지 커넥터 (Spatially-aware Connector)라고, 다소 어렵지만, 표현할 수 있겠습니다 (좀 더 기술적인 이해를 위해서라면 Turing Post의 다른 포스트, What is Spatial Intelligence를 참고해 보시면 좋겠습니다). 이 개념을 통해서 시각 정보를 더 효율적으로 처리할 수 있고 상세한 이미지를 이해해야 하는 작업의 성능도 향상시킬 수 있습니다.

MLLM의 활용 범위는 단순한 이미지 캡셔이나 시각적인 질문과 답변을 훨씬 뛰어넘습니다. 이런 시스템은 특정한 장면에 대해서 복잡한 추론을 할 수 있고, 차트나 다이어그램을 해석하고, 시각적으로 (언어가 아니라) 제시된 수학 문제까지 풀 수 있습니다. 예를 들어, 의료 분야에서 MLLM은 의료 이미지나 환자 기록 등을 모두 분석해서 더 포괄적이고 정확한 진단과 의견을 제시할 수 있습니다.

결국, AI의 미래는 ‘우리가 살아가는, 실제의 복잡한 세상을 이해할 수 있는’ 시스템을 만드는데 있을 겁니다. MLLM은 언어, 그리고 시각 사이의 간극을 메워줌으로써, 세상을 조금은 더 인간처럼 보고, 이해하고, 소통할 있는 AI 시스템에 더 가까이 다가갈 수 있도록 해 줄 것입니다.

“Cambrian-1” 논문 저자들은 멀티모달 시스템과 시각적 Representation 학습이 빠르게 발전할 수 있도록, 논문 내 모델 가중치, 코드, 데이터셋, 지원 도구 및 상세한 Instruction-tuning과 평가 방법을 제공하고 있습니다.

Twitter Library

오늘의 트위터 포스트는 Meta AI의 Yann Lecun 교수의 포스트인데요. Yann Lecun 교수가 이끄는 Meta AI에서는 AGI로 가는 길 중 하나로, Transformer와는 다른 관점으로 설계된 JEPA (Joint Embedding Predictive Architecture)를 발표한 바 있습니다.

Turing Post에서 AI 101 시리즈의 제 4편으로 JEPA를 다루었는데, Yann Lecun 교수님이 ‘JEPA에 대해 설명한 아주 훌륭한 글’이라고 트위터에 직접 포스팅을 해 주셨네요!

튜링포스트 코리아에서도 곧 이 JEPA에 대한 AI 101 시리즈를 작업해서 구독자 분들께 보내드릴 예정입니다.

주목할 만한 업계 동향

  • Microsoft, 그리고 스켈레톤 키 (Skeleton Key)

Microsoft가 멀티턴 (Multi-turn) 전략으로 AI 모델의 가드레일을 우회하여 유해한 컨텐츠를 생성해 내도록 할 수 있는 새로운 탈옥 (Jailbreaking) 기법, 스켈레톤 키를 발견했다고 합니다. 이 공격은 다양한 생성AI 모델에 영향을 미치는데요, Microsoft는 이런 공격을 탐지, 차단하기 위해서 Prompt Shields라든가 Azure AI Content Safety와 같은 기능을 구현했습니다. 개발자들에게는 입력/출력 필터링, 악용/남용을 모니터링하는 활동 등을 권고하고 있구요. Microsoft의 이 연구 내용은 광범위한 업계의 위험 완화 노력을 권장하기 위해서 많은 AI 개발사들과 공유되었습니다.

  • Hugging Face와 새로운 LLM 리더보드

Hugging Face가 수많은 LLM들에 대해서 다양한 벤치마크를 다시 한 번 새롭게 수행, 평가한 리더보드를 공개했습니다. 몇 가지 느낀 점들 중, 중국계 오픈 모델들이 약진하고 있다는 것과 LLM 개발사들이 여러 벤치마크들 중 핵심적이고 중요한 벤치마크에서 높은 점수를 받도록 모델을 튜닝하는데 집중하고 있다는 것 - 이건 확실히 걱정되는 부분입니다 - 이 눈에 들어오네요.

  • LangChain: LangGraph v0.1 + LangGraph Cloud = 확장성있고 안정적인 에이전트 배포 (Deployment)

LangGraph v0.1은 생성AI 기반의 에이전트 어플리케이션을 구축하기 위한 정밀한 컨트롤 기능을 제공하고, 현재 베타 버전인 LangGraph Cloud는 Fault-tolerant 인프라스트럭쳐를 제공합니다. Klarna 또는 Replit 같은 회사들은 이미 이런 도구들을 사용해서 자사의 AI 과제를 효과적으로 추진하고 있는 것으로 알려져 있는데요. LangGraph Cloud는 통합 모니터링, 간소화된 배포 기능도 제공한다고 하네요.

  • Adept를 거의 삼켜버릴 듯한 Amazon

Amazon은 기업용 워크플로우 자동화 전문 스타트업인 Adept의 임원들을 영입하면서 자사의 AI 역량을 강화하고 있는데요. Adept의 공동창업자이나 CEO인 David Luan과 그의 팀이 Rohit Prasad가 이끄는 Amazon의 AGI 부서에 합류 예정이라고 합니다. Adept는 독립적으로 계속 운영되고, Amazon은 Adept의 일부 기술에 대한 라이선스를 제공할 예정입니다.

  • Google Deepmind, Gemma 2 출시

Google의 고성능 AI 모델이 이제 9B, 27B 파라미터 사이즈로도 제공됩니다. 이 모델은 단일 NVIDIA H100 GPU에서도 뛰어난 성능과 효율성을 자랑합니다. Gemma2는 주요 AI 프레임웍과 쉽게 통합할 수 있고 예산에 맞춰 다양하게 배포할 수 있습니다. 연구자들은 Kaggle (무료) 또는 Colab 노트북 (Cloud Service의 Academic Credit)을 통해서 Gemma 2에 액세스할 수 있습니다.

  • Imbue의 ‘70B 파라미터 모델의 트레이닝 과정 공유’

AI 스타트업 Imbue의 70B 모델은 추론 작업의 경우 GPT-4보다 뛰어난 성능을 보여줍니다. Imbue의 기술진이 이 70B 파라미터 사이즈의 모델을 트레이닝하면서 경험한 인프라 셋업 과정, 진행 상태 점검을 위한 스크립트 등을 공유해 주었습니다. 이 경험에서 특히 재현성 (Reproducibility), 자동화된 솔루션, 인프라에 대한 깊은 이해, 그리고 이 작업에 열정과 관심을 가진 팀 등의 중요성을 강조하네요.

  • Anthropic, Claud Projects와 ‘Build with Claude’ 콘테스트 소개

Pro 및 Team 사용자는 이제 채팅 내용을 정리하고 지식을 효과적으로 공유할 수 있습니다. Projects는 문서를 포괄적으로 통합할 수 있도록 200K의 Context Window를 포함하고, Custom Instruction, Artifacts 같은 기능으로 생산성을 향상시킬 수 있다고 합니다.

Anthropic의 ‘Build with Claude’ 콘테스트는 개발자들이 Claude API를 활용해서 혁신적인 프로젝트를 만들게 하기 위해 고안되었습니다. 이 해커톤은 2024년 6월 26일부터 7월 10일까지 진행되고, 상위 3개 프로젝트에는 10,000불의 API 크레딧이 수여됩니다.

Dario Amodei의 Time 인터뷰도 한 번 읽어보세요.

  • Stability AI의 새로운 CEO

Prem Akkaraju가 Stability AI의 새로운 CEO가 되었습니다. 그리고 Sean Parker를 필두로 한 투자자 그룹으로부터 긴급 구제금융을 받았네요. 이번에 실시한 자본 확충으로 아마도 기존 투자자들의 지분은 줄어들 가능성이 큽니다.

  • Baidu와 업그레이드된 Ernie 4.0

현재 3억 명의 사용자를 보유한 Ernie 4.0 Turbo AI 모델은 일단 중국 내에서의 경쟁력 유지를 목표로 하고 있습니다. 동시에 Baidu는 PaddlePaddle AI 생태계를 강화해 왔는데요. OpenAI가 중국 내에서 자사 API를 차단하는 방침에 대응하여, Baidu와 다른 중국 내 AI 사업자들은 이에 영향을 받을 사용자들을 마이그레이션하는 서비스를 제공하고 있습니다.

  • 선도적인 AI 연구자들의 다양한 생각과 접근 방식

OpenAI를 떠난 Ilya Sutskever가 Safe Superintelligence, Inc.를 설립하고 SSI (Safe Super Intelligence; 안전한 초지능)를 구축하겠다는 기치를 내걸 동안, Andrej Karpathy는 Github에서 재미있는 시도를 하고 있습니다 - Github - karpathy/LLM101n: LLM101n: Let’s build a Storyteller. 이 프로젝트는 Python, C, CUDA를 이용해서 Storyteller AI LLM을 처음부터 만드는 방법을 알려주는 강좌입니다. 이렇게 실제로 한 번 만들어보는 과정을 거친다면 AI의 장점과 위험을 더 잘 이해할 수도 있을 것 같습니다.

Turing Post 팀이 보고 있는 것들

새로 나온, 주목할 만한 연구 논문

Top Pick

  • LLM Critics Help Catch LLM Bugs - OpenAI 연구원들이 RLHF를 통해 훈련된 LLM Critic, CriticGPT를 개발했는데, 버그를 찾아내고 정확한 피드백을 제공하는 데 있어 사람보다 뛰어난 성능을 보였다고 합니다. 테스트 결과, CriticGPT는 63%에 해당하는 케이스에서 사람보다 더 많은 오류를 감지해 냈습니다. 사람이 하는 리뷰와 결합해서 전반적인 신뢰성을 높이고 오류를 줄일 수 있었다고 합니다.

  • Meta Large Language Model Compiler: Foundation Models of Compiler Optimization - Meta AI는 코드를 더 잘 최적화하게 하는 LLM Compiler 모델 제품군을 공개했습니다. LLVM-IR 및 어셈블리 코드에 대해 광범위한 학습을 거친 이 모델은, 컴파일러 최적화를 예측하고 개선합니다. 다양한 모델 크기로 제공되는 LLM Compiler는 컴파일러 R&D에서 중추적인 역할을 합니다. Mark Zuckerberg의 최근 인터뷰도 한 번 살펴보세요.

  • WARP: On the Benefits of Weight Averaged Rewarded Policies - Google Deepmind의 WARP는 가중 평균법을 사용해서 LLM을 병합해서 RLHF를 개선하고, 지식의 망각이라든가 보상 해킹 등의 공통적으로 나타나는 문제를 해결합니다. 이 방법은 사람의 선호도에 더 잘 맞도록 보상 최적화의 균형을 맞춤으로써 실제 세계에서의 어플리케이션에 적용할 수 있는 가능성을 보여줍니다.

  • Can LLMs Learn by Teaching? A Preliminary Study - 이 논문은 ‘Student’와의 상호작용으로부터 오는 피드백을 기반으로 한 학습으로 LLM이 스스로 개선을 할 수 있는지 실험합니다. 실험의 결과, 모델의 정확도와 기능이 눈에 띄게 향상되는 것을 보여, LLM이 사람의 데이터로부터 독립적으로 학습할 수 있는 실질적인 가능성을 제시합니다.

  • The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale - Hugging Face에서 고급 필터링과 중복 제거의 과정을 거쳐서 LLM 트레이닝을 하기에 최적화되어 있는, 웹 크롤 데이터에서 파생된 방대한 데이터셋, FineWeb을 소개했습니다. 이 데이터셋의 하위 집합인 FineWeb-Edu는 특히 교육 관련 벤치마크에서 좋은 성능을 내도록 도와주는데, 이와 관련된 모든 자료를 공개해 놓았기 때문에 이후 LLM 연구에 활용 가능합니다.

최적화와 개선 기술

벤치마크 및 평가

데이터 생성 및 개선

문화적, 윤리적 고려사항

새로운 기술적 접근방법 및 새로운 모델

안전 및 보안

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.