• Turing Post Korea
  • Posts
  • 12가지 파운데이션 모델 유형

12가지 파운데이션 모델 유형

트위터 라이브러리의 이번 에피소드에서는, 몇 가지 기본적인 사항을 다시 한 번 짚어보려고 합니다. 엄청나게 광활한 AI의 세계에서 가장 인기있는 파운데이션 모델의 유형들을 한 번 정리해 봤습니다 (괄호 안은 예시들입니다):

  1. LLM - Large Language Model (GPT, LLaMA)
    사람의 언어를 이해하고 만들어내기 위해서, 대규모의 텍스트 데이터셋을 가지고 훈련하는 모델이죠. 현재 기준이라면, 대부분 트랜스포머 아키텍처 기반으로 구축된 것들이고, 기본적으로 ‘다음 토큰을 예측’하는 모델입니다. LLM을 스케일링하려면, 각 계층, 어텐션 헤드, MLP 등 주요 구성 요소에서 전체의 파라미터 숫자를 늘려 줍니다.

  2. SLM - Small Language Model (TinyLLaMA, Phi models, SmolLM)
    높은 효율성과 낮은 메모리 사용량을 바탕으로 빠른 속도의 추론이 필요하거나 엣지 디바이스에서 사용해야 하는 경우에 잘 맞는, 최적화된 경량의 언어모델입니다. 작동 원리는 LLM과 동일하구요.

  3. VLM - Vision-Language Model (CLIP, Flamingo)
    이미지와 텍스트를 모두 처리하고 이해합니다. VLM은 이미지와 텍스트를 ‘공유 임베딩 공간’으로 매핑, 또는 두 가지 입력으로부터 캡션과 설명을 생성해 줍니다.

  4. MLLM - Multimodal Large Language Model (Gemini)
    여러 가지 유형의 데이터(모달리티)를 이해하고 처리할 수 있는 대규모 모델로, 일반적으로 텍스트와 이미지, 비디오, 오디오, 구조화된 데이터, 3D 또는 공간 입력 등 여러 가지 다른 형식을 함께 처리합니다. MLLM은 ‘모달리티 어댑터’로 LLM을 확장해서 만들거나, 아니면 비전, 텍스트, 오디오 데이터 등을 한꺼번에 사용해서 훈련해서 만들 수도 있습니다.

  5. LAM - Large Action Model (InstructDiffusion, RT-2)
    에이전트를 가이드할 ‘액션 토큰’(이산/연속 명령)을 예측해서 액션의 시퀀스를 이해하고 생성합니다. 행동 데이터셋으로 훈련한 LAM은, 다양한 작업과 환경, 그리고 다양한 모달리티(비디오, 센서 데이터 등)에 걸쳐서 전반적으로 높은 일반화 성능을 보여줍니다.

  6. LRM - Large Reasoning Model (DeepSeek-R1, OpenAI's o3)
    다단계의 논리적 추론, 복잡한 문제 해결, 구조화된 사고를 위해서 특별히 최적화된 고급 AI 시스템입니다. LRM은 테스트 타임 스케일링, 연쇄 사고 추론 (CoT), 도구 사용, 외부 메모리, 강력한 수학 및 코드 기능, 그리고 신뢰할 수 있는 의사 결정을 위한 모듈식 설계 등의 다양한 요소를 통합합니다.

  7. MoE - Mixture of Experts (e.g. Mixtral)
    ‘전문가(Expert)’라고 불리는 많은 서브 네트워크를 사용하는데, 입력값에 따라서 소수의 전문가만들 활성화해서 대규모의 스케일링을 가능하게 해 줍니다.

  8. SSM - State Space Model (Mamba, RetNet)
    시퀀스를 연속적인 다이나믹 시스템으로 정의하는 신경망으로, 시간에 따른 입력값에 대한 은닉 상태 벡터의 변화를 모델링합니다. SSM은 병렬화가 쉽고, 따라서 Long-Context의 처리에 있어서 높은 효율을 보여줍니다.

  9. RNN - Recurrent Neural Network (advanced variants: LSTM, GRU)
    시퀀스를 한 번에 한 단계씩 처리하고, 메모리 역할을 하는 은닉 상태를 통해서 정보를 전달합니다. RNN은 초기 NLP와 시계열 작업에서 널리 사용되긴 했지만, 최신의 여러 아키텍처에 비해서는 (입력 데이터 간의) 장거리 의존성 관점에서는 성능이 떨어집니다.

  10. CNN - Convolutional Neural Network (MobileNet, EfficientNet)
    시각 데이터에서 자동으로 패턴을 학습합니다. 합성곱 레이어을 사용해서 가장자리, 질감, 모양 같은 특성을 감지합니다. 지금은 예전같은 인기는 누리지 못할지라도, 여전히 많은 엣지 애플리케이션과 시각 데이터 처리 작업에 광범위하게 사용됩니다.

  11. SAM - Segment Anything Model (developed by Meta AI)
    10억 개 이상의 분할 마스크로 훈련된 파운데이션 모델입니다. 점이나 박스 같은 이미지 형태의 프롬프트를 받으면, 관련된 객체를 그림에서 분할해 냅니다.

  12. LNN – Liquid Neural Network (LFMs - Liquid Foundation Models by Liquid AI)
    LNN은 미분방정식을 사용해서 뉴런 역학을 모델링, 실시간으로 행동을 적응시킵니다. 내부 상태를 지속적으로 업데이트하기 때문에, 시계열 데이터, 로봇공학, 실제 환경에서의 의사 결정 작업 등에 뛰어난 성능을 보여줍니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.