• Turing Post Korea
  • Posts
  • 15가지 종류의 어텐션 메커니즘

15가지 종류의 어텐션 메커니즘

‘어텐션 메커니즘 (Attention Mechanism)’은 모델이 데이터를 처리할 때 입력값의 특정한 부분에 다이나믹하게 집중할 수 있게 해 주는, 현재 트랜스포머 아키텍처의 근간을 이루는 핵심 요소죠. 최근에 튜링 포스트 코리아에서도 MLA (Multi-Head Latent Attention)에 대해 알아보기도 했는데, 이번에는 다른, 수많은 형태의 어텐션 메커니즘을 한 곳에 정리해 볼까 합니다.

아래는 다양한 AI 모델에서 사용하는 15가지 종류의 어텐션 메커니즘입니다:

  1. Soft Attention (Deterministic Attention) —> Neural Machine Translation by Jointly Learning to Align and Translate (1409.0473)
    입력값의 모든 부분에 대해서 연속적인 가중치 분포를 할당하고, 총 합이 1이 되는 어텐션 가중치를 사용해서 입력값의 Weighted Sum을 생성합니다.

  2. Hard Attention (Stochastic Attention) —> Effective Approaches to Attention-based Neural Machine Translation (1508.04025)
    모든 요소에 어텐션을 주기보다는, 각 단계에서 집중할 입력값의 특정한 부분을 개별적으로 선택하도록 합니다.

  3. Self-Attention —> Attention is All You Need (1706.03762)
    시퀀스의 각 요소에서 다른 요소들을 ‘살펴보고’ 새로운 Representation을 만들기 위해서 들여다 본 각각의 요소로부터 어느 정도나 정보를 가져올지를 결정합니다.

  4. Cross-Attention (Encoder-Decoder Attention) —> Cross-Attention is All You Need: Adapting Pretrained Transformers for Machine Translation (2104.08771)
    각각 다른 시퀀스로부터 오는 Query, 그리고 Key/Value Pair를 가지고 모델이 두 가지 다른 소스의 정보를 결합하도록 합니다.

  5. Multi-Head Attention (MHA) —> Attention is All You Need (1706.03762)
    여러 개의 ‘어텐션 헤드’가 병렬로 실행되고, 모델이 Query, Key, Value 값에 대해서 자체적으로 학습한 Projection을 갖는 여러 개의 어텐션 헤드로 연산을 실행합니다.

  6. Multi-Head Latent Attention (MLA) —> DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (2405.04434)
    어텐션 헤드가 서로 다른 잠재 요소 (Latent Factors)나 표현 (Representation)을 다이나믹하게 학습할 수 있는 잠재 공간 (Latent Space)을 통합해서, 멀티 헤드 어텐션 (MHA)을 확장합니다.

  7. Memory-Based Attention —> End-to-End Memory Networks (1503.08895)
    어텐션을 외부의 메모리로부터 읽고 쓰기 위해서 사용합니다.

  8. Adaptive Attention
    어텐션의 동작을 다이나믹하게 조정합니다 - 어텐션을 사용할지 말지, 언제 사용할지, 또 어텐션 범위를 어느 정도로 할지 등을 조정합니다.

  9. Scaled Dot-Product Attention
    어텐션 스코어를 Query 벡터와 Key 벡터 간의 내적 (Dot Product)으로 계산하고, 소프트맥스 (Softmax)를 적용하기 전에 Key 차원의 제곱근으로 나눕니다.

  10. Additive Attention
    Query와 Key 벡터를 결합하는 작은 피드포워드 (Feed Forward)를 사용해서 어텐션 점수를 계산합니다.

  11. Global Attention
    입력 시퀀스의 모든 가능한 위치를 고려하는 소프트 어텐션의 한 형태입니다.

  12. Local Attention
    하드 어텐션과 소프트 어텐션의 중간쯤에 위치하는, 일종의 ‘절충안’이라고 하겠는데요. 모델이 주어진 단계에서 입력값 중 제한된 하위 집합에만 어텐션을 주도록 합니다.

  13. Sparse Attention
    각 단어가 집중할 수 있는 범위를 제한하는 패턴을 적용합니다.

  14. Hierarchical Attention
    모델이 먼저 단어 수준에서 어텐션을 적용하고 문장 Representation을 생성합니다. 그 다음에 문장 수준에서 또 다른 어텐션을 적용해서 문서의 Representation에 어떤 문장이 중요한지를 결정합니다.

  15. Temporal Attention
    시계열 또는 순차적 데이터를 다루는데, 모델이 특정한 시간적인 단계라든가 시간적인 세그먼트에 어텐션을 줄 수 있게 합니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.