Turing Post Korea
Posts
트랜스포머의 효율성을 높여줄 새로운 기법 10選

트랜스포머의 효율성을 높여줄 새로운 기법 10選

Ben Eum & Ksenia Se
October 15, 2024

오늘날 생성형 AI 시장에서 활용되는 모델의 주종은, 누가 뭐래도 ‘트랜스포머 (Transformer)’ 기반 모델들이죠. 텍스트, 이미지, 시계열 데이터 같은 순차 데이터를 처리하는데 큰 장점이 있는 트랜스포머는 현재 SOTA AI 모델의 근간일 뿐 아니라 계속해서 발전하고 있습니다.

물론, 트랜스포머도 완벽할 수는 없으니까, 많은 연구자들이 트랜스포머를 개선하기 위해서 계속해서 새로운 기법을 개발해 가면서 그 효율성을 높이고자 노력하고 있습니다 - 어텐션 메커니즘 자체의 개선에서부터 메모리라든가 아주 긴 컨텍스트의 처리 능력을 향상시키는데 이르기까지 다양한 영역에서요.

자, 여기에서 트랜스포머의 효율성을 높여 주기 위해서 고안된 10가지의 기법을 담은 논문들을 소개합니다:

Differential Transformer (DIFF Transformer)는 두 개의 소프트맥스 맵을 뺀 값으로 어텐션 스코어를 계산하는 Differential Attention Mechanism을 사용합니다. 기존의 트랜스포머가 ‘관련성이 낮은’ 컨텍스트에 과도한 어텐션을 할당하는 경향이 있고 이 때문에 핵심 정보 검색, 긴 컨텍스트의 모델링, 환각 현상 등에서 문제가 발생하죠. 이 접근 방식은 ‘관련성이 높은’ 정보에 어텐션을 집중시켜서 노이즈와 환각 현상을 줄입니다. —> [논문 보기]

Normalized Transformer (nGPT)는 임베딩, 은닉 상태 등을 포함한 모든 벡터를 초구면(Hypersphere) 상의 단위 길이로 정규화하는데, 각 레이어에서는 이렇게 정규화된 벡터를 올바른 출력값으로 조정합니다. 이런 설계 방식으로 학습 속도를 높여서, 정확도를 유지하면서도 트레이닝 단계를 4배 ~ 20배까지 줄일 수 있도록 해 줍니다. —> [논문 보기]

DART (Denoising Autoregressive Transformer)는 단계별로 일어나는 마르코프 과정 때문에 생기는 디퓨젼 모델의 한계를 극복하게 해 주는 새로운 모델인데요. 이 모델은 Autoregressive (자기 회귀) 방법과 디퓨젼 방법을 결합, 이미지 양자화 (Image Quantization)에 의존하지 않고 이미지 패치를 디노이징합니다. DART는 그리고 텍스트와 이미지 모두를 처리할 수 있습니다. —> [논문 보기]

Cottention 기법은 소프트맥스를 코사인 어텐션으로 대체해서, 메모리 사용량을 줄이고 더 긴 시퀀스에 대해 메모리의 복잡도가 선형으로만 증가하게 만듭니다. 이 기법은 소프트맥스 어텐션과 유사한 성능을 유지하면서도, 추론 과정에서 일정한 메모리만을 사용하기 위해서 RNN으로 재구성할 수 있습니다. —> [논문 보기]

DnD-Transformer는 벡터 양자화 (VQ; Vector-Quantization) 모델에서의 정보 손실 문제를 해결해서 이미지 생성을 더 잘 하게 해 줍니다. ‘심도’와 ‘시퀀스 길이’를 통해서 더 많은 이미지의 세부 사항을 예측하기 위한 2D 자기회귀 (Autoregression) 기법을 도입합니다. 기존 방법과 동일한 크기라면 더 높은 품질의 이미지를 생성하고, 텍스트와 그래픽이 포함된 이미지도 생성할 수 있습니다. —> [논문 보기]

RA-DT (Retrieval-Augmented Decision Transformer)는 ‘관련성 높은’ 과거 경험만을 저장하고 검색하도록 외부 메모리를 사용, ICL (In-Context Learning)을 더 효율적으로 할 수 있습니다. 로봇 시뮬레이션 등에서 우수한 성능을 보여주고, 더 짧은 컨텍스트를 사용할 때도 기존 방법들을 능가합니다. —> [논문 보기]

Transformer with Selective Attention: ‘Selective Attention’은 컨텍스트 내의 불필요한 요소들에 대한 어텐션을 제한해서 트랜스포머의 성능을 향상시켜줍니다. 이렇게 만들어진 트랜스포머는, 메모리 및 계산에 필요한 요구사항을 줄이고, 긴 컨텍스트를 가진 작업에서 효율성을 높여줘서, 자기보다 두 배의 파라미터를 가진 모델들과도 대등한 성능을 보여준다고 하네요. —> [논문 보기]

Graph Transformers는 ‘그래프 구조’의 데이터를 염두에 두고 설계된 신경망으로, 트랜스포머와 그래프 학습 기법의 강점을 결합합니다. Graph Attention 메커니즘을 구현하고, 노드, 엣지, 그래프 레벨에서 여러가지 작업을 하는데 활용할 수 있습니다. 여기서 소개한 논문은 Graph Transformer의 종류를 나열, 구분하고 여러 Graph Transformer의 발전 현황과 구현 내용을 확인합니다. —> [논문 보기]

Advancing Transformer Architecture in Long-Context Large Language Models A Comprehensive Survey: 여기에선 거대 언어모델 (LLM)들이 더 긴 입력값을 처리하는 능력을 향상시켜 온 최근의 발전 상황을 확인하고, 트랜스포머 아키텍처의 업그레이드, 평가 방법, 최적화 도구들에 대해 조사합니다. 더불어, 이후 LLM의 개선 방향, 도전 과제들에 대해서도 논의합니다. —> [논문 읽기]

Non-Stationary Transformers는 두 개의 모듈 - Series Stationarization (예측 가능성을 위해서)과 De-stationary Attention (중요한 변화를 포착하기 위해서) - 을 활용해서 AI 모델이 ‘갑작스러운 변화’를 예측할 수 있도록 하는 방법에 대해 논의합니다. 이 기법을 활용해서 다양한 모델에서 예측 성능을 향상시킬 수 있습니다. —> [논문 보기]

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.