- Turing Post Korea
- Posts
- 트랜스포머의 효율성을 높여줄 새로운 기법 10選
트랜스포머의 효율성을 높여줄 새로운 기법 10選
오늘날 생성형 AI 시장에서 활용되는 모델의 주종은, 누가 뭐래도 ‘트랜스포머 (Transformer)’ 기반 모델들이죠. 텍스트, 이미지, 시계열 데이터 같은 순차 데이터를 처리하는데 큰 장점이 있는 트랜스포머는 현재 SOTA AI 모델의 근간일 뿐 아니라 계속해서 발전하고 있습니다.
물론, 트랜스포머도 완벽할 수는 없으니까, 많은 연구자들이 트랜스포머를 개선하기 위해서 계속해서 새로운 기법을 개발해 가면서 그 효율성을 높이고자 노력하고 있습니다 - 어텐션 메커니즘 자체의 개선에서부터 메모리라든가 아주 긴 컨텍스트의 처리 능력을 향상시키는데 이르기까지 다양한 영역에서요.
자, 여기에서 트랜스포머의 효율성을 높여 주기 위해서 고안된 10가지의 기법을 담은 논문들을 소개합니다:
Differential Transformer (DIFF Transformer)는 두 개의 소프트맥스 맵을 뺀 값으로 어텐션 스코어를 계산하는 Differential Attention Mechanism을 사용합니다. 기존의 트랜스포머가 ‘관련성이 낮은’ 컨텍스트에 과도한 어텐션을 할당하는 경향이 있고 이 때문에 핵심 정보 검색, 긴 컨텍스트의 모델링, 환각 현상 등에서 문제가 발생하죠. 이 접근 방식은 ‘관련성이 높은’ 정보에 어텐션을 집중시켜서 노이즈와 환각 현상을 줄입니다. —> [논문 보기]
Normalized Transformer (nGPT)는 임베딩, 은닉 상태 등을 포함한 모든 벡터를 초구면(Hypersphere) 상의 단위 길이로 정규화하는데, 각 레이어에서는 이렇게 정규화된 벡터를 올바른 출력값으로 조정합니다. 이런 설계 방식으로 학습 속도를 높여서, 정확도를 유지하면서도 트레이닝 단계를 4배 ~ 20배까지 줄일 수 있도록 해 줍니다. —> [논문 보기]
DART (Denoising Autoregressive Transformer)는 단계별로 일어나는 마르코프 과정 때문에 생기는 디퓨젼 모델의 한계를 극복하게 해 주는 새로운 모델인데요. 이 모델은 Autoregressive (자기 회귀) 방법과 디퓨젼 방법을 결합, 이미지 양자화 (Image Quantization)에 의존하지 않고 이미지 패치를 디노이징합니다. DART는 그리고 텍스트와 이미지 모두를 처리할 수 있습니다. —> [논문 보기]
Cottention 기법은 소프트맥스를 코사인 어텐션으로 대체해서, 메모리 사용량을 줄이고 더 긴 시퀀스에 대해 메모리의 복잡도가 선형으로만 증가하게 만듭니다. 이 기법은 소프트맥스 어텐션과 유사한 성능을 유지하면서도, 추론 과정에서 일정한 메모리만을 사용하기 위해서 RNN으로 재구성할 수 있습니다. —> [논문 보기]
DnD-Transformer는 벡터 양자화 (VQ; Vector-Quantization) 모델에서의 정보 손실 문제를 해결해서 이미지 생성을 더 잘 하게 해 줍니다. ‘심도’와 ‘시퀀스 길이’를 통해서 더 많은 이미지의 세부 사항을 예측하기 위한 2D 자기회귀 (Autoregression) 기법을 도입합니다. 기존 방법과 동일한 크기라면 더 높은 품질의 이미지를 생성하고, 텍스트와 그래픽이 포함된 이미지도 생성할 수 있습니다. —> [논문 보기]
RA-DT (Retrieval-Augmented Decision Transformer)는 ‘관련성 높은’ 과거 경험만을 저장하고 검색하도록 외부 메모리를 사용, ICL (In-Context Learning)을 더 효율적으로 할 수 있습니다. 로봇 시뮬레이션 등에서 우수한 성능을 보여주고, 더 짧은 컨텍스트를 사용할 때도 기존 방법들을 능가합니다. —> [논문 보기]
Transformer with Selective Attention: ‘Selective Attention’은 컨텍스트 내의 불필요한 요소들에 대한 어텐션을 제한해서 트랜스포머의 성능을 향상시켜줍니다. 이렇게 만들어진 트랜스포머는, 메모리 및 계산에 필요한 요구사항을 줄이고, 긴 컨텍스트를 가진 작업에서 효율성을 높여줘서, 자기보다 두 배의 파라미터를 가진 모델들과도 대등한 성능을 보여준다고 하네요. —> [논문 보기]
Graph Transformers는 ‘그래프 구조’의 데이터를 염두에 두고 설계된 신경망으로, 트랜스포머와 그래프 학습 기법의 강점을 결합합니다. Graph Attention 메커니즘을 구현하고, 노드, 엣지, 그래프 레벨에서 여러가지 작업을 하는데 활용할 수 있습니다. 여기서 소개한 논문은 Graph Transformer의 종류를 나열, 구분하고 여러 Graph Transformer의 발전 현황과 구현 내용을 확인합니다. —> [논문 보기]
Advancing Transformer Architecture in Long-Context Large Language Models A Comprehensive Survey: 여기에선 거대 언어모델 (LLM)들이 더 긴 입력값을 처리하는 능력을 향상시켜 온 최근의 발전 상황을 확인하고, 트랜스포머 아키텍처의 업그레이드, 평가 방법, 최적화 도구들에 대해 조사합니다. 더불어, 이후 LLM의 개선 방향, 도전 과제들에 대해서도 논의합니다. —> [논문 읽기]
Non-Stationary Transformers는 두 개의 모듈 - Series Stationarization (예측 가능성을 위해서)과 De-stationary Attention (중요한 변화를 포착하기 위해서) - 을 활용해서 AI 모델이 ‘갑작스러운 변화’를 예측할 수 있도록 하는 방법에 대해 논의합니다. 이 기법을 활용해서 다양한 모델에서 예측 성능을 향상시킬 수 있습니다. —> [논문 보기]
읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply