• Turing Post Korea
  • Posts
  • Long-Context를 처리하는 '새로운' 기법 10選

Long-Context를 처리하는 '새로운' 기법 10選

현재까지 LLM의 역사는 어찌보면 ‘더 긴 텍스트를 잘 처리하고 다루는 모델을 만들어보자’는 노력의 과정이었다고 해도 과언이 아닐 겁니다. 초기의 RNN에서 LSTM으로, 그리고 트랜스포머에 이르기까지 말이죠.

그 동안의 엄청난 발전에도 불구하고, 여전히 ‘긴 텍스트’를 다루는 건 그리 만만한 일이 아니죠 - 이제는 ‘처리할 수 있느냐’의 문제가 아니라 ‘얼마나 잘 다루느냐’의 문제가 되었기 때문일지도 모르겠네요.

대부분의 기법들은 긴 텍스트를 ‘작은 부분들로 나눠서’ 처리하도록 하는데, 꽤 시간이 걸릴 수 있을 뿐 아니라 때로는 중요한 맥락이나 텍스트의 핵심적인 아이디어가 잘 캡쳐되지 않을 수도 있죠. 그래서 이런 문제의 해결책으로 - 좀 더 컴퓨팅 자원이 들기는 하지만 - 여러 부분을 한꺼번에 다루는 ‘병렬 처리’ 기법 같은 걸 도입하기도 합니다만, 이 방법이 꼭 항상 효과가 있는 건 아니라서, 계속해서 Long-Context를 다루는 새로운 기법들이 등장하고 있습니다.

아래에 LLM이 Long-Context를 효율적으로 처리할 수 있게 하는 ‘10가지의 새로운 방법’을 정리해 봤습니다:

  1. Dolphin model - 디코더-디코더 아키텍처인 이 모델은, 적은 에너지를 들이고도 효율적으로 처리할 수 있는 ‘에너지 절약형’ 소형 언어모델을 사용해서 Long-Context를 컴팩트하게 압축합니다. 이렇게 해서 메인 모델의 작업 부하를 줄이고 에너지 사용량을 줄여서 처리 속도를 높이면서도 정확도를 유지할 수 있습니다. 온디바이스 모델의 적용을 염두에 두고 고안된 방법입니다. —> [논문 보기]

  2. Writing in the Margins (WiM) - 이 방법은 일단 긴 텍스트를 작은 청크 (Chunk)로 분해한 다음에 각각의 청크에 대해서 LLM이 ‘이런 정보가 중요하구나’라는 걸 강조하는 'Margin Note'를 생성합니다. 이런 정보를 활용해서 LLM이 검색 작업에서 Long-Context를 잘 처리하도록 도움을 줍니다. —> [논문 보기]

  3. ReMamba는 긴 텍스트를 최소한의 추가 비용이나 자원을 가지고도 잘 처리할 수 있도록 ‘Selective Compression’, ‘Selective Adaptation’이라는 2단계의 프로세스 거치도록 Mamba 아키텍처를 변형했습니다. 현재로는 비슷한 사이즈의 트랜스포머 기반 모델이 보여주는 결과와 거의 비슷하게 나온다고 합니다. —> [논문 보기]

  4. FocusLLM은 는 긴 텍스트를 여러 개의 청크로 나누고 각각의 청크에 Local Context를 추가해서, 디코더만으로 만들어진 LLM의 Context 길이를 확장해 줍니다. 이 모델은 병렬 디코딩 메커니즘 (Parallel Decoding Mechanism)을 사용해서 필수적인 정보를 추출, 통합해 주고, 최대 400K개의 토큰 컨텍스트에서 우수한 성능을 보여줍니다. —> [논문 보기]

  5. ChatQA 2 - Llama 3 기반으로 엔비디아가 만든 이 모델은, Llama3-70B의 컨텍스트 창을 8K에서 128K 토큰으로 확장하고, 3단계의 ‘Instruction Tuning’ 작업을 통해서 모델의 성능을 올립니다. Long-Context 처리 작업에서 GPT-4-Turbo 수준의 성능을 보여주고, 특히 RAG 환경에서 뛰어난 성능을 보여준다고 합니다. —> [논문 보기]

  6. EM-LLM (Episodic Memory LLM) - 이 모델은 사람이 무언가를 기억하는 방식을 모방해서, 텍스트를 의미가 있는 ‘에피소드’ 형식으로 구성하고 필요할 때 관련된 정보를 검색하는 방식으로 훨씬 긴 텍스트를 효율적으로 처리한다고 합니다. —> [논문 보기]

  7. LazyLLM 기법은 ‘사전 채우기 (Prefilling)’와 ‘디코딩 (Decoding)’ 추론 단계에서 ‘가장 중요한 토큰’만을 선택적으로 처리해서 정확도를 유지, 트랜스포머 기반 언어모델의 속도를 높입니다. —> [논문 보기]

  8. LongRAG는 ‘Long Retriever’와 ‘Long Reader’를 사용해서 Long-Context를 다룰 수 있도록 만들어진 LLM의 성능을 100% 발휘하게 하는 RAG 아키텍처입니다. LongRAG는 전체 Wikipedia 문서를 훨씬 긴 단위로 처리해서 총 단위 수를 줄이는 방식으로 검색을 효율적으로 하게 합니다. 좀 더 자세한 내용은 튜링 포스트의 LongRAG 소개 글을 참조해 보세요. —> [논문 보기]

  9. DeepSeek-V2 모델은 최대 128K개 토큰에 해당하는 긴 텍스트를 효과적으로 처리하기 위해서 ‘DeepSeekMoE’라는 변형된 MoE 아키텍처, ‘MLA (Multi-Head Latent Attention)’라는 변형된 어텐션 메커니즘(전문가 혼합) 같은 독특한 DeepSeek 만의 기술을 적용한 모델입니다. DeepSeek 모델에 대한 상세한 내용을 튜링 포스트 코리아의 AI 101 에피소드에서 곧 확인하실 수 있습니다. —> [논문 보기]

  10. LONGWRITERAgentWrite라는 기법으로 마치 ‘에이전트’ 구조와 유사하게 아주 긴 글쓰기 작업을 더 작은 하위 부분으로 나눠서 진행, 자연스럽게 긴 글이 만들어지고 출력 길이의 한계를 극복할 수 있도록 해 주는 기법입니다. 기존의 LLM 모델들을 가지고도 최대 20,000단어까지 자연스러운 글을 생성할 수 있습니다. 튜링 포스트의 FOD#63 ‘AI Scientist, 그리고 개방형 탐색 에이전트 기술’ 편에서 조금 더 설명이 되어 있으니 관심있으시면 참고하세요. —> [논문 보기]

읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.