• Turing Post Korea
  • Posts
  • 희소 오토인코더 (Sparse Autoencoder) 연구논문 12選

희소 오토인코더 (Sparse Autoencoder) 연구논문 12選

지난 몇 주 동안 희소 오토인코더(Sparse Autoencoder; SAE)와 관련된 많은 재미있는 연구 논문들이 발표되었는데요.

희소 오토인코더는 거대 언어모델 (LLM)이 데이터를 학습해서 만들어내는 표현 (Representation)을 이해할 수 있게 - 해석 가능하게 - 도와주는 도구로 널리 알려져 있는데요. 직접 사람이 손으로 뽑아낸 특징을 사용하는 지도 학습은, 시간도 많이 소요될 뿐 아니라 새로운 문제가 닥쳤을 때 적용이 힘들죠. 반면에, 비지도 신경망의 하나인 희소 오토인코더는 데이터로부터 의미있는 특징들을 자동적으로 뽑아내도록 학습을 합니다.

일반적인 오토인코더와는 조금 다르게, 희소 오토인코더는 입력이 들어왔을 때 ‘소수의 뉴런만이 활성화’되도록 해서, 가장 중요한 패턴을 더 부각시키도록 해 줍니다. 그래서 희소 오토인코더는 ‘Feature Extraction (특징 추출)’, ‘Dimension Reduction (차원 축소)’, ‘Pretraining Deep Networks (심층 네트워크의 사전 훈련)’ 등에 광범위하게 사용되고 있습니다.

아래에 ‘희소 오토인코더’를 더 잘 이해할 수 있도록 도와줄 12개 논문을 소개합니다:

  1. Sparse autoencoder, CS294A Lecture notes (앤드류 응)는 희소 오토인코더가 어떻게 차원을 축소하고, 특징을 추출하며, 대규모의 데이터셋을 처리하는지 설명해 줍니다. 더불어, ‘희소성 제약 (Sparsity Constraints)’을 통해서 컴퓨터 비전, 오디오 처리 등 다양한 분야에서 ‘Feature Learning (특징 학습)’을 어떻게 시키게 되는지 확인합니다.
    —> [논문 보기]

  2. LLM 조정 및 성능 개선을 위해 희소 오토인코더를 사용하는데 관련한 4가지 연구 논문:

    • Can sparse autoencoders be used to decompose and interpret steering vectors? (옥스포드 대학교) 논문은 희소 오토인코더가 LLM의 행동을 제어하는 스티어링 벡터 (Steering Vector; 조향 벡터)를 해석하는 데 어려움을 겪는 이유를 조사하는데, 중요한 문제점은 1) 스티어링 벡터가 희소 오토인코더의 학습 입력값의 분포 (Training Input Distribution)와 맞지 않거나, 2) 희소 오토인코더가 스티어링 벡터의 Negative Projection 을 처리하지 못하는 것 등이 있다고 하네요. —> [논문 보기]

    • Steering Language Model Refusal with Sparse Autoencoders는 희소 오토인코더를 사용, 추론 시점에서 특징 스티어링 활성화 (Feature Steering Activation)란 것을 해서 LLM의 안전성을 향상시키는 방법을 탐구합니다. 그런데, 이 방법은 벤치마크에서 높은 성능을 달성하는데 방해가 될 수도 있다고 하네요. —> [논문 보기]

       

    • Improving Steering Vectors by Targeting Sparse Autoencoder Features (마이크로소프트)는 LLM을 더 잘 제어하기 위해서 사용하는 방법으로 SAE-TS (Sparse Autoencoder-Targeted Steering)를 소개하는데, SAE-TS는 의도하지 않은 부작용은 줄이면서 원하는 행동으로의 교정을 할 수 있도록 특정한 SAE의 특징들을 목표로 한다고 합니다. —> [논문 보기]

    • SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs는 모델에서 유해하거나 잘못 정렬된 (Misaligned) 출력이 나오지 않도록 방지하는 방법을 소개합니다. 원래 모델을 변경하지 않으면서도 특정한 방향으로 모델을 Align 시킨다거나 아니면 유해한 (Toxic) 표현을 출력하지 않도록 조정하는 SCAR 모듈을 LLM에 추가합니다. —> [논문 보기]

  3. Sparse Autoencoders Find Highly Interpretable Features in Language Models는 희소 오토인코더가 언어 모델의 내부 활성 상태 (Activation)에서 의미있는 패턴을 식별하는 데 어떻게 사용될 수 있는지 보여줍니다. 이 논문에서는 이런 특징 (Feature)들이 해석하고 편집하기 더 쉬워지면서 출력을 아주 정밀하게 수정하는 것 (예: 성별을 착각할 경우 문제가 되는 대명사를 예측하지 못하게 한다든가)이 가능하다는 점을 강조하고 있습니다. —> [논문 보기]

  4. Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders는 인코딩과 디코딩 과정을 분리해서 희소 오토인코더의 성능을 개선하는 방법을 탐구합니다. 여기서는 고도로 인코더를 발전시키면 최소한의 추가 비용으로 희소한 특징을 감지하고 추론을 향상시킬 수 있다는 것을 보여줍니다. —> [논문 보기]

  5. Direct Preference Optimization Using Sparse Feature-Level Constraints는 LLM을 사람의 선호도에 맞게 정렬하기 위해서 FPO (Feature-level constrained Preference Optimization) 기법을 제안하는데, RLHF을 사용하는 대신 희소 오토인코더를 가지고 구현해서 정렬 과정을 단순화해서, 더 효율적, 안정적으로 정렬이 되게끔 합니다.
    —> [논문 보기]

  6. Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders (구글 딥마인드)는 활성화 상태를 충실하게 재구성하는 것, 그리고 희소 표현을 유지하는 것, 이렇게 상충될 수 있는 두 가지 요소 사이에서 균형을 맞추는 JumpReLU SAE를 제안합니다. 구글 딥마인드의 Gemma Scope는 신경망에서 희소하면서도 해석 가능한 특징들을 더 용이하게 발견하기 위해서 Gemma 2 모델의 여러 계층에서 학습된 JumpReLU SAE들을 포함하고 있습니다. —> [논문 보기]

  7. Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders는 SDXL Turbo 같은 텍스트-이미지 변환용 확산 모델을 이해하기 위해서 희소 오토인코더를 사용하는 방법을 연구합니다. SDXL Turbo의 U-Net에 대해서 희소 오토인코더를 학습시킨 결과, 이미지 구성, 세부 디테일, 스타일을 전문적으로 다루는 블록들을 발견하면서 이미지 생성 과정에서 해석 가능한 특징들을 보여줍니다. —> [논문 보기]

  8. Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting

    Rare Concepts in Foundation Models는 "숨겨진" 특징들을 포착하고 희귀한 패턴들을 식별하기 위해 특정 하위 도메인에 집중하는 전문화된 희소 오토인코더(SSAE; Specialized Sparse Autoencoder)를 소개합니다. 데이터 선택을 위한 Dense Retrieval, 그리고 기타 고급 학습 기술을 사용하는데, 이 기법은 파운데이션 모델(FMs)에서의 특정 위험들을 해결하는 데 도움이 된다고 합니다. —> [논문 보기]

  9. Interpret the Internal States of Recommendation Model with Sparse Autoencoder는 추천 시스템의 해석 가능성을 향상시키기 위한 RecSAE라는 도구를 소개합니다. 이 플러그인 모듈은 모델의 Activation를 해석 가능한 특징들로 변환하고, 추천을 위한 자동화된 개념 사전을 만들어서 해석을 검증합니다. —> [논문 보기]

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.