Turing Post Korea
Posts
Topic #6: 그 이름도 멋진, KAN (Kolmogorov-Arnold Network)을 알아보자

Topic #6: 그 이름도 멋진, KAN (Kolmogorov-Arnold Network)을 알아보자

신경망을 새롭게 정의한다는 KAN - 과연 MLP의 대안이 될까?

Ksenia Se & Ben Eum
July 30, 2024

글을 시작하며

AI의 시대.

지금 우리는 더 좋은 알고리즘, 더 많은 데이터, 더 강력한 컴퓨터, 그리고 이것들을 기반으로 한 ‘넥스트 레벨’의 AI를 원하고 갈구하는, 끝없는 변화를 쫓는 시대에 살고 있습니다. 이 변화의 움직임 속에서, 어떻게 AI를 ‘효율적’으로 트레이닝하고 작동하게 할 것이냐가 새로운 화두로 떠오르면서, 그 동안의 ‘모델 대형화’ 경쟁이 ‘효율성’ 경쟁으로 바뀌는 것 같습니다. 자연스럽게, 이런 트렌드에 부응해서 딥러닝과 관련된 몇 가지 ‘근본적인 접근법’을 다시 들여다보고 검토하는 연구자들도 나타납니다.

이 중 대표적인 예로, 딥러닝의 역사에 있어서 가장 중요한 알고리즘의 하나라고 해도 무리가 아닐 MLP (Multi-Layer Perceptron; 다층 퍼셉트론)에 대한 새로운 대안이 하나 등장했는데요. 어떤 작업에 대해서는 MLP보다 더 나은 정확도 (Accuracy)와 해석 가능성 (Interpretability)을 보여준다고 하는 KAN (Kolmogorov-Arnold Network)이 바로 그것입니다.

KAN이란 건 도대체 뭘까요? 이게 현재 딥러닝의 근본이라고 할 수 있을 MLP와 어떻게 다르고 뭐가 나은 걸까요? 한 번 같이 살펴보시죠.

이번 에피소드에서는, 아래의 내용을 다뤄보려고 합니다:

우선, MLP에 대해서 알아봅시다
KAN의 탄생, 그 이야기
KAN의 아키텍처
KAN은 MLP의 개선된 버전인가?
MLP와 비교했을 때 KAN의 장점
KAN의 한계점
마치며
보너스 자료

우선, MLP에 대해서 알아봅시다

MLP는 인공신경망 중 가장 기본적이고 단순한 형태라고 할 수 있는 피드포워드 (Feedforward) 네트워크의 핵심으로, 현재의 인공지능을 이해하기 위한 기본 개념 중 하나라고 볼 수 있습니다. (피드포워드 네트워크에서는 정보가 루프라든가 순환 등이 없이 입력에서 출력으로 한 방향으로만 흐릅니다)

MLP를 좀 이해해 보기 위해서, 신경망과 관련된 기본적인 내용 몇 가지만 다시 살펴보죠. MLP는 노드 (뉴런 또는 퍼셉트론이라고도 부릅니다)의 계층으로 구성됩니다:

입력층 (Input Layer): 신경망에 데이터가 들어오는 초기 지점입니다. 이 계층의 각 ‘노드’는 입력 데이터의 특징들을 나타내고, 원시 데이터를 신경망에서 처리할 수 있는 형태로 효과적으로 변환해 줍니다.
은닉층 (Hidden Layers): 입력층과 출력층 사이에 있는 이 계층은 신경망이 얼마나 복잡한가에 따라 그 숫자나 크기가 달라집니다. 이 계층의 각 노드는 이전 계층에 있는 모든 노드의 입력을 가중치, 바이어스, 활성화 함수를 사용해서 변환하고 그 다음 계층으로 전달합니다.
출력층 (Output Layer): 이 최종 계층은 신경망의 예측 또는 분류 결과를 출력합니다. 이 계층의 노드 숫자는, 특정한 작업에 맞춰서 원하는 출력의 크기에 따라 조절됩니다.

Image Credit: DataCamp

아래의 기타 중요한 개념을 알아두면 좋습니다:

가중치 (Weight)와 바이어스 (Bias): 이 파라미터들은 노드 간의 연결 강도를 정의하는데 사용됩니다. 트레이닝 과정에서 계속 수치가 변화하고, 신경망의 출력값을 결정하는데 중요한 역할을 합니다.
활성화 함수 (Activation Function): ReLU나 Sigmoid 같은 함수로, 노드의 입력값을 출력값으로 변환하는데 사용됩니다. 활성화 함수는 신경망에 ‘비선형성’을 도입해서 복잡한 패턴을 모델링할 수 있도록 하는데 필수적인 역할을 합니다.
학습 규칙 (Learning Rule): 역전파 (Backpropagation) 등의 접근 방식이 실제 출력값과 예측된 출력값 간의 차이를 바탕으로 신경망의 가중치나 바이어스를 조정해 가면서 모델을 반복적으로 개선하게 됩니다.

MLP 개념은 1960년대에 만들어졌습니다. 처음의 컨셉은, 프랭크 로젠블라트 (Frank Rosenblatt)가 ‘퍼셉트론 모델’을 통해서 소개했는데, 이 퍼셉트론 모델은 기본적인 패턴 인식 작업을 하는 간단한 신경망입니다. 그렇지만, 마빈 민스키 (Marvin Minsky)와 시모어 페퍼트 (Seymour Papert)가 보여준 것처럼, 퍼셉트론은 ‘비선형 문제’를 해결할 수 없다는 제약이 있었고, 이로 인해 신경망에 대한 연구들이 일시적으로 중단되었습니다.

그 이후에 거의 20년이 지나서야, ‘다층 피드포워드 네트워크 (Multilayer Feedforward Network)’가 한 유한차원 공간에서 다른 유한차원 공간으로 일반적인 매핑을 근사 (Approximate)하는 능력을 연구자들이 탐구하기 시작했습니다. 1989년에 커트 호닉 (Kurt Hornik), 맥스웰 스틴치콤 (Maxwell Stinchcombe), 그리고 할버트 화이트 (Halbert White)가 ‘MLP가 - 충분한 수의 은닉층이 있으면 - 어떤 복잡한 연속 함수에 대해서도 근사치를 구할 수 있다’는 걸 보여줬고, 이 결과가 ‘보편 근사 정리 (Universal Approximation Theorem)’가 되었습니다.

'보편 근사’라고 불리는 이 특성 때문에, MLP는 새로운 문제가 나올 때마다 별도의 맞춤형 알고리즘을 설계할 필요없이, 간단한 회귀 문제부터 복잡한 패턴 인식 문제까지 광범위한 작업을 처리할 수 있는 아주 다재다능한 도구로 인식되었습니다.

‘Deep Learning Textbook’ - 이안 굿펠로우 (Ian Goodfellow), 요슈아 벤지오 (Yoshua Bengio), 아론 쿠르빌 (Aaron Courville) 공저 - 에 따르면, MLP는 ‘딥러닝 모델의 전형이나 본질적 형태’라고 할 수 있습니다. 오늘날 MLP는 텍스트, 이미지, 음성 등을 다루는 다양한 머신러닝 분야에서 폭넓게 사용되고 있죠. 아키텍처의 유연성, 그리고 비선형 함수를 근사할 수 있는 능력 덕분에, MLP는 딥러닝 및 신경망 연구의 기본 구성요소가 되었습니다.

KAN의 탄생, 그 이야기

뉴스레터 가입하시고 계속 읽으세요

This content is free, but you must be subscribed to Turing Post Korea to continue reading.

Already a subscriber?Sign in.Not now

Reply

or to participate.