• Turing Post Korea
  • Posts
  • Topic #36: '인과 (Causal) AI'란 무엇인가?

Topic #36: '인과 (Causal) AI'란 무엇인가?

Causal AI의 개요와 핵심 원칙, Causal AI가 앞으로 미칠 영향

글을 시작하며

‘인과율’을 떠올리면 생각나는 만화, 베르세르크. 글의 내용과는 별 관계 없습니다. ^.^

기본적으로 전통적인 AI, 특히 ‘기계 학습’이라고 하는 분야는, 주로 ‘데이터’로부터 ‘패턴’을 찾아내는 데 그 핵심이 있다고 할 수 있습니다. 입력값과 출력값 사이의 상관관계를 학습해서 ‘예측’에는 강력한 힘을 보여주지만, 항상 ‘설명’이 잘 되거나 ‘의사결정’에 큰 도움이 된다고 보기는 힘든 측면이 있습니다. 왜 이런 일이 일어나는지 알지 못하고, 단지 이것들이 함께 일어나는 경향이 있다는 것만 아니까요.

AI를 사용해서 ’왜 뭔가가 일어나는가’를 제대로 탐구하고 싶다면, ‘원인’과 ‘결과’ 간의 관계에 초점을 맞춘, 지금과는 다른 시스템이 필요해요 - 바로 이게 인과 AI(Causal AI)입니다. (지금부터 Causal AI라고 하겠습니다)

인과 관계. Image Credit: 레딧

Causal AI는 "환자의 치료법을 바꾸면 어떻게 될까?"라든가, "환자가 약을 먹지 않았더라도 회복을 잘 했을까?" 같은, 더 어려운, 그리고 실질적으로 큰 의미가 있는 질문들에 답을 할 수 있습니다. 서로 다른 요소들이 어떻게 영향을 미치고, 그 결과로 (잠재적으로) 어떤 일이 일어날 수 있는지를 분석해서, 의사결정, 계획, 그리고 ‘Whaf-if’ 상황에 대한 질문에 답을 하는 걸 도와줍니다 - 전통적인 AI가 힘을 잘 쓰지 못하는 영역이죠.

아직까지도 Causal AI에 대해서는 주로 학술적인 영역, 그리고 니치 (Niche) 영역에서 이야기가 되고 있기는 하지만, 특히 사람과 같은 추론 능력이라든가 AGI로의 길을 이야기할 때 Causal AI는 빼놓을 수 없는 요소입니다.

오늘은, Causal AI의 기초적인 부분, 그리고 실세계에서 어떻게 적용될 수 있는지, 이 Causal AI가 AI의 미래에 어떤 의미가 있는지 등을 함께 생각해 볼까 합니다.

오늘 에피소드에서는 다음과 같은 내용을 다룹니다:

Causal AI의 핵심 아이디어

앞서도 이야기했다시피, 전통적인 AI/ML 모델은 ‘상관관계’를 찾아냅니다 - 관찰하는 데이터에서 패턴을 추론하고, 입력값으로부터 결과를 예측할 수는 있지만, 해당 데이터에서 보이지 않는 과정에서 무슨 일이 일어나는 건지, 믿을 만하게 설명할 줄은 모릅니다. Causal AI는 ‘단순한 예측’을 넘어서 ‘설명 (Explanation)’, 그리고 ‘개입 (Intervention)’까지도 가능하게 하는 AI 개념으로, 한 가지 요소의 변화가 다른 요소에 어떻게 영향을 미칠지에 대한 ‘인과 관계’를 식별하는 걸 목표로 합니다.

Causal AI는, 특히 추론이라는 작업에서 AI가 더 ‘사람처럼’ 작동하게 해 줍니다. "원인"이라는 단어를 생각해보면, Causal AI의 아이디어는 항상 "무엇이 변화를 일으킬까요?", "무언가가 일어나나요?", "우리가 뭔가를 다르게 했다면 어떻게 될까요?" 같은 질문에 답하는 거라는 걸 알 수 있습니다.

어떤 ‘행동’과 그 행동의 ‘결과’, 그 뒤에 있는 ‘이유’를 이해하고, ‘What if’ 시나리오에 대해서 생각해 볼 수 있는 능력. 이런 능력은, 현 시점에 우리가 보통 사용하는 AI 모델에는 없는, Causal AI의 핵심적인 특징입니다. 어쩌면 이걸 ‘모델이 가질 수 있는 비판적 사고 (Critical Thinking)의 기초’라고 할 수 있을 텐데, 단순히 학습 패턴으로 보상을 받기 위해서 규칙을 따르는 게 아니라, 뭔가가 특정한 방식으로 작동하거나 작동하지 않는 이유를 진짜로 ‘이해하고 분석’할 수 있게 해 줍니다.

Causal AI의 아버지라고 불리는, 2011년 튜링상 수상자 Judea Pearl이 바로 이렇게 기계가 do-calculus와 인과 그래프 (Causal Graph) 같은 도구를 사용해서 원인, 그리고 결과에 대해 추론하는 방법의 이론적 기초를 마련한 사람이구요. Judea Pearl과 Dana Mackenzie가 공동 저술한 ‘The Book of Why’에서는, 세 단계의 인과 추론으로 구성된 ‘인과의 사다리 (Ladder of Causation)’ 개념을 제안하기도 했습니다:

Image Credit: The Book of Why

  • 레벨 1

    ‘관찰 (Seeing)’ 및 ‘상관관계 찾기 (Association)’ 단계는 관찰 데이터로부터 패턴을 찾아내는 레벨입니다.

  • 레벨 2

    ‘개입 (Intervention)’, ‘행위 (Doing)’는 의도를 가진 행동이 미래에 어떤 효과를 가지게 되는지 예측하는 걸 의미합니다. (do-operator)

  • 레벨 3

    ‘반사실적 사고 (Counterfactuals)’, ‘상상 (Imagining)’은 가설적인 시나리오를 기반으로 한 추론을 하는 걸 의미합니다 (“만약 뭔가가 달랐다면 어떤 일이 일어났을까?”)

전통적인 기계 학습의 경우는 대부분 첫 번째 레벨에 해당합니다. Causal AI는 첫 번째 레벨 그 위의 사고를 하면서 ‘왜 무슨 일이 일어났는지’, 그리고 ‘어떤 일이 일어날 수 있는지’ 답하는데 도움을 줄 수 있습니다. Causal AI는 인과 추론 (Causal Inference)라는 형식적 언어 (Formal Language)에 기반을 두고 있죠. 그런데 그 전에 먼저, Causal AI를 다뤄야 하는 이유는 뭘까요?

Causal AI가 AGI로의 길을 열어줄까?

이전에 튜링 포스트 코리아에서 월드 모델(World Models)에 대한 글을 쓴 적이 있는데요. 만약 월드 모델과 Causal AI를 통합한다면, 이런 모델들이 훨씬 더 강력해 질 수 있겠죠. 그런 관점에서, AGI를 원한다면 Causal AI는 필수적인 요소라고 생각합니다.

John Thompson (좌), 그의 저서 The Path to AGI (우)

현재 EY의 Generative AI 파트너인 John Thompson은 저서 ‘The Path to AGI’에서, AGI를 세 가지 핵심 요소로 바라보는데요: 바로, Foundational AI (여기서는 전통적인 기계 학습을 뜻합니다), 생성형 AI (Generative AI), 그리고 Causal AI, 이렇게 세 가지입니다. 각각이 진정한 지능을 구축하는데 중요한 요소로 역할을 한다고 주장합니다.

그와 함께, John Thompson은 AI의 미래는 Composite AI (복합 AI)에 있다고 이야기해요. 바로 세 가지 핵심 요소 모두를 (필요에 따라) 통합해서 실용적인 개발을 진행하면서 점진적으로 AGI로 진행한다는 겁니다.

저도 이 주장이 나름대로의 매력이 있다고 생각하구요, 그래서 더 많은 사람들이 앞으로 Causal AI에 대해서 관심을 가지기를 바라고 있습니다.

Causal AI 기초

Causal AI라는 개념을 구성하는 중요한 아이디어들로는:

  • 명시적인 인과 모델 (Explicit Causal Model)과 그래프 (Graph)

  • 개입 (Intervention)이라는 개념 - do-operator

  • 반사실적 추론 (Counterfactual Reasoning)

  • SCM (구조적 인과 모델)이나 do-calculus 같은 도구를 사용한 인과적 결론의 도출

등이 있습니다. 네, 단어들부터 머리가 아파오긴 하는데, 이 모든 걸 정확하게 다 이해할 필요는 없는 사람들이 대부분이구요. 살짝 살짝 필요할 때만 수학 기호들 조금씩 써 가면서, 상위 수준에서 이게 뭔가 하는 정도로 한 번 이해해 보죠.

우선, 어떤 데이터든 그 데이터를 다룰 때 생겨날 수 있는, 크게 봐서 두 가지 유형의 질문에서 시작을 해 볼까요?

  • 관찰 (Observation)한다는 방향의 질문: "X = x라는 걸 관찰할 때 때 보통 무슨 일이 일어나나요?"

  • 개입 (Intervention)한다는 방향의 질문: "내가 X = x로 설정하면 무슨 일이 일어날까요?"

반복해서 말씀드렸지만, 보통의 기계 학습에서 만들어지는 모델은, 거의 항상 ‘첫 번째 질문’에 답하는 기계라고 할 수 있어요. 하지만, 가끔은 두 번째 질문에 대한 답이 정말 중요하고 신경쓰일 때가 당연히 있겠죠? 이게 Causal AI의 영역이구요.

그렇다면, Causal AI는 어떤 것들로 구성되는 걸까요?

인과 추론 (Causal Inference)

‘인과 추론’은, 단순히 X가 관찰되거나 자연적으로 발생할 때 무슨 일이 일어나느냐를 관찰하는 게 아니고, "내가 X를 하면 무슨 일이 일어날까?" 같은 질문에 답하는 겁니다. 즉, 개입 (Intervention) - 우리가 행동을 하면 뭐가 변하는지에 초점을 맞춰요. 예를 들어, 다음 두 가지의 차이를 생각해 보세요:

  • 약을 복용하는 사람들이 회복되는 경향이 있다고 관찰하는 것 (상관관계; Correlation)

  • 약이 실제로 회복을 일으키는지 묻는 것 (인과관계; Causation)

이렇게, ‘수동적 관찰’에서 ‘능동적 개입’으로의 전환‘인과적 사고의 핵심’이라고 하겠습니다.

원인과 결과에 대해서 사고를 하는데 있어서는 몇 가지 다른 관점, 기법이 있는데요: 오래 전에는, 사람의 사유(思惟)에 의존해서 철학적인 방법으로 과연 ‘인과’가 무엇인가 생각했던 흐름이 전부 다였을 텐데요. 현대로 들어오면서, 이런 철학적 접근 방식 외에 더 체계적, 과학적인 방식으로 ‘인과 관계’를 분석하려는 기법들이 주목을 받게 되었습니다.

인과 추론의 양대 산맥. Image Credit: Simon’s Research Center

위 그림의 왼편이 ‘사유와 철학’에 근거한 인과 추론의 흐름을 대표하는 ‘Potential Outcomes Framework’이라는 방식, 그리고 오른편이 ‘데이터와 구조’에 근거한 인과 추론의 흐름을 대표하는 ‘SCM (Structural Causal Model)’이라는 방식이라고 할 수 있습니다.

그리고 이 두 가지 흐름의 연속체 중간에 있지만, 방법론 그 자체와 관점에 차이가 있다고 볼 수 있는 또 하나의 기법, DAG (Directed Acyclic Graph; 방향성 비순환 그래프)까지 포함해서 세 가지로 이야기할 수 있을 겁니다.

  • 잠재적 결과 (Potential Outcomes; 만약 이랬다면 어떻게 됐을까 라는 관점에서 생각하기)

  • DAG (방향성 비순환 그래프; 원인과 결과를 보여주는 화살표 그려서 표시하기)

  • SCM (구조적 인과 모델; 사물이 어떻게 연결되어 있는지에 대한 더 형식적, 구조적인 모델)

이것들 중에 보다 현대적인 접근 방식이라고 할 수 있는, DAG와 SCM에 대해서만 간단히 알아볼께요.

방향성 비순환 그래프 (DAG: Directed Acyclic Graph) 및 구조적 인과 모형 (SCM: Structural Causal Model)

방향성 비순환 그래프(Directed Acyclic Graph, DAG로 표시하겠습니다)는, 인과 관계를 시각적으로 그리고 수학적으로 표현하는 데 중요한 역할을 합니다. 모든 다른 그래프 구조와 마찬가지로, DAG도 노드와 엣지가 있습니다. DAG의 각 노드는 변수 (예를 들어서, ‘흡연’, ‘폐암’)를 나타내고, 각 엣지는 한 변수에서 다른 변수로의 직접적인 인과적 영향을 나타냅니다.

  • 방향성(Directed)이란 건, 변수 사이의 엣지가 원인에서 결과로 ‘한 방향’으로 간다는 뜻입니다.

  • 비순환(Acyclic)이란 건, 같은 변수로 다시 돌아갈 수 없다는, 즉, 순환적인 의존성이 없다는 뜻입니다.

Image Credit: ‘Applied Causal Inference Powered by ML and AI’ 논문

DAG는 일종의 인과 지도 (Causal Map)로 볼 수 있고, 변수들이 인과적으로 어떻게 연결되어 있는지를 시각화하고, 교란 변수(즉, 원인과 결과 모두에 영향을 미치는 변수)를 식별하고, 인과의 효과를 추정할 때 어떤 변수를 통제해야 하는지 파악할 수 있게 해 줍니다. 즉, ‘교란 문제’를 드러내 주어서 해결할 수 있도록 해 준다는 거죠.

구조적 인과 모델(Structural Causal Model, SCM으로 표시하겠습니다)은 여기서 한 걸음 더 나아갑니다 - 이 그래프들을, 변수들이 어떻게 상호작용하고 서로에게 영향을 미치는지까지 정의하는, 수학적인 함수와 결합합니다. SCM은 ‘개입 (Intervention)의 조건’ 하에서 결과를 계산하도록 해 주고, "만약 ...라면 어떻게 됐을까?"와 같은 복잡한 질문에 답하게 해 주고, 심지어 대안적인 시나리오 (반사실적 시나리오; Counterfactuals라고 표시할께요)를 탐색할 수도 있게 해 줍니다.

그럼, 이 ‘수학적 함수’, 그리고 ‘Counterfactual’이라는 건 정확하게 뭘까요?

‘do-operator’

SCM이 관찰과 개입을 서로 다른 행위로 구분한다고 했는데, 바로 do-operator, 즉 do(X)로 표기되는 이 함수가 수학적으로 그 작업을 하게 됩니다.

Judea Pearl 교수는 단지 X가 발생하는 것 자체를 관찰하는 데서 그치지 않고, 임의의 무작위 실험을 하듯이 X를 직접 설정하기 위해서 이 do-operator를 도입했는데요. 그래서 여기에는 이런 개념이 등장합니다:

  • P(Y | X) = X가 관찰될 때 Y의 확률은 얼마인가?

  • P(Y | do(X)) = X를 설정하기 위해 개입할 때 - 즉, X를 설정하는 활동을 할 때 - Y의 확률은 얼마인가?

이 영역의 관련 공부를 하신 분이라면 모두들 아시겠지만, 이 두 가지의 구별은 너무나 중요하죠. 예를 들어, 누군가 약을 복용하는 걸 그저 관찰하는 건, 그 사람으로 하여금 약을 복용하도록 하는 것과는 아주 다른 것이죠. 첫 번째는 상관 관계에 대해서 알려주는 것이고, 두 번째는 인과 관계를 드러낼 수 있으니까요.

do-operator를 포함하는 표현식을 단순화하고 잘 조작할 수 있도록, Judea Pearl은 인과 다이어그램(DAG죠)을 사용해서 개입 (Intervention)에 대해서 추론하는 수학적 도구로 do-calculus를 도입했어요.

‘do-calculus’의 규칙

do-calculus세 가지 규칙으로 구성되어 있는데, 이 규칙들은 특정한 가정 하에서 do-operator를 포함하는 표현식을 일반적인 확률 표현식으로 변환할 수 있게 해 줍니다. 특히 직접적인 개입을 사실상 수행할 수는 없고 관찰 데이터만 있을 때 유용합니다. 세 가지 규칙은 이렇습니다:

  1. X에 개입한 그래프 (do-operator인 do(X)를 사용한 거죠)에서, X와 W가 주어졌을 때 Y가 Z와 조건부 독립이라면, Z를 조건에 포함시켜도 아무것도 변하지 않습니다. 만약 X와 W를 알면 Z가 Y에 영향을 미치지 않는 경우에 해당하죠.

  2. X, Z, W가 주어졌을 때 Y가 X에 대한 개입과 조건부 독립 관계라면, 그래프에 의해 결정된 특정한 조건 하에서 ‘개입’을 일반적인 ‘관찰’로 대체할 수 있습니다.

  3. Z와 W가 주어졌을 때 Y가 X에 대한 개입과 조건부 독립이라면, Z와 W가 주어졌을 때 Y에 영향을 미치지 않는 경우에 do(X)를 제거할 수 있습니다.

do-calculus는 Causal AI로 하여금 인과적 추론을 하도록 해 주는 일종의 도구 상자라고 볼 수 있습니다. 이 도구 상자를 통해서 인과 관계를 ‘올바르게 추론’하기 위해 어떤 변수를 조건으로 할지, 또는 무시할지를 결정할 수 있습니다. DAG와 함께, do-calculus는 항상 무작위 실험을 하지 않고도 인과적인 결론을 내리기 위한 논리 구조를 제공합니다.

좀 어렵죠? 어쨌든, 올바른 조건이 주어진 ‘관찰 데이터’만 있다면 반사실적 세계 (Counterfactual World; 우리가 다르게 행동했다면 어떻게 됐을까)를 시뮬레이션할 수 있게 해 주기 때문에, do-operator는 중요한 의미를 갖습니다.

반사실적 사고 (Counterfactuals): “만약에 ~라면 어떨까"

가장 고급 형태의 인과 추론은, 바로 "그 사람이 약을 복용하지 않았다면 살아남았을까?" 같은 반사실적 (Counterfactual) 질문에 대한 답을 하는 겁니다. 이러한 질문들은 바로 ‘대안적 현실’을 탐색하는 것이죠. 이런 질문에 답하기 위해서, ‘개입이 일어나지 않았지만 다른 모든 조건들이 동일하게 유지’되는, 이런 ‘대안적 현실’을 SCM을 기반으로 시뮬레이션합니다.

이런 질문들에 답하려면, 그냥 ‘수많은 데이터’만 가지고는 안 되겠죠. 바로 월드 모델 (세계에 대한 모델)을 필요로 합니다. 그래서 고전적인 통계학은 이런 "만약에" 시나리오를 너무나 어려워 할 수 밖에 없지만, 인과 추론은 이런 시나리오를 다룰 수 있는 거죠.

저 위에서 살펴본 ‘The Book of Why’에 실려있는 ‘인과의 사다리 (Ladder of Causation)’에서도, Counterfactual은 가장 높은 레벨에 있는 겁니다:

  1. 상관 관계 (Association) – 우리가 관찰하는 것: P(Y | X)

  2. 개입 (Intervention) – 우리가 행동할 때 일어나는 일: P(Y | do(X)). 여기서 do-operator를 볼 수 있죠.

  3. Counterfactual – 다른 시나리오에서라면 어떤 일이 일어났을까

이 모든 것들을 종합해 보면, 결국 ‘인과 발견의 과정’을 관찰할 수 있습니다.

인과 발견의 과정

‘인과 발견 (Causal Discovery)’은, 단지 데이터를 보는 것만으로도 ‘어떤 것이 무엇을 일으키는지’ 알아내는 과정입니다. 그런데, 여기에 문제가 있죠 (예상하시겠지만 ^.^): 데이터는 보통 인과 관계가 아닌 상관 관계만 보여주잖아요. 그래서 ‘인과 발견’은 여기서 한 걸음 더 나아가서, 변수 사이에 있을 수 있는 원인-결과의 관계를 추측하려고 하게 되고, 그 목적은 바로 올바른 ‘인과 그래프’, 즉 DAG를 찾는 것이 됩니다.

‘인과 발견’은 데이터의 패턴, 특히 변수 간 독립성과 의존성의 패턴을 사용해서 그래프의 구조가 어떻게 생겼을지 추측하고 알아냅니다. 이건, 숨겨진 ‘교란 변수’가 없고 (즉, X와 Y 변수 모두를 교란시키는, 몰래 숨어있는 요소가 없다는 것이죠), 데이터가 ‘인과적 충실성 (Causal Faithfulness)’이라고 부르는 일관된 논리를 따를 때에만 작동하게 됩니다.

‘인과 발견’에 사용하는 몇 가지 대표적인 알고리즘이 있습니다:

  • 제약 조건 기반의 알고리즘 (Constraint-based Algorithms)

이 계열의 알고리즘은, ‘조건부 독립’ 관계를 제약 조건으로 사용해서, 제약 조건에 합치하는 인과의 구조를 구성합니다. 가장 기본적인 예시라면 PC (Peter-Clark) 알고리즘인데, 모든 변수가 연결된 상태에서 시작해서, (다른 변수를 통제한다는 전제 하에서) 독립적인 변수 사이의 연결을 제거합니다. 이런 규칙을 사용해서, ‘어떤 화살표가 실제로 있을 가능성이 높은지’ 알아내는 거죠. 그 결과로 인과 그래프, 또는 ‘가능한 그래프들의 집합’이 만들어지게 됩니다.

Image Credit: causaLens 블로그

그 알고리즘을 확장한 게 FCI (Fast Causal Inference) 알고리즘인데, 같은 작업을 하지만 ‘숨겨진 교란 변수’, 즉 결과에 영향을 미치는 알려지지 않은 변수까지 고려합니다.

  • 스코어 기반의 알고리즘 (Score-based Algorithms)

이 종류의 알고리즘들은, 다양한 그래프를 시험해 보는 가운데 각각이 주어진 데이터들에 얼마나 잘 맞는지 점수를 매겨서 가장 높은 점수를 받은 걸 선택하는 겁니다. 예를 들어서, GES (Greedy Equivalence Search)는 ‘적합도 점수’를 최대화하기 위해서 엣지를 추가하기도, 제거하기도 합니다. 물론, 이 과정에서 그래프의 정확성 vs. 복잡성 간의 균형을 맞추는 작업을 합니다. 데이터셋이 아주 큰 경우에는 속도가 느려서 문제가 되기도 하지만, 그렇지 않은 경우에는 잘 작동한다고 알려져 있습니다.

  • 기타 특수한 알고리즘

카네기 멜론 대학의 NOTEARS 같은 알고리즘은, ‘올바른 DAG를 찾기 위한 검색을 최적화’하는 걸 목표로 합니다. 특히 NOTEARS는 문제를 ‘부드러운 수학적 방정식’으로 바꿔요. 변수 간에 있을 수 있는 여러 가능한 관계 (그래프의 엣지)를 나타내는 행렬로 시작해서, Score Function은 그래프가 데이터를 얼마나 잘 설명하는지 정의, 확인하고, 그래프에 순환이 발생하지 않도록 부드러운 수학적 제약 조건이 추가됩니다. 그런 다음에, 표준 수치 해석기 같은 최적화 도구로 최적의 행렬을 찾는 겁니다. 이 기법은, 구현이 비교적 쉽고, 복잡한 맞춤형 알고리즘을 만들 필요가 없습니다.

자, Causal AI가 일반적으로 어떻게 작동하는게 되는지 어느 정도 알아본 것 같으니까, 이제 실제 현실의 시나리오에서 복잡하고 어려운 작업을 지원하기 위해서 Causal AI를 어떻게 사용할 수 있는지 한 번 살펴보죠.

실제 세계에의 적용

Causal AI는, 예를 들어서 ‘강화 학습’ 같은 토픽과는 좀 다르게, 수많은 사람들이 계속해서 논의하는 주제까지는 아직 아닙니다. 하지만, Causal AI 기법이 사용된 사례들을 보면 ‘원인과 결과’ 관계를 찾아낼 수 있는 모델은 우리의 세계를 크게 재구성할 수 있다는 걸 명확하게 확인할 수 있습니다.

한 번 다양한 분야의 사용 사례를 함께 보겠습니다.

헬스케어

2022년 Elevance Health라는 회사 (전 이름은 Anthem)의 연구진이 BCAUS라는 Causal Deep Learning 모델을 100만 명 이상 당뇨병 환자의 실제 건강 기록에 적용했는데요.

관찰 데이터를 기준으로 볼 때는, 서로 다른 치료법으로 치료를 받은 사람들이 여러 가지 중요한 차이점이 있을 수 있는데, 신경망 기반의 기법인 BCAUS를 활용해서 이런 차이점 간의 밸런스를 맞췄습니다. 그 결과로, 연구자들이 80개 이상의 항 고혈당 치료 전략의 효과를 객관적으로 비교하고, 어떤 약물의 조합이 다양한 환자 집단의 혈당 수준 (HbA1c)을 가장 잘 낮추는지를 확인할 수 있었다고 합니다 - Causal AI 모델을 활용해서, 상위 랭크에 있는 치료법이 하위 랭크 치료법과 비교해서 HbA1c 수치를 평균 0.69% 더 낮췄다는 결과가 나왔습니다 (상당한 개선이라고 할 만한 수치라고 합니다)

Image Credit: ‘Causal deep learning reveals the comparative effectiveness of antihyperglycemic treatments in poorly controlled diabetes’ 논문

또 다른 예로는, 에든버러 대학과 Canon Medical Research Europe의 연구가 있는데요. 뇌 MRI 스캔을 사용한 알츠하이머병 진단 작업에서 Causal AI가 ‘의료적인 의사 결정’을 어떻게 더 잘 하도록 도와주는지 보여줍니다.

이 연구에서는, 인과 그래프를 사용해서 나이, 알츠하이머 상태, 그리고 뇌 구조 사이의 관계를 모델링하고, 나이를 교란 변수로 식별했구요. 그런 다음, 인과 생성 모델을 적용해서 ‘나이’와 ‘알츠하이머 상태’ 변수 두 개 중 하나는 고정한 채로 다른 하나의 변수를 변경하면서 합성 뇌 이미지를 생성했습니다. 이 과정을 통해서 ‘Counterfactual Examples’를 생성, 모델이 정상적인 노화와 질병의 영향을 구별하는 방법을 학습하는데 기여했습니다 - 예를 들어, 80~90세 연령 그룹에서 진단 정확도가 75.5%였던 것이 84.2%로 증가했다고 합니다.

Image Credit: ‘Causal Machine Learning for Healthcare and Precision Medicine’ 논문

이런 예시들을 보면, ‘인과’에 대한 지식을 잘 통합하면, ‘편향성’을 줄일 뿐 아니라 ‘일반화’ 성능을 개선해서, 맞춤형 의료를 위한 기계 학습 시스템의 신뢰도를 높일 수 있다는 생각을 하게 됩니다.

파이낸스

영란 은행 (The Bank of England)의 감독관들은, 은행 오퍼레이션과 관련된 ‘비정상적인 금융 위험 지표’를 어떻게 설명할 수 있을까 하는 관점에서 Causal AI 영역에 관심을 가지게 되었습니다. 규제 데이터로부터 구축한 DAG, 그리고 분석 및 검증용 DoWhy 파이썬 라이브러리로, 유동성 (Liquidity) 같은 지표가 갑작스럽게 변할 때 어떤 근본적인 원인이 있을 수 있는지 분석을 했습니다. 영란 은행에 대한 케이스 스터디를 보면, 이 방법으로 은행의 LCR (Liquidity Coverage Ratio; 유동성 커버리지 비율, 은행이 위기 상황 발생 시 30일 동안 순 현금 유출을 충당할 수 있는 고유동성 자산의 비율)이 유동성 버퍼가 부족할 때 비정상적으로 증가할 수 있다는 걸 발견, 확인하기도 했다고 합니다. (아주 심플하게 생각했을 때는 두 지표가 비례 관계인데, 복잡한 환경적 변수 때문에 ‘상식과 반대되는 인과 관계’가 있을 수 있다는 걸 발견한 겁니다)

Image Credit: Bank Underground 블로그

메타의 인스타그램

여러분들도 많이 쓰시죠? 메타의 인스타그램을 쓰다보면 ‘알림’ 기능이 있죠? 인스타그램 팀에서, 사용자에 대한 이 ‘알림’ 기능을 개선하기 위해서 ‘인과 추론’ 기능을 개발, 배포했습니다.

2022년에 업리프트 모델링을 위한 무작위 실험을 하고, Causal Machine Learning을 사용해서, 알림을 보내지 않아도 특정한 컨텐츠를 볼 만한 사용자를 식별했습니다. 이렇게 누구에게 알림을 발송할지 중단할지 타겟팅을 ‘인과적’으로 해서, 전체적인 사용자의 참여와 경험을 개선하면서도 보내는 알림의 수를 많이 줄였습니다. 결과적으로, 알림의 숫자가 준다는 건, 그만큼 하나 하나의 알림의 영향력이 높아진다는 뜻이죠.

Causal AI와 강화 학습: 강력한 조합

구글 딥마인드의 연구자들이 ‘인과성’과 ‘강화 학습’을 연결해 주는 근본적인 증명을 해 냈습니다. 2024년의 논문을 보면, 어떤 AI 에이전트든 ‘상관 관계’에만 의존해서는 제대로 작업할 수 없다는 걸 보여줬어요 - 환경의 다이나믹스가 변할 때 Regret (보상 편차 정도라면 될까요?)을 낮은 수준으로 유지하려면, 결국은 ‘인과의 구조’를 파악해야 합니다.

연구자들은 이런 걸 발견했다고 합니다:

  • 에이전트가 높은 적응성을 갖추려면, 반드시 인과 구조를 학습해야 한다

  • 에이전트가 좋은 인과 모델을 가지고 있다면, 좋은 결정을 내릴 수 있다

  • 완벽하지 않은 상황에서도, 근사 학습은 여전히 의미있게 작동한다

  • 인과 발견은 전이 학습 문제 안에 숨겨져 있다 - 즉, 인과 발견이 전제되지 않고는, 효과적인 전이 학습은 힘들다

정리해 보면, 의사결정, 전이 학습, 인과 추론이 서로 밀접하게, 깊은 수준에서 연결되어 있다는 것이고, AI 에이전트가, 특히 ‘개방형의 환경’, 그리고 ‘대부분의 실제 환경’ - 예측하기 어려운 요소가 반드시 있는 - 에 배포될 때, ‘인과적 이해’가 있어야만 에이전트 시스템의 견고성 (Robustness)이 받쳐질 수 있다는 걸 시사합니다.

맺으며: AI의 미래에 있어서 Causal AI가 중요한 이유

‘인과 추론’, 이건 단지 ‘무슨 일이 일어났는지’가 아니라 ‘왜 일어났는지’를 이해하기 위한 방법입니다.

어떤 모델을 기반으로 하든, 거기에 인과 관계를 통합하게 되면, 현재 AI 모델이 가진 많은 한계를 극복할 수 있습니다 - Causal AI가 AI의 미래에 중요한 이유는 이런 것들입니다:

  • 일반화 (Generalization) 성능 및 견고성 (Robustness) 개선

    전통적인 ML 모델과는 달리, 인과 모델은 단지 표면적인 상관 관계가 아닌 진정한 원인-결과 관계를 포착하기 때문에, 다양한 방식으로 변화하는 조건에서 더 안정적인 성능을 보여 줍니다.

  • 설명 가능성 (Explainability)과 투명성 (Transparency) 제고

    Causal AI는, 단지 무엇이 일어났는가가 아니라 왜 일어났는지 이야기 할 수 있기 때문에, 의사 결정을 드라이브하는 진정한 이유를 식별하고 개발자들이 문제의 원천을 추적하는 데 도움을 줍니다.

  • 의사 결정 (Decision Making)과 'What-if' 추론

    Causal AI는 잠재적으로 일어날 수 있는 행동의 결과를 미리 예측해 보기 위한 시뮬레이션을 할 수 있게끔 해 주는데, 시뮬레이션은 정책, 의료, 비즈니스 전략 뿐 아니라 수많은 영역의 분석에 큰 도움이 됩니다.

  • 더 ‘인간다운’ AI를 향한 도구

    데이터로부터 패턴만을 이해하는 것은, ‘사람 수준의 추론’과는 거리가 멉니다. AI가 예측의 이면에 존재하는 실제 원인을 깊이 이해한다면, ‘상식’, 그리고 ‘비판적 사고’가 가능해 집니다.

우리들도 뭔가에 대해서 "왜?", “어떻게?”라는 질문들을 꼬리에 꼬리를 물면서 반복하게 되면, 그 과정에서 원인-결과 관계를 이해하게 되면서 더 똑똑해지죠. AI도 마찬가집니다. 사람 수준의 추론 능력을 가진 고급 AI 시스템을 원한다면, Causal AI를 개발하고 통합하는 건, 어쩌면 필수적인 단계가 아닐까 합니다. ML, 생성형 AI, 물리적 AI와 Causal AI가 결합한다면, 보고, 상상하고, 배우고, 행동하고, 모든 것의 원인을 파악할 수 있는, 정말 뛰어난 AI의 시대가 빠르게 도달할 거라고 생각합니다.

보너스: 참고자료

  1. The Book of Why: The New Science of Cause and Effect (book by Judea Pearl, Dana Mackenzie)

  2. The Path To AGI (book by John Thonpson)

  3. Applied Causal Inference Powered by ML and AI (paper)

  4. Causalvis: Visualizations for Causal Inference (paper)

  5. A Causal AI Suite for Decision-Making (paper)

  6. Causal Learning for Socially Responsible AI (paper)

  7. Foundations of Structural Causal Models with Cycles and Latent Variables (paper)

  8. What is a directed acyclic graph (DAG)? (IBM’s blog)

  9. DAGs with NO TEARS: Continuous Optimization for Structure Learning (paper)

  10. A Survey on Causal Reinforcement Learning (paper)

  11. Causal deep learning reveals the comparative effectiveness of antihyperglycemic treatments in poorly controlled diabetes (article)

  12. Using causal inference for explainability enhancement in the financial sector (blog)

  13. Improving Instagram notification management with machine learning and causal inference (blog)

  14. Robust agents learn causal world models (paper)

  15. Interpretable AI-driven causal inference to uncover the time-varying effects of PM2.5 and public health interventions on COVID-19 infection rates (article)

  16. Causal AI Framework for Unit Selection in Optimizing Electric Vehicle Procurement (paper)

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.