• Turing Post Korea
  • Posts
  • Topic #16: '이미지'로 생각하게 하는 'Whiteboard-of-Thought'

Topic #16: '이미지'로 생각하게 하는 'Whiteboard-of-Thought'

멀티모달 LLM이 '시각적'으로 단계별 추론을 하게 하는 기법

글을 시작하며

텍스트 기반의 추론에 초점을 맞춘 CoT (Chain-of-Thought)는 언어모델에 ‘단계적 사고’를 하도록 해서 성능과 정확도를 높이는 효과적 기법 중 하나죠. 튜링 포스트 코리아에서도 CoT의 확장판이라고 할 만한 CoK (Chain-of-Knowledge) 기법에 대해서 다룬 적이 있구요.

이런 기법들이 상당한 장점을 갖고 있는 건 사실이지만, 당연히 모든 종류의 작업을 수행하는데 충분한 건 아니겠죠.

생각해 보면, 사람은 ‘시각적인 사고’를 많이 합니다. 어떤 문제를 풀려고 할 때, 이미지라든가 그래프 등으로 복잡한 정보를 처리하고, 추상적인 개념을 이해할 때도 이를 심상 (Mental Image)화해서 다루기도 합니다. 텍스트 기반으로 추론하는 언어모델의 접근 - 및 CoT, CoK를 포함한 기법 - 과는 좀 다른 접근이라고 할 수 있겠고, 바로 ‘모델에게도 이런 시각적인 사고를 하게 해 보면 어떨까’라는 생각에서 출발한 게 바로 ‘WoT (Whiteboard-of-Thought)’입니다.

WoT 기법을 통해서 모델은 시각적인 사고가 필요한, 또는 시각적인 사고를 할 수 있다면 유리한 문제들을 단순히 말로만 처리하는 것보다 더 잘 다룰 수 있게 됩니다.

오늘은 이 흥미로운 아이디어에 대해서 살펴보고, 그 가능성을 탐구해 보시죠.

이 글은 아래 목차로 구성되어 있습니다:

‘시각적 추론’에 있어서 LLM의 한계

거대 언어모델 (LLM)은 수학적 추론이나 기호 추론 등의 ‘논리적인 작업’에서 아주 강력한 성능을 보여주도록 진화해 왔습니다. 그 과정에서 CoT (Chain-of-Thought)라고 알려진, ‘사고의 단계를 텍스트로 작성해서 모델의 사고 과정을 추적하고 문제를 단계적으로 해결하게끔 하는 기법’이 상당 부분 기여를 했구요.

그런데, CoT 기법도 - LLM이 이미지를 포함한 다양한 유형의 데이터를 포함해서 학습을 했는데도 불구하고 - 시각적인 사고가 필요한 문제를 해결하는 데는 어려움을 겪습니다. 즉, 공간적인 관계나 시각적인 배치를 이해해야 하는 문제에서는, 텍스트만 가지고는 중간의 추론을 표현하기가 까다로워서, 이런 문제에서는 정확한 답을 내지 못하게 됩니다.

사람이라면, 이런 시각적인 과제가 주어졌을 때 자연스럽게 머릿속으로 그림을 상상하든, 아니면 실제로 그림을 그려가든 하면서 문제를 이해하고 해결하지 않겠어요? 이런 사고의 방식을, AI 모델에도 적용해 보면 어떨까요?

WoT (Whiteboard-of-Thought)의 등장

“우리가 생각한 핵심은, ‘시각적 추론 과제를 수행하려면 시각적 요소가 필요하다는 거였습니다.”

컬럼비아 대학교의 연구진은 ‘이미지와 텍스트를 모두 처리할 수 있는 멀티모달 LLM (MLLM)을 사용’해 보기로 했습니다. 그 결과 나온 게 "WoT (Whiteboard-of-Thought)" 프롬프팅 기법이구요.

WoT는 그 이름이 나타내듯이, 마치 사람이 실제로 앞에 놓인 화이트보드를 사용하는 것처럼, 가상의 ‘화이트보드’ 위에 모델이 스스로의 사고 과정, 추론 단계를 이미지로 ‘그릴’ 수 있게 해 줍니다. 그 이미지들을 활용해서 추론을 이어가고 결국 문제를 해결하는 거죠.

Image Credit: 프로젝트 페이지

GPT-4와 같은 SOTA AI 모델조차도, 세부적인 사항을 시각적 요소를 활용한 추론을 할 수 없고 텍스트만으로 단계별 추론을 하는 경우에 실수를 얼마든지 할 수 있습니다. 위 그림의 예를 보죠. “오른쪽에 선이 내려오는 동그라미 모양의 (영어) 소문자”가 뭐냐는 질문을 했을 때, 왼쪽의 텍스트 기반 추론으로는 ‘b’라는 대답이, 오른쪽의 시각 요소를 활용한 추론으로는 ‘q’라는 대답을 할 수 있다는 걸 보여주고 있습니다.

더 흥미로운 건, 이 기법을 사용하기 위해서 어떤 특별한 훈련을 하거나 예시를 줄 필요가 없다는 겁니다. Matplotlib이나 Turtle 같은 코딩 라이브러리를 통해서 이미지를 생성한다든가 해서, 모델이 이미 알고 있는 도구를 활용하면 됩니다.

자, 그럼 이제 이 기법이 실제로 어떻게 구현되는지 살펴보시죠.

WoT의 작동 방식, 성능 및 장점

WoT는 어떻게 작동하나?

아주 간단히 표현하자면, WoT 작동 과정은 이렇습니다: 모델이, 주어진 질문을 바탕으로 ‘그림을 그리기 위한 코드’를 작성하고, 그 그림이 처리된 다음 모델이 결과물을 보고 - 활용해서 - 답을 찾아내는 겁니다.

조금 더 단계별로 일어나는 일을 살펴보면:

  • 1단계: 시각적 이미지 생성을 위해 외부 라이브러리를 호출

    • 일반적으로 MLLM은 시각적인 이미지를 직접 생성하는 법은 모르는데요. Matplotlib이나 Turtle 같은 라이브러리를 불러들여서 간단한 파이썬 코드를 작성하게 가르칠 수는 있습니다. 이런 도구들을 단순한 도형, 기호 같은 최소한의 추상적인 시각적 요소를 만들어내게 되고, 모델을 이것들을 활용해서 문제를 검토할 수 있게 됩니다.

  • 2단계: 질문에 근거하여 시각적 이미지 생성

    • 질문이 주어지면, 모델은 답변을 만들어내기 전에 코드를 사용해서 시각적 이미지를 만들라는 지시를 받습니다. 예를 들어, 모델에 아래와 같은 프롬프트를 줄 수 있습니다:

      “파이썬의 {Matplotlib/Turtle} 라이브러리를 사용해서 시각화를 하는 코드를 작성해 주세요. 사용자가 이를 실행해서 이미지로 제공할 겁니다. 시각화된 요소를 검토하기 전까지는 최종 답변을 제시하지 마세요.”

      그러면 모델은 질문에 기반해서 코드를 작성합니다.

  • 3단계: 이미지 만들기

    • 모델이 작성한 코드가 실행되어서 이미지가 만들어지고, 이 이미지가 다시 모델에게 전달되면 모델ㄹ이 추가적으로 생각을 해 보거나 최종적인 답변을 만들어내는데 활용합니다.

생각해 볼 만한 다른 방법으로, Text-to-Image 모델을 사용해서 다양한 시각적 요소를 만들어 보는 법이 있을 텐데요. 현실적으로 이런 모델들이 '시각적 추론'에 도움이 될 만한 성격의 , 정밀한 그림을 그리는건 그닥 잘 하는 것 같지는 않습니다. 물론 앞으로는 많은 발전의 여지가 있고, 그 때에는 WoT 기법에 통합할 수 있을 거라고 생각합니다.

자, 그럼 모델이 스스로 생각하는 과정을 ‘그림으로 표현할 수 있도록’ 하면 실제 모델의 성능에 어떤 영향을 미칠지 살펴보죠.

WoT의 성능은 어떤가? 

WoT 기법으로 여러 가지 다양한 작업에서 모델이 어떤 성능을 보여주는지 한 번 살펴보겠습니다. 모든 실험이 Zero-shot 환경에서 진행되었고, 직접적인 프롬프트를 써서 답을 받은 것과 Zero-shot CoT 두 가지 베이스라인 결과와 비교해 본 것들입니다.

  • ‘ASCII 아트’를 이해하는 과제

    • ‘ASCII 아트’는 컴퓨터 자판의 문자나 기호(!, @, #, $ 등)들을 조합해서 만든 그림이나 도형이죠. 아주아주 간단한 예를 들면 :-) 이런 기호는 ‘웃는 얼굴’이죠.

    • [그림 1] 이 과제에서, WoT 기법을 사용했을 때 AI가 간단한 시각화를 통해서 다른 기법을 사용했을 때보다 더 나은 성능을 보여줬는데요. CoT 방식이 1.1% ~ 27.2% 정도의 정확도를 보인 반면 WoT는 최대 73.8%의 정확도를 달성했습니다.

    • [그림 2] 기타 다른 형태의 ASCII 아트에 대해서도 시각적으로 인식하기 용이하도록 이미지를 생성하는 모습을 보여줬습니다.

[그림 1] 프로젝트 페이지

[그림 2] 프로젝트 페이지

  • 공간 내비게이션 (Spatial Navigation) 과제

    • ‘지도에서 길찾기’ 같이 공간을 찾아나가는 과제에서, WoT 기법은 육각형이나 원형과 같은 ‘비격자’ 구조의 경우에 61%의 정확도를 보여줬는데, 이건 기존 CoT 방식이 보여주는 8% 정확도에 비하면 엄청난 향상입니다. 다만, 단순한 격자 기반 구조에서는 오히려 전통적인 방식이 더 나은 성능을 보여줬네요.

Image Credit: 프로젝트 페이지

  • 전반적인 성능

    • 캘리그램 (글자로 그린 그림)이나 비디오 게임 아트와 같은 특정 분야에서는, 기존 CoT 기법이 실패 (일부 경우 0%의 정확도)한 반면에 WoT 기법은 최대 92%의 정확도를 달성한 모습입니다.

      • WoT는 먼저 시각적 표현을 만들어냄으로써 ‘시 (Poem)’를 정확하게 해석할 수 있었습니다.

      • 비디오 게임 아트의 경우, 텍스트 설명만으로는 AI 모델이 플레이어의 시각적 창작물을 이해하기 어려운데, WoT 기법으로는 최종적인 시각적 결과물을 생성해 내서 더 쉽게 평가할 수 있었습니다.

WoT가 주는 이점 

그럼 WoT 기법이 가져다 주는 핵심적인 장점들을 간단히 요약해 보죠.

  • 시각적 추론 능력’의 개방: WoT는 AI 모델이 이미지를 만들고 이를 활용해서 답을 추론함으로써 시각적 과제를 더 잘 해결할 수 있게 합니다. 이 기법은 특히 도형, 도표, 공간을 이해하는 과제에서 아주 쓸모가 있습니다.

  • ‘단순’하고 ‘유연’한 사용법: 이 방법은 특별한 훈련이나 추가 모듈이 없이도 파이썬의 Matplotlib이나 Turtle 라이브러리와 같은 기존 도구들을 활용해서 시각적 요소를 만들 수 있고, 따라서 구현이 쉽습니다.

  • 복잡한 과제에서의 ‘성능 향상’: WoT는 텍스트만으로는 정보를 얻는데 부족한, 시각적 또는 공간적 추론이 필요한 과제에서 모델의 성능을 향상시켜주니까, 전통적인 언어 모델들보다 더 나은 결과를 얻을 수 있습니다.

  • 쉬운 ‘오류 분석’ 및 ‘조정’: WoT를 통해서 이미지를 시각화하거나 해석하는 과정에서 발생하는 오류를 더 쉽게 파악할 수 있습니다. 따라서 모델의 성능을 개선하기가 더 수월합니다.

  • ‘확장’성: 모델과 컴퓨터 비전 시스템이 발전해 가면서 WoT 기법의 효과도 함께 커질 테니까, 미래의 AI 발전에 있어 잘 활용할 수 있는 강력한 도구가 될 겁니다.

WoT의 한계점

지금까지 살펴본 바와 같이, WoT 기법이 가져다 주는 많은 장점의 이면에, 현재 모델의 한계에 기인하는 몇 가지 제약 사항도 있습니다:

  • 비전 시스템의 성능, 정확도에 대한 의존: WoT 기법의 성능은 모델의 시각적 해석이 얼마나 정확하냐에 크게 의존합니다. 테스트 결과, 상당한 비중의 오류가 ‘시각적인 인식’ 문제 때문에 발생하는데, 컴퓨터 비전 기술이 많이 발전하긴 했지만 여전히 한계가 있죠.

  • 복잡한 시각적 이미지를 처리할 때의 어려움: WoT 기법을 활용할 때 단순한 시각적 이미지는 큰 어려움이 없이 잘 처리하지만, 기하학적 도형이나 복잡한 도표와 같은 것들을 다룰 때는 쉽지 않습니다 - 현재의 모델들이 아직 상세한 시각적 이미지를 완전히 이해할 만큼 발전하지 못했기 때문입니다.

  • 코드 실행의 문제: 코딩의 실수나 올바른 이미지를 생성하는데 실패한다든가 하는, 시각적 이미지를 생성하는 과정에서 때때로 오류가 발생할 때가 있습니다. 이런 경우에 당연히 WoT 기법의 효과는 제한될 수 밖에 없구요.

  • 현재 모델 능력의 한계: WoT 기법은 MLLM의 코드 작성 능력, 이미지 해석 능력 등 기존 기능에 의존합니다. 이런 기본적인 능력이 충분히 발달되지 않은 모델의 경우에는 당연히 WoT 기법의 성능 개선 가능성도 제한될 수밖에 없습니다.

맺으며

WoT (Whiteboard-of-Thought) 기법은 멀티모달 LLM (MLLM)을 대상으로 더 다양한 프롬프팅 방식을 적용해서 더 나은 성능을 보여주는 방법을 제시하고 있습니다. 아직 WoT는 그 방향의 초기적인 접근 방식으로, 아직 그 잠재력을 완전히 다 보았다고 하기는 힘듭니다.

전반적으로, WoT 기법은 ‘시각적인 사고’라는 개념을 차용해서 모델이 유사한 단계별 추론을 하도록 할 수 있다는 걸 보여주었고, 결과적으로 더 광범위한 과제들을 잘 해결하는데 도움을 줄 수 있습니다. 텍스트와 단어 만으로 부족할 때, AI 모델이 그림을 그려가면서 시각적으로 ‘생각’하고 문제를 해결할 수 있다는 건, 정말 신나고 놀라운 일이죠!

모델의 추론 성능을 평가하는, 가장 어려운 챌린지 중 하나라고 할 수 있는 ARC (Abstract Reasoning Challenge)가 있죠. 이 챌린지에서 WoT 기법이 어떤 성능과 결과를 보여줄지, 정말 궁금하네요. ARC에 대해서는 튜링 포스트의 이전 글 (아래 참조)을 한 번 확인해 보셔도 좋겠습니다!

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.