• Turing Post Korea
  • Posts
  • Topic #16: '이미지'로 생각하게 하는 'Whiteboard-of-Thought'

Topic #16: '이미지'로 생각하게 하는 'Whiteboard-of-Thought'

멀티모달 LLM이 '시각적'으로 단계별 추론을 하게 하는 기법

글을 시작하며

텍스트 기반의 추론에 초점을 맞춘 CoT (Chain-of-Thought)는 언어모델에 ‘단계적 사고’를 하도록 해서 성능과 정확도를 높이는 효과적 기법 중 하나죠. 튜링 포스트 코리아에서도 CoT의 확장판이라고 할 만한 CoK (Chain-of-Knowledge) 기법에 대해서 다룬 적이 있구요.

이런 기법들이 상당한 장점을 갖고 있는 건 사실이지만, 당연히 모든 종류의 작업을 수행하는데 충분한 건 아니겠죠.

생각해 보면, 사람은 ‘시각적인 사고’를 많이 합니다. 어떤 문제를 풀려고 할 때, 이미지라든가 그래프 등으로 복잡한 정보를 처리하고, 추상적인 개념을 이해할 때도 이를 심상 (Mental Image)화해서 다루기도 합니다. 텍스트 기반으로 추론하는 언어모델의 접근 - 및 CoT, CoK를 포함한 기법 - 과는 좀 다른 접근이라고 할 수 있겠고, 바로 ‘모델에게도 이런 시각적인 사고를 하게 해 보면 어떨까’라는 생각에서 출발한 게 바로 ‘WoT (Whiteboard-of-Thought)’입니다.

WoT 기법을 통해서 모델은 시각적인 사고가 필요한, 또는 시각적인 사고를 할 수 있다면 유리한 문제들을 단순히 말로만 처리하는 것보다 더 잘 다룰 수 있게 됩니다.

오늘은 이 흥미로운 아이디어에 대해서 살펴보고, 그 가능성을 탐구해 보시죠.

이 글은 아래 목차로 구성되어 있습니다:

‘시각적 추론’에 있어서 LLM의 한계

거대 언어모델 (LLM)은 수학적 추론이나 기호 추론 등의 ‘논리적인 작업’에서 아주 강력한 성능을 보여주도록 진화해 왔습니다. 그 과정에서 CoT (Chain-of-Thought)라고 알려진, ‘사고의 단계를 텍스트로 작성해서 모델의 사고 과정을 추적하고 문제를 단계적으로 해결하게끔 하는 기법’이 상당 부분 기여를 했구요.

그런데, CoT 기법도 - LLM이 이미지를 포함한 다양한 유형의 데이터를 포함해서 학습을 했는데도 불구하고 - 시각적인 사고가 필요한 문제를 해결하는 데는 어려움을 겪습니다. 즉, 공간적인 관계나 시각적인 배치를 이해해야 하는 문제에서는, 텍스트만 가지고는 중간의 추론을 표현하기가 까다로워서, 이런 문제에서는 정확한 답을 내지 못하게 됩니다.

사람이라면, 이런 시각적인 과제가 주어졌을 때 자연스럽게 머릿속으로 그림을 상상하든, 아니면 실제로 그림을 그려가든 하면서 문제를 이해하고 해결하지 않겠어요? 이런 사고의 방식을, AI 모델에도 적용해 보면 어떨까요?

WoT (Whiteboard-of-Thought)의 등장

“우리가 생각한 핵심은, ‘시각적 추론 과제를 수행하려면 시각적 요소가 필요하다는 거였습니다.”

*무료 구독자들께서 지금 보실 수 있는 내용은 여기까지입니다. AI 101의 에피소드는 프리미엄 구독자들께서는 발행 즉시, 무료 구독자들께서는 발행 후 일주일 지난 후부터 전체 글을 보실 수 있습니다. 프리미엄 플랜으로 업그레이드하시면 이 에피소드 전체를 포함해서 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다. 프리미엄 구독자가 되어 주시면 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

  • 주간 AI 뉴스레터

  • AI 유니콘 기업들에 대한 심층 분석 기사

  • AI 기술, 산업, 정책 전문가 인터뷰

  • AI 기술 및 산업에 대한 심층 분석 시리즈

  • 분석 기사 요청 및 튜링 포스트 코리아 기고

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.