- Turing Post Korea
- Posts
- Topic #19: LLaVA-o1 들여다보기
Topic #19: LLaVA-o1 들여다보기
단계별로 생각하는, 더 똑똑한 비전-언어모델, LLaVA-o1에 대해 알아봅시다.
글을 시작하며
LLM으로 - 좀 더 정확히는 트랜스포머로 - 시작된 생성 AI의 흐름이 지금은 다양한 모달리티를 잘 다루는 모델로 이동하고 있다는 건 여러분들도 느끼고 계시리라 생각하는데요.
VLM (Vision-Language Model; 비전-언어모델)은, 이미 굉장히 많이 발전해 왔고 실험실 뿐 아니라 현실 세계에서도 나름대로 테스트를 거쳐 온 LLM (거대 언어모델)과 비교했을 때는 여전히 많은 도전과제를 극복해야 하는 상태이기는 합니다. 그런 과제들 중 중요한 하나가 바로, LLM이 현재 추론 작업에서 뛰어난 성과를 보이고 있는 반면, 여전히 VLM은 체계적으로 추론을 하는 건 어려워한다는 점일 텐데요 - 다시 말해서, 구조화된 사고 과정을 건너뛰고 성급하게 최종적인 답변을 내놓는 경우가 많다는 겁니다.
이런 문제를 해결하기 위해서, 중국의 주요 대학교, 그리고 저명한 연구소의 연구자들이 협력해서 만들어낸 게 바로 LLaVA-o1 모델입니다. 이 모델은, 단계적으로 추론하고, 체계적인 사고의 과정을 유지하도록 설계된 VLM이라고 하면 될 것 같구요, 신뢰할 수 있고 검증된 답변을 하도록 하기 위해서 독특한 Inference-Time Scaling (추론 시간 스케일링) 기법을 사용합니다.
커뮤니티와 미디어에서는 ‘LLaVA-o1이 오픈AI의 o1 모델에 도전장을 내민다’라는 식의 다소 자극적인 제목을 내놓기도 하면서 관심이 커지고 있는데요. 이 LLaVA-o1 모델은 어떤 모델인지, 어떤 특별함이 있는 걸까요? 자, 그럼 VLM의 유망주, LLaVA-o1에 대해서 알아볼까요?
오늘 에피소드에서는 다음과 같은 내용을 다룹니다:
VLM의 한계
VLM (비전-언어모델)은 텍스트 뿐 아니라 이미지를 통해서도 세상을 이해할 수 있는 모델이죠. LLM과는 다른 그 능력 때문에 점점 큰 인기를 얻어가고 있는데요. 그렇지만, 종종 이미지에 대한 복잡한 질문에 대해서 답을 한다든가 하는 과정에서 이상한 실수를 하거나 문제를 일으키기도 하죠. 이야기했다시피, 대부분 VLM이 ‘구조화된 방식’의 문제 해결이 아니라 그저 빠른 답변을 제시하도록 만들어졌기 때문인데요. 이런 문제는 단순하게 CoT (Chain-of-Thought) 기법을 적용하는 것도 제대로 된 해결책이 될 수 없다고 해요 - CoT를 적용해도 여전히 VLM이 실수를 많이 하고, 성급하게 또는 말도 안 되는 답변을 만들어내곤 하거든요. 근본적인 문제는, VLM의 추론 과정에 제대로 구조화되어 있지 않다는 겁니다.
현재 기준으로, VLM과 비교한다면 LLM은 ‘논리적인 사고’를 필요로 하는 작업에서의 신뢰성이 더 높다고 할 수 있습니다. 예를 들어서, 오픈AI의 o1은 ‘Inference-Time Scaling (추론 시간 스케일링)’ 기법 덕분에 추론을 잘 하는 것으로 알려져 있죠. 이 과정은 복잡한 문제를 단계별로 분해하고, 문제를 해결하기 위해서 여러가지 시도를 해 보고, 반복적으로 추론하는 것 등이 포함되구요.
자, 그렇다면 VLM의 추론 성능을 어떻게 향상시켜 볼 수 있을까요? o1이 사용한 방법을 활용해 볼 수 있을까요?
LLaVA-o1의 등장
중국의 베이징대학교, 칭화대학교, 펑청 연구소 (Peng Cheng Laboratory), 알리바바 다모 (DAMO) 아카데미, 그리고 리하이 (Lehigh) 대학교의 연구자들이 함께, VLM이 복잡한 추론 작업을 더 효율적으로 할 수 있게 해 보자는 목적으로 연구, LLaVA-o1을 개발했습니다.
LLaVA-o1 이미지. Image Credit: 벤처비트
간단히 말하자면, LLaVA-o1은 ‘명확하게, 구조화된 방식으로 단계별 추론을 하게끔 만든’ 똑똑한 VLM입니다. 대부분의 VLM처럼 성급하게 답변을 만들어내지 않고, 추론을 네 단계로 나눈 다음 단계별로 ‘Beam Search’라는 독특한 Inference-Time Scaling 기법을 사용해서 각 단계마다 여러 개의 답변을 생성합니다. 이렇게 해서 오픈AI의 o1 추론 과정과 유사하게, 가깝게 가는 거죠.
조금 더 자세히 살펴보죠.
LLaVA-o1의 작동 방식
모델이 더 구조적으로, 그리고 체계적으로 추론 작업을 하게 하기 위해서, LLaVA-o1은 이 과정을 네 개의 단계로 나눴습니다:
요약 (Summary)
모델이 중요한 문제에 초점을 맞춰서 질문이라든가 과제에 대해서 간단한 개요를 우선 제공합니다.설명 (Caption)
이미지가 있는 경우에, 질문과 관련되어 있는 이미지 내의 중요한 부분들을 설명합니다.추론 (Reasoning)
주어진 질문을 신중하게 생각하고, 예비적인 답변을 도출해 냅니다.결론 (Conclusion)
앞 단계의 추론에서 도출된 내용을 바탕으로, 모델이 최종적인 답변을 제공합니다.
Image Credit: 오리지널 논문
위 그림에서 보시다시피, 나누어진 각 단계를 <SUMMARY>...</SUMMARY>와 같은 특별한 태그로 명확하게 표시해서, 모델이 주어진 구조에서 벗어나지 않도록 가이드하구요. 이 단계들은 자동적으로 진행되니까, 사용자가 별도로 신경을 쓰거나 안내해야 하는 건 아닙니다. 처음의 세 단계는 사용자에게는 숨겨져 있는 거고, 결론만 사용자에게 보이게 됩니다.
자, 여기까지 설명드린 처리 단계를 통해서 모델이 추론을 체계적으로 하기는 하지만, 이것만으로는 VLM의 추론 성능을 높은 정확도를 보이는 수준까지 끌어올리는데는 충분하지가 않았습니다. 그래서, 여기서 LLaVA-o1의 또 하나의 특징이 작동하게 됩니다.
비밀 레시피: 단계별 ‘Beam Search’
‘Inference-Time Scaling’은 모델이 실시간으로 연산을 하는 과정에서 더 똑똑하게 작업을 처리하도록 만드는 거죠. LLaVA-o1은 단계별 ‘Beam Search’라는 새로운 방법을 사용해서 추론 과정을 개선하는데요, 각각 추론 단계에서 다음 단계로 넘어가기 전에 여러 개의 가능한 답변들을 생성, 비교, 개선하게 됩니다.
Image Credit: 오리지널 논문
이 과정을 세부적으로 나눠보면 다음과 같은데요:
옵션을 생성:
첫 번째 추론 단계(예를 들어서, ‘요약’)에서 모델은 여러 가지의 답변 후보들을 만들어 냅니다.
최선의 옵션을 선택:
모델이 무작위로 두 개의 답변을 선택해서 비교하고, 어느 답변이 더 나은지 결정한 다음에 더 좋은 것을 유지합니다.
이 작업을, 모든 옵션들 중에서 가장 좋은 것만 남을 때까지 반복합니다.
다음 단계로 이동:
이 과정을 다음의 추론 단계에서도 반복해서, 최상의 응답만이 계속 다음 단계로 연결되도록 합니다.
모든 단계의 완료:
모델이 최종 결론 단계에 도달할 때까지, 모든 단계에서 추론을 계속해서 정제합니다.
위와 같은 단계별 ‘Beam Search’은, 최종적으로 출력된 답변이 최선의 것이고, 그 답변의 도출 과정이 견고한 논리와 정확한 단계들에 근거해서 이루어지도록 보장하는 장치입니다.
LLaVA-o1의 성능은 어느 정도인가?
자, 그럼 LLaVA-o1의 성능이 어떤지, 그리고 어떤 요인들이 영향을 미치는지 한 번 살펴보겠습니다.
연구자들이 LLaVA-o1을 기존의 Q-A 쌍 (Pair)으로 테스트했을 때, 생각보다 성능이 좋지 않았다고 해요. 기존 데이터셋들이 ‘추론’이라는 작업을 잘 설명하는 데이터셋이 아니었기 때문이라고 생각해서, 연구자들은 LLaVA-o1이 논리적으로 추론을 할 수 있도록 훈련하기 위해서 별도의 LLaVA-o1-100k 데이터셋을 만들었습니다 - 이 데이터셋은 GPT-4가 생성한 약 10만 개의 Q-A 쌍을 포함하고 있는데, 단계별 추론의 예시를 보여줍니다.
이 데이터셋을 사용한 훈련은 큰 영향을 미쳤는데요. LLaVA-o1을 단 10만 개의 예시를 가지고 훈련했는데도 불구하고 평균적으로 기본 모델보다 6.9% 높은 점수를 기록했는데, 이건 일반적인 QA 작업이라든가 환각 현상을 방지하는 관점에서 훨씬 더 나아진 수치죠. 이 모델은 특히 다음과 같은 추론이 필요한 작업에서 가장 큰 개선 수치를 보여주었습니다:
사례 추론 - 입력값으로부터 특정한 세부사항을 파악하기
논리적 추론 - 문제를 단계별로 접근해서 해결하기
수학과 과학
6개의 벤치마크에서 LLaVA-o1의 성능
6개의 Skill 영역에서 LLaVA-o1의 성능
구조화된 태그들 (예를 들어, <SUMMARY>와 <REASONING> 같은)은 모델이 문제를 풀어가는 과정에서의 생각을 체계화하는 데 도움을 주기 때문에 필수적입니다. 이런 태그들을 제거하니까 성능이 크게 하락했다고 하네요.
연구자들이 추론을 위한 접근법들을 비교해 봤을 때, 단계별 ‘Beam Search’를 사용한 LLaVA-o1이 다른 ‘추론 스케일링’ 방법들을 크게 앞선다는 것을 발견했습니다:
Best-of-N: 약간의 개선을 보여줍니다. (+0.6%)
문장 단위 ‘Beam Search’: 여기서는 성능이 1.9% 하락했는데, 작업을 문장별로 너무 세분화하는 것이 개방형 추론에 잘 맞는 방법이 아니기 때문이라고 해석됩니다.
단계별 ‘Beam Search’: 이 접근 방식을 택했을 때 성능이 2.6% 향상되는 모습을 보여, 가장 효과적인 방법이라는 게 입증됩니다. 후보가 되는 응답의 수가 증가함에 따라서 LLaVA-o1의 성능이 향상되는 모습을 보면, 단계별 ‘Beam Search’는 확장성 (Scalability)이 좋은 접근 방법이라는 걸 알 수 있습니다.
또 하나의 포인트로, LLaVA-o1을 오픈소스 및 독점 모델들 모두와 비교해 봤을 때 - 그 중에는 훨씬 더 큰 모델들도 포함되어 있었습니다 - 실험 결과는 아래와 같습니다:
LLaVA-o1은 Llama-3.2-11B-Vision-Instruct와 같은 베이스라인 모델들을 능가하는 모습을 보여줬습니다.
InternVL2-8B라든가 VILA-1.5-40B 같은 여러 종류의 오픈소스 모델들보다도 역시 더 나은 결과를 보여주었습니다.
심지어는, GPT-4o-mini나 Gemini-1.5-pro 같은 일부의 SOTA 독점 모델들조차도 앞서는 성능을 보여줬습니다.
Image Credit: 오리지널 논문
Image Credit: 오리지널 논문
자, 그럼 지금까지 언급된 LLaVA-o1의 우수한 성능과 장점을 한 번 정리해 볼께요.
LLaVA-o1의 특장점 정리
기존의 대부분의 VLM과 비교했을 때 LLaVA-o1 모델의 장점을 정리하면 아래와 같습니다:
더 나은 사고 과정과 문제 해결
LLaVa-o1은, 답을 성급하게 추측해서 내놓지 않고, 대신 문제를 논리적이고 철저하게 접근하고, 추론 과정을 명확한 단계로 구성합니다.적응형으로 답변 생성
모델이 사용자의 필요에 따라서 답변의 상세 수준을 조절하게 됩니다.스마트 (Smartness) + 확장성 (Scalability)
여러 개의 옵션을 생성하고 그 중 최선의 옵션을 선택해 나가는 효율적인 단계별 ‘Beam Search’ 기술을 활용해서, 고난이도의 작업도 잘 처리합니다. 게다가 Beam Search의 후보 응답 수가 증가할수록 더 높은 정확도를 달성하는 확장성을 보여줍니다.정확한 답변의 일관적인 제공
항상 최상의 추론 경로만을 유지해서, 혹시 발생할 수 있는 실수도 피합니다.높은 성능 수치
LLaVA-o1은 일반적인 QA, 수학적 추론, 환각 현상 제어가 필요한 작업 등 다양한 영역에서 좋은 결과를 보여줍니다. 더불어, 고급 추론 작업에서도 더 큰 규모의 모델들, 심지어는 독점 모델들보다도 더 나은 성능을 보여줍니다.
그렇다면, LLaVA-o1의 단점은 뭐가 있을까요?
LLaVA-o1의 한계점
LLaVA-o1를 효율적으로 구현하는데 있어서, 몇 가지 잠재적 한계가 있을 수 있는데요:
제한된 데이터셋 크기
LLaVA-o1-100k 데이터셋은 다른 SOTA 모델들이 사용하는 데이터셋에 비해서 그 크기가 상대적으로 작아서, 다양하고 새로운 작업에 대한 모델의 일반화 (Generalization) 능력이 제한적일 가능성이 있습니다.스케일링을 위한 자원
성능 향상을 위해서 여러 개의 후보 답변을 생성하고 평가하는 데는, 그만큼 상당한 컴퓨팅 자원이 필요합니다.구조화된 태그에 대한 의존성
구조화된 태그가 제거되면 성능이 크게 떨어져서, 구조화가 되지 않은 환경에서는 LLaVA-o1의 유연성이 제한됩니다.추론에 중점을 둔 작업 위주
LLaVA-o1은 추론이 많이 필요한 작업에서는 뛰어나지만, 체계적인 추론이 덜 필요한 영역이라면 그 개선의 폭이 크지 않습니다.
맺으며
LLaVA-o1은 텍스트와 이미지를 포함하는 멀티모달 환경에서 ‘구조화된 방식’으로 문제를 생각하도록 설계된 VLM으로, 이전 모델보다 높은 정확도와 신뢰성을 바탕으로 답변을 생성합니다. 특히 추론이 중요한 작업에서 성능의 격차를 보여주는 이 모델은, ‘단계별 추론’을 실행하면서도 최상의 답변을 찾아내기 위해서 효율적으로 확장할 수 있는 구조의 단계별 ‘Beam Search’ 기법을 활용하는데요. 연구의 후속 과정으로서 이 모델의 확장성을 높이고, 복잡한 멀티모달 추론의 성능을 한층 개선하기 위한 작업이 이어질 것으로 보입니다.
LLaVA-o1 개요. Image Credit: Cobus Greyling’s Medium
글의 서두에서, 오픈AI의 o1에 대한 언급을 했는데요. 오픈AI의 o1은 발전된 CoT 기법으로 ‘텍스트 기반의 추론’ 영역을 이끄는 모델이라면, LLaVA-o1은 구조화된 단계별 프로세스, 그리고 단계별 ‘Beam Search’ 기술을 기반으로 ‘시각적 추론’ 영역에서 강점을 보이는 모델이라는데 그 차이가 있다고 볼 수 있겠습니다.
물론 LLaVA-o1이 추론이 많이 필요한 작업에서는 더 큰 모델들보다도 나은 성능을 보여주지만, 훈련한 사용한 데이터셋의 작은 규모, 그리고 구조화된 태그에 대한 의존성 때문에 일반화 (Generalization) 가능성에는 제한이 있을 수 있습니다. 이런 관점에서, LLaVA-o1은 오픈AI의 o1 같은 모델과 직접적으로 경쟁하는 관계가 되기보다는, VLM의 중요한 발전을 이루어낸 모델로서 전반적인 AI 추론의 발전 도상에서 서로 보완적 역할을 하게 될 가능성이 더 크다는 점을 시사한다고 하겠습니다.
보너스: 참고 자료 링크
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply