• Turing Post Korea
  • Posts
  • '멀티모달 데이터'를 위한 9가지 CoT 기법

'멀티모달 데이터'를 위한 9가지 CoT 기법

복잡한 문제를 더 작고, 다루기 쉬운 여러 개의 단계로 나눠서, 각 단계를 논리적으로 해결하면서 최종적인 답을 도출하는 기법, CoT에 대해서 이제 익숙하신 분이 많을 거라고 생각합니다.

그런데, 텍스트가 아닌 이미지, 비디오, 오디오 등 다양한 모달리티의 데이터들을 가지고도 AI 모델의 잠재력을 충분히 발휘할 수 있도록 CoT 기법이 도와줄 수 있을까요?

아래에 멀티모달 CoT (Multimodal Chain-of-Thought) 기법 9가지를 정리해 봤습니다. 대부분 오픈소스네요:

  1. KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning (2401.12863)

    경량의 이 프레임웍은 CoT(Chain of Thought) 프롬프팅과 지식 그래프(KGs)를 결합해서 93.87%의 정확도를 달성했습니다.

  2. Imagine while Reasoning in Space: Multimodal Visualization-of-Thought (2501.07542)

    모델이 시각적인 추론 과정을 생성할 수 있게 하고, Token Discrepancy Loss를 활용해서 시각적인 품질을 향상시킵니다.

  3. Compositional Chain-of-Thought Prompting for Large Multimodal Models (2311.17076)

    LMM(Large Multimodal Model)이 직접 생성한 장면 그래프(SG; Scene Graph) 표현을 사용해서 멀티모달 벤치마크를 대상으로 한 테스트에서 성능을 향상시켜 줍니다.

  4. URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics (2501.04686)

    CoT 데이터 합성 프로세스, CoT 증류, 궤적 형식 (Trajectory Format) 재작성 및 형식 통합 (Format Unification)이라는 3단계 모듈을 사용해서, 멀티모달 수학 추론에 System 2 스타일의 사고 방식을 도입합니다.

  5. MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification (2502.13383)

    MM-Verifier와 MM-Reasoner로 구성된 검증 메커니즘을 도입, 멀티모달 추론을 위한 고품질 CoT 데이터를 합성해서 구현합니다.

  6. DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models (2310.16436)

    추론 작업의 역할을 ‘언어 모델’과 ‘시각 모델’로 나누고, 시각적 인식 능력을 공동의 추론 과정에 통합합니다.

  7. Multimodal Chain-of-Thought Reasoning in Language Models (2302.00923)

    두 단계로 구성된 프레임웍으로 ‘근거의 생성’과 ‘답변의 예측’ 작업을 분리, 모델이 멀티모달 입력을 사용해서 더 효과적으로 추론할 수 있게 합니다.

  8. Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large Language Models (2305.16582)

    두 단계로 이루어진 이 프레임웍은 추론 작업을 ‘상호 연결된 아이디어의 그래프’로 모델링해서 텍스트 전용 뿐 아니라 멀티모달 작업의 성능을 향상시켜 줍니다.

  9. Hypergraph-of-Thought (HoT)
    텍스트 및 시각적 하이퍼그래프와 크로스 모달 공동 어텐션(cross-modal co-attention)을 사용해서 고차원의 멀티 홉 추론을 모델링합니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.