본문 바로가기
AI/LLM

WoT(Whiteboard-of-Thought) 대형 언어 모델의 한계를 넘다. 시각적 사고 구현하기.

by 니나노뭉 2024. 11. 6.

 


0. 초록

시각적 사고를 필요로 하는 질문을 받으면, 인간은 자연스럽게 추론 방식을 전환하여 마음속에 이미지를 형성하거나 시각적 보조 자료를 그리는 경향이 있다. 대형 언어 모델은 중간 추론 과정을 사고의 사슬(chain of thought)로 표현하여 산술적 및 상징적 추론에서 유망한 결과를 보여주었지만, 광범위한 멀티모달 사전 학습에도 불구하고 시각적 추론으로 쉽게 해결할 수 있는 텍스트 질문에 답하는 데는 여전히 어려움을 겪고 있다. 우리는 멀티모달 대형 언어 모델의 시각적 추론 능력을 활성화하기 위해 '화이트보드 사고(whiteboard-of-thought) 프롬프팅'이라는 간단한 방법을 소개한다. 화이트보드 사고 프롬프팅은 멀티모달 대형 언어 모델에 추론 단계를 이미지로 그릴 수 있는 '가상의 화이트보드'를 제공하고, 이후 이 이미지를 모델로 다시 전달하여 추가 처리할 수 있도록 한다. 우리는 이 방법이 시연이나 특수 모듈 없이도 Matplotlib이나 Turtle 같은 라이브러리로 코드 작성이 가능한 모델의 기존 능력을 활용하여 구현될 수 있음을 발견했다. 이 간단한 접근법은 시각적 및 공간적 추론이 필요한 네 가지 어려운 자연어 과제에서 최첨단 성과를 보여주었다. 우리는 사고의 사슬(chain-of-thought) 방식을 사용하는 GPT-4가 일부 설정에서 0%의 정확도를 기록하는 등 크게 실패하는 여러 경우를 확인했으며, 동일한 설정에서 화이트보드 사고가 최대 92%의 정확도를 달성하는 것을 확인했다. 또한 이 기법이 성공하는 지점과 오류의 원인을 상세히 탐구하였다.

1. 서론

  • 문제 제기: 시각적 사고를 요구하는 문제에 직면했을 때, 인간은 자연스럽게 마음속에 이미지를 형성하거나 시각적 보조 자료를 그리는 방식을 사용하여 문제를 해결한다. 반면, 대형 언어 모델(LLM)은 텍스트 기반의 사고 사슬(chain-of-thought)을 통해 산술적 및 상징적 추론에서 유망한 결과를 보이지만, 시각적 추론이 필요한 텍스트 질문에는 여전히 한계가 있다.
  • 연구 목표: 멀티모달 대형 언어 모델(MLLM)이 시각적 추론을 수행할 수 있도록 돕기 위해, '화이트보드 사고(Whiteboard-of-Thought, WoT)'라는 간단한 제로샷 방식의 방법을 제안한다. WoT는 모델이 시각 자료를 생성하고 이를 다시 모델에 전달하여 추가적인 추론을 수행할 수 있도록 함으로써, 시각적 사고를 활성화하는 것을 목표로 한다.

2. 기초 배경 (Preliminaries)

  • 대형 언어 모델(LLMs)과 멀티모달 대형 언어 모델(MLLMs): LLM은 대규모 데이터와 파라미터 수를 기반으로 다양한 자연어 처리 과제에서 성공을 거두었으며, 최근에는 텍스트 이외의 입력을 활용하는 MLLM으로 확장되었다. MLLM은 이미지와 같은 멀티모달 입력을 기반으로 텍스트를 생성하거나 시각적 질문 응답 등의 과제를 수행할 수 있다.
  • 체인 오브 쏘트(Chain-of-Thought, CoT) 프롬프팅: CoT는 복잡한 문제를 해결하기 위해 모델이 중간 추론 단계를 텍스트로 작성하도록 하는 방식으로, 산술적 및 상징적 추론 과제에서 모델의 성능을 크게 향상시켰다. 하지만 CoT는 주로 텍스트 기반으로 제한되며, 시각적 사고를 필요로 하는 과제에서는 한계가 있다.
  • 도구를 활용한 모델의 중간 계산: 일부 연구는 모델이 외부 도구(예: 계산기)를 사용해 중간 계산을 수행하도록 유도함으로써 복잡한 문제 해결 능력을 개선했다. 하지만 이러한 도구들은 대부분 텍스트 기반 중간 계산에 초점이 맞춰져 있으며, 시각적 추론을 위한 시각화 기능이 부족하다.

3. 화이트보드 사고(Whiteboard-of-Thought, WoT)

  • 목적: WoT의 목표는 MLLM이 그림을 그리고 이를 활용하여 보다 정확한 답을 도출할 수 있도록 하는 것이다.
  • 작동 방식: WoT는 모델이 시각적 요소를 생성하도록 돕기 위해, 파이썬의 Matplotlib이나 Turtle과 같은 그래픽 라이브러리를 사용하여 시각화를 위한 코드를 생성하게 한다. 생성된 코드는 실행되어 이미지로 렌더링되고, 이 이미지가 모델에 다시 입력되어 추가적인 추론에 사용된다.
  • 시각적 자료 생성: 현재 대부분의 MLLM은 기본적으로 시각적 출력을 생성할 수 없지만, 텍스트로 코드를 생성하는 방식으로 이를 해결할 수 있다. 특히, 추상적이고 상징적인 형태의 이미지를 생성하는 데 적합한 방식으로, 모델이 직접 코드를 작성하도록 유도한다.
  • 시각적 자료 처리: 생성된 이미지는 MLLM의 멀티모달 입력 기능을 통해 다시 모델에 제공되어, 모델이 중간 추론 단계로 시각적 자료를 처리하도록 한다. 이 접근법은 외부 도구나 수작업으로 제작된 시각 모듈 없이도 모델의 시각적 추론을 활성화할 수 있는 자급적 방식을 제안한다.

4. 실험(Experiments)

  • 실험은 두 가지 유형의 자연어 과제에서 WoT의 성능을 평가하였다.
  • 4.1 ASCII 이해:
    • 목적: ASCII 예술 인식은 시각적 정보 처리가 중요한 작업이다. 텍스트 기반 모델들은 일반적으로 ASCII와 같은 시각적 텍스트 표현을 이해하기 어렵다.
    • 방법: 실험은 BIG-Bench 데이터셋의 ASCII MNIST, ASCII 단어 인식, ASCII 한자 인식 과제를 포함하였다.
    • 결과: WoT는 ASCII 인식을 위한 시각적 사고를 활성화하여 성능을 크게 향상시켰다. 예를 들어, CoT와 텍스트 기반 접근법이 실패하는 시각적 ASCII 입력을 WoT는 효과적으로 인식할 수 있었다.
    • 오류 분석: ASCII MNIST 과제에서 오류의 주요 원인은 시각적 인식 한계였으며, 코드 실행 오류는 4%, 잘못된 시각화는 21%, 시각적 인식 오류는 75%를 차지했다.
  • 4.2 공간 내비게이션:
    • 목적: 인간이 공간적 추론을 수행하는 방식(예: 지도를 그리거나 공간을 시각적으로 인식하는 방식)을 모델이 시각적으로 수행할 수 있는지 확인하기 위해 WoT를 활용하였다.
    • 방법: 다양한 공간 구조(예: 원형, 육각형, 삼각형 등)에서 공간 내비게이션 과제를 수행하였다.
    • 결과: WoT는 다양한 비격자형 공간 구조에서 우수한 성능을 보였으며, 특히 육각형 구조에서는 CoT의 8%에서 WoT의 61%로 성능이 크게 향상되었다.

5. 실제 사례(In-the-Wild Examples)

  • Calligrams: Calligram은 단어의 시각적 배열이 의미에 영향을 주는 시적 형태이다. WoT는 Calligram의 시각적 배열을 분석하여 올바르게 의미를 파악할 수 있었으나, CoT는 텍스트에만 집중하여 잘못된 해석을 하였다.
  • 비디오 게임 아트: 비디오 게임에서 플레이어의 행동을 텍스트로 설명한 후, 이를 시각화하여 게임 내에서 생성된 시각적 결과를 추론하는 작업에 WoT가 유용하게 사용될 수 있음을 보였다.

6. 관련 연구(Related Work)

  • 중간 추론: CoT와 유사하게 텍스트 기반 중간 추론을 확장한 연구들이 있었으나, WoT는 중간 추론을 텍스트 대신 이미지로 표현하는 방식이 특징적이다.
  • 도구 사용 및 코드 보조: 코드 작성 및 외부 도구 사용을 통해 모델의 계산 및 추론 능력을 향상시키는 연구들이 존재한다. WoT는 시각화를 위한 도구로 파이썬의 시각화 라이브러리를 사용하는 방식을 제안했다.
  • 시각적 및 공간적 추론: MLLM의 시각적 및 공간적 추론에 대한 기존 연구에서 LLM의 시각적 처리 능력의 한계를 지적하며, WoT가 이러한 한계를 보완할 가능성을 탐구하였다.

7. 결론(Conclusions)

  • WoT는 MLLM의 시각적 추론 능력을 강화하여 멀티모달 입력을 통해 다양한 과제를 해결하는 데 유용하다는 것을 입증했다. 특히, 시각적 자료 생성과 이를 활용한 중간 추론 과정을 통해 다양한 시각적/공간적 과제에서 우수한 성과를 달성하였다. 향후 MLLM의 시각적 처리 능력이 개선됨에 따라 WoT의 효과도 더욱 커질 것으로 기대된다.

8. 한계(Limitations)

  • 시각 시스템의 한계: WoT는 정확한 시각적 인식 시스템을 필요로 하며, 현재 모델의 시각 인식 한계로 인해 일부 과제(특히 기하학적 도형 이해)에서는 성능이 떨어질 수 있다.
  • 향후 연구 방향: 컴퓨터 비전의 발전에 따라 WoT의 성능 향상이 기대되며, 이를 통해 더 정교한 시각적 추론이 가능해질 것이다.

 

 

[2406.14562] Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

 

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing

arxiv.org