Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
Abstract MLLM의 발전 - 여러 VQA tasks 하지만 interpretability가 약하고, 답에 관한 정보가 있는 지역의 크기가 작은 복잡한 visual 입력을 어려워함 이 문제를 해결하기 위해서, 본 연구는 **대규모의 visual CoT 데이터셋을 수집하고 제시함** 438k의 question-an...