Paper review/Natural Language Processing

UniMath: A Foundational and Multimodal Mathematical Reasoner (EMNLP'23)

언킴 2024. 1. 22. 16:14
반응형

Contents

     

     

     

    Abstract

    최근 NLP 기술이 많이 발전하고 있으나, Mathematical Modalities에 대한 정보를 제대로 이해하고, 풀이하는 Task에서는 우수한 성능을 발휘하지 못하고 있었다. 본 논문에서는 수학 문제를 잘 풀고, 잘 해석하는 모델인 UniMath를 제안하였으며, UniMath는 T5 모델을 통해 Text 정보를 추출하고, VAE를 통해 이미지 정보를 추출하여 수학 문제를 잘 풀 수 있는 모델이다. 

     

    Introduction and Our Approach

    Mathematical Reasoning 에서는 Math Word Problem (MWP) 를 어떻게 해석할 것 인지가 중요하다. 풀어서 설명하면, 수학적 기호가 어떤 의미를 가지는 지 알고 있어야 해당 문제를 풀 수 있는 것이다. 본 연구에서 제안하는 UniMath는 VQ-VAE를 통해 도형의 정보를 Tokenizing하고, Table, 그리고 각 수학 기호에 대한 정보를 Special Token으로 지정함으로써 성능을 개선했다. 

     

     

    Experiments

    본 논문에서는 Held-in Datasets, Held-out Datasets 을 구분지어 실험을 진행하였다. Held-in Datasets (SVAMP, GeoQA, TableMWP)의 경우 문제를 제공하면서, 해당 문제가 어떤 Task인지 알려주는 데이터를 의미하고, Held-out Datasets (MathQA, UniGeo-Proving)의 경우에는 문제만 제공하고 이 문제가 어떤 Task인지 알려주지 않은 데이터셋을 의미한다. 

     

     

    Analysis on Symbol Pre-processing

    해당 논문에서는 아래의 테이블대로 수학기호를 변형하여 Tokenizing하였다. 이렇게 산술, 기하학적 Symbol을 변환해줌으로써, 해당 수학 기호가 어떤 것을 의미하는지 명시해줄 수 있다. 여기서, Setting 1) no transformation, Setting 2) transform arithmetic operator only, Setting 3) transform geometric relations only, Setting 4) transform both. 로 지정해서 실험을 비교 분석하였으며, Figure 2(a)를 참고하면 된다. 

     

     

     

    Analysis on Image Tokenizer 

    이번 장에서는 Image를 Tokenizing 할 때 학습을 달리해서 성능의 변화가 있는지 파악하였으며, Setting 1) Frozen ResNet, Setting 2) Trainable ResNet, Setting 3) Two trainable Resblocks, Setting 4) Trainable ResNet + VQ-VAE, Setting 5) Two Trainable Resblocks + VQ-VAE 로 설정하였다. 실험 결과는 Figure 2(b)에 나와있다. 

     

    Analysis on Chain-of-Thought Explanations

    CoT (Chain-of-Thought)는 LLM의 Prompt 단계에서 chain 형식으로 [질문, 답변, 질문, 답변] 형태로 제공하여 LLM의 입력으로 사용하는 것을 의미한다. 과거에 어떤 대화를 했는지를 제공해줌으로써 LLM의 답변이 제대로 나오도록 하게 만드는 것이다. Setting 1) Omitting CoT and focusing solely on the final answer, Setting 2) Combining CoT with the final answer to form a joint target, Setting 3) Generating CoT and the final answer with different prefixes. 로 설정했으며, Figure 2(c)를 참고하면 된다. 마지막 SEtting의 경우 가장 우수한 성능을 보이는 것을 확인할 수 있다.