NLP 19

UniMath: A Foundational and Multimodal Mathematical Reasoner (EMNLP'23)

Contents Abstract 최근 NLP 기술이 많이 발전하고 있으나, Mathematical Modalities에 대한 정보를 제대로 이해하고, 풀이하는 Task에서는 우수한 성능을 발휘하지 못하고 있었다. 본 논문에서는 수학 문제를 잘 풀고, 잘 해석하는 모델인 UniMath를 제안하였으며, UniMath는 T5 모델을 통해 Text 정보를 추출하고, VAE를 통해 이미지 정보를 추출하여 수학 문제를 잘 풀 수 있는 모델이다. Introduction and Our Approach Mathematical Reasoning 에서는 Math Word Problem (MWP) 를 어떻게 해석할 것 인지가 중요하다. 풀어서 설명하면, 수학적 기호가 어떤 의미를 가지는 지 알고 있어야 해당 문제를 풀 수 있..

[부스트캠프 AI Tech NLP] 네이버 부스트 캠프 7주차 회고

Contents 프로젝트 주제 Sentence Textual Similarity (STS): 입력으로 주어진 두 문장이 의미적으로 얼마나 유사한지 판단하는 Task. STS에 사용되는 모델 톺아보기. RoBERTa, SimCSE, BERT, Sentence-BERT, Electra RoBERTa의 경우 token_type_ids를 입력으로 받지 않기 때문에 Model 입력에 token_type_ids를 사용하지 않아도 됨. Separate Token [SEP] 대신 , 등으로 문장을 구분하기 때문에 Sentence 1과 Setence 2를 Concatenation 단계에서 sentence 1 sentence 2 로 사용함. Pytorch Lightning이 아닌 Pytorch로 구현 Pytorch Lig..

[부스트캠프 AI Tech NLP] 네이버 부스트 캠프 6주차 회고

이번주차에는 STS (Sentence To Similarity) Task 를 다루었다. 그리고, N21, N2N, N2M 등 NLP Task의 다양한 유형에 대해서 다루어 보았다. 간단한 예제를 다루게 되고, 예제를 통해 실제 작동되는 방법을 다룰 수 있어서 좋았다. 피어 세션 피어 세션에는 Sentence BERT, SimeCSE, RoBERTa 등 NLP 관련 과거 논문 및 Self-supervised Learning에 대해서도 다루어서 NLP Task를 더 깊게 이해할 수 있게 되었다. STS Competition KoSTS 데이터를 바탕으로 실험을 진행하여, 리더보드에 성능을 비교하게 되었는데, 팀원분들이 다들 열심히 해주셔서 새로운 방법으로도 접근할 수 있게 되고 다른 시각을 배울 수 있게 되어..

[부스트캠프 AI Tech NLP] 네이버 부스트 캠프 5주차 회고

어느덧 부스트캠프 과정이 5주차에 달했다. 5주차에는 NLP 기초 이론, RNN, LSTM, GRU, Transformer 등의 모델 구현을 상세히 다루고, 예제를 통해 놓쳤던 부분을 디테일하게 다룰 수 있었다. 그리고 BERT를 직접 fine-tuning 하는 방법도 다루어서 좋았다. 피어세션 지금 구성된 팀에서는 피어세션 때 매번 새로운 논문을 리뷰하고 있다. 이번주에 내가 발표한 논문은 " Improve Transformer Models with Better Relative Position Embeddings" 라는 논문으로, Position Embedding을 학습해서 Position 정보에서 조금 더 Abundent한 정보를 추출할 수 없을까? 라는 아이디어로 시작되었다. 기존에도 Relativ..

[부스트캠프 AI Tech NLP] 네이버 부스트 캠프 3주차 회고

Contents Deep Learning 3주차에는 딥러닝이 어떻게 작동되는지에 대해서 학습했다. 기본적인 MLP 모델 부터, CNN, RNN, LSTM, Transformer 등 다양한 모델을 밑바닥부터 구현하는 것을 배웠으며, 마지막으로는 Generative Model 에 대해서도 다루었다. Generative Model은 AutoRegressive 모델과 Generative 모델로 나뉘고 각 방법론에 대한 대표 모델을 함께 다루고, Diffusion Model도 간략하게 다루었다. Diffusion Model은 Geverative Model 뿐만 아니라, 최근에는 추천 시스템에서도 사용되는 모델인데, 처음 접하는 것이 어려웠지만 쉽게 풀어서 정리해주셔서 이해하는 것이 쉬웠다. Vision Trans..

Bigbird: Transformers for Longer Sequences (NeurIPS'20)

Contents RNN, LSTM, GRU 이후 Transformers가 제안되고 부터 다양한 분야에서 Transformer 기반 모델이 사용되었으며, 특히 자연어 처리(Natural Language Processing, NLP) 분야에서 많이 사용되고 있다. 이번 글에서는 Transformers의 문제를 개선한 모델인 Bigbird를 제안한 논문을 리뷰하고자 한다. [Transformers], [Bigbird] Introduction BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformers) 등과 같이 Transformer-based model(이하 Transformers)..

[Books] 임베딩(embedding)의 종류

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 컴퓨터는 사람이 사용하는 자연어를 제대로 이해할 수가 없다. 그렇기 때문에 기계가 이해할 수 있도록 변환해주는 작업이 필요하다. 자연어가 가지는 통계적인 패턴(statistical pattern)을 벡터로 변환해주는 것이다. 임베딩을 만들 때 쓰는 통계 정보는 단어의 빈도, 언어 모델, 분포 가정으로 총 세 가지가 존재한다. 단어의 빈도 단어의 빈도는 BoW(Bag of Words)라고도 부르며, 어떤 단어가 많이 쓰였는지를 중요시한다. 순서를 고려하지 않고 단어들을 파싱(parsing)해서 단어의 빈도 수만 확인하는 방법이며, 대표적인 기법으로는 TF-IDF(Term Frequency-Inverse Document Frequency)이다. 딥..

[NLP] Tokenization

Tokenization. 토큰화라고 불리는 이것은 단어를 작은 단위로 쪼개주는 역할을 한다. 영어를 토큰화 할 때에는 nltk를 사용하고, 한국어를 토큰화 할 때에는 konlpy를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from torchtext.data import get_tokenizer sentence = "Don't be fooled by the dark sounding name, \ Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop." print('word_tokenize', word_tokenize(se..

[Short] Sentiment Analysis in TripAdvisor, Ana Valdivia (2017)

Sentiment Analysis in TripAdvisor / IEEE Intelligent Systems Vol. 32 (2017) Ana Valdivia, Victoria Luzon, Francisco Herrera Web 1.0에서 Web 2.0으로 변화하면서 웹에 방대한 양의 Review나 사용자의 의견 등의 데이터가 많아졌다. 본 논문에서는 감성분석을 수행하는데 CoreNLP, Syuzhet, Bing, SentiStrength 총 4가지의 분석 기법을 통해서 Tripadvisor Review를 분석했다. 첫번째로 긍정적인 리뷰만을 가지고 분석을 시행했는데, 긍정적인 리뷰 내에서도 상당히 많은 양의 부정적인 리뷰들이 속해있었다. 사용자들은 주로 평점을 좋게 주고, 리뷰 내용은 부정적인 의견을 ..

Understanding homophily of service failure within the hotel guest cycle: Applying NLP-aspect-based sentiment analysis to the hospitality industry (2020)

제목 그대로 호텔 Guest Cycle 내의 서비스 실패 유형을 이해하는 데 자연어 처리 측면의 분석기법을 사용하는 논문이다. 예전에는 WOM(Word of Mouth)의 구전 전달 방식으로 인해 주변 사람들에게만 말이 전달되었지만, 인터넷이 발전되어 가면서 e-WOM 형태로 변형되어졌다. 사람들은 해당 호텔을 이용하고 난 후 리뷰를 작성하는 것으로 본인이 좋았던 점, 불만족스러운 점을 작성하고 이를 분석해서 조금 더 이용객에 만족감을 제공해줄 수 있을 것이다. Guest Cylce은 총 4 스테이지로 구분해 어떤 스테이지에서 호텔 투숙객이 불만을 느끼는지 체크해 해당 스테이지를 개선함으로써 보다 소비자들에게 만족감을 줄 수 있고, 해당 논문에서는 Guest Cycle만 고려하는 것이 아니라 문화까지 접..

반응형