NLP 15

UniMath: A Foundational and Multimodal Mathematical Reasoner (EMNLP'23)

Contents Abstract 최근 NLP 기술이 많이 발전하고 있으나, Mathematical Modalities에 대한 정보를 제대로 이해하고, 풀이하는 Task에서는 우수한 성능을 발휘하지 못하고 있었다. 본 논문에서는 수학 문제를 잘 풀고, 잘 해석하는 모델인 UniMath를 제안하였으며, UniMath는 T5 모델을 통해 Text 정보를 추출하고, VAE를 통해 이미지 정보를 추출하여 수학 문제를 잘 풀 수 있는 모델이다. Introduction and Our Approach Mathematical Reasoning 에서는 Math Word Problem (MWP) 를 어떻게 해석할 것 인지가 중요하다. 풀어서 설명하면, 수학적 기호가 어떤 의미를 가지는 지 알고 있어야 해당 문제를 풀 수 있..

Bigbird: Transformers for Longer Sequences (NeurIPS'20)

Contents RNN, LSTM, GRU 이후 Transformers가 제안되고 부터 다양한 분야에서 Transformer 기반 모델이 사용되었으며, 특히 자연어 처리(Natural Language Processing, NLP) 분야에서 많이 사용되고 있다. 이번 글에서는 Transformers의 문제를 개선한 모델인 Bigbird를 제안한 논문을 리뷰하고자 한다. [Transformers], [Bigbird] Introduction BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformers) 등과 같이 Transformer-based model(이하 Transformers)..

[Books] 임베딩(embedding)의 종류

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 컴퓨터는 사람이 사용하는 자연어를 제대로 이해할 수가 없다. 그렇기 때문에 기계가 이해할 수 있도록 변환해주는 작업이 필요하다. 자연어가 가지는 통계적인 패턴(statistical pattern)을 벡터로 변환해주는 것이다. 임베딩을 만들 때 쓰는 통계 정보는 단어의 빈도, 언어 모델, 분포 가정으로 총 세 가지가 존재한다. 단어의 빈도 단어의 빈도는 BoW(Bag of Words)라고도 부르며, 어떤 단어가 많이 쓰였는지를 중요시한다. 순서를 고려하지 않고 단어들을 파싱(parsing)해서 단어의 빈도 수만 확인하는 방법이며, 대표적인 기법으로는 TF-IDF(Term Frequency-Inverse Document Frequency)이다. 딥..

[NLP] Tokenization

Tokenization. 토큰화라고 불리는 이것은 단어를 작은 단위로 쪼개주는 역할을 한다. 영어를 토큰화 할 때에는 nltk를 사용하고, 한국어를 토큰화 할 때에는 konlpy를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from torchtext.data import get_tokenizer sentence = "Don't be fooled by the dark sounding name, \ Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop." print('word_tokenize', word_tokenize(se..

[Short] Sentiment Analysis in TripAdvisor, Ana Valdivia (2017)

Sentiment Analysis in TripAdvisor / IEEE Intelligent Systems Vol. 32 (2017) Ana Valdivia, Victoria Luzon, Francisco Herrera Web 1.0에서 Web 2.0으로 변화하면서 웹에 방대한 양의 Review나 사용자의 의견 등의 데이터가 많아졌다. 본 논문에서는 감성분석을 수행하는데 CoreNLP, Syuzhet, Bing, SentiStrength 총 4가지의 분석 기법을 통해서 Tripadvisor Review를 분석했다. 첫번째로 긍정적인 리뷰만을 가지고 분석을 시행했는데, 긍정적인 리뷰 내에서도 상당히 많은 양의 부정적인 리뷰들이 속해있었다. 사용자들은 주로 평점을 좋게 주고, 리뷰 내용은 부정적인 의견을 ..

Understanding homophily of service failure within the hotel guest cycle: Applying NLP-aspect-based sentiment analysis to the hospitality industry (2020)

제목 그대로 호텔 Guest Cycle 내의 서비스 실패 유형을 이해하는 데 자연어 처리 측면의 분석기법을 사용하는 논문이다. 예전에는 WOM(Word of Mouth)의 구전 전달 방식으로 인해 주변 사람들에게만 말이 전달되었지만, 인터넷이 발전되어 가면서 e-WOM 형태로 변형되어졌다. 사람들은 해당 호텔을 이용하고 난 후 리뷰를 작성하는 것으로 본인이 좋았던 점, 불만족스러운 점을 작성하고 이를 분석해서 조금 더 이용객에 만족감을 제공해줄 수 있을 것이다. Guest Cylce은 총 4 스테이지로 구분해 어떤 스테이지에서 호텔 투숙객이 불만을 느끼는지 체크해 해당 스테이지를 개선함으로써 보다 소비자들에게 만족감을 줄 수 있고, 해당 논문에서는 Guest Cycle만 고려하는 것이 아니라 문화까지 접..

The cultural impact on social commerce: A sentiment analysis on Yelp ethnic restaurant reviews, Makoto Nakayama (2019)

Amazon, TripAdvisor, Yelp 등의 포털은 제품, 업종 등의 리뷰는 기업에 유용한 insight 제공해준다. 기업은 리뷰를 보고 소비자들의 불만사항을 체크할 수 있고, 소비자들은 해당 리뷰를 보고 제품, 가게의 정보를 획득할 수 있어 정보의 비대칭성이 완화될 수 있다. 전통적인 마케팅 WOM(word of mouth)의 경우에는 구두를 통한 의사소통으로 인해 가족, 친척, 친구 등의 좁은 범위 내에서만 영향을 주어, 상대적으로 영향이 덜했지만 전자 상거래로 변화되면서 리뷰에 대한 영향이 커지고 있다. 해당 논문에서는 Yelp dataset을 토대로 서로 다른 문화적 배경을 가진 고객들이 음식에 대한 평가 기준에 차이가 있는지 확인하고자 한다. 네덜란드 심리학자인 호프스테더가 주장한 문화차..

[NLP] Transformer

Sequential Model을 처리하는데 있어서 다루기에 많은 문제들이 발생한다. 끝이 잘리거나, 중간중간 생략이 되거나, 밀리거나 하는 등의 문제가 생기기 때문에 RNN처럼 Sequential 하게 input이 들어가면 Permuted되거나 Omitted 되는 경우 단어를 다루기 힘들어진다. 이와 같은 문제로 인해 기존의 RNN의 문제를 보완하려고 self-attention이라는 것을 타이틀로 Transformer가 등장하게 되었다. (Attention is All you Need, NIPS, 2017) [논문] Recurrent Neural Network(RNN)의 경우 input을 받아 hidden state를 거쳐 output이 나오며 many-to-one의 경우 이전 cell의 정보를 받아서 ..

[CS224N] ConvNets for NLP

해당 강의에서는 CNNs을 다루기 전 RNN의 단점에 대해서 먼저 다룬다. RNN은 Prefix(접두사) context를 모두 포함하게 되며 Piece of sentence로 나누지 못한다는 단점이 있고, Sequence to Sequence의 모델을 살펴볼때 앞 단 Encoder부분의 RNN에서 Decoder로 보내주는 과정의 Last hidden state는 Last token에 영향을 많이 받게 된다. 또한 단어의 길이가 길어지면 정보의 손실이 발생할 수 있다는 것이 큰 문제이다. GRU나 LSTM 등 모델을 사용하거나 Encoder 부분에 Attention을 사용해 문제를 보완하곤 했다. CNNs CNNs 에서는 특정 길이로 Sub-sequence로 분할한 후 Feature를 추출하는 과정으로 접..

[CS224N] Language Model (n-gram, NNLM, RNN)

Contents Language Model 이란? 단어의 시퀀스에 대해서 얼마나 자연스러운 문장인지를 확률을 통해 예측하는 모델이며, 주어진 단어의 시퀀스에 대해 다음에 나타날 단어가 어떤 것인지를 예측하는 작업을 Language Modeling이라고 한다. 기계번역, 음성인식, 자동완성 등 여러 분야에 사용될 수 있다. $w_1, w_2, \cdots, w_{t-n+1}, \cdots, w_{t-1}, w_t, \cdots, w_{T-1}, w_T$ $P(w_1, \cdots, w_T) = P(w_1)\times P(w_2|w_1)\times \cdots \times P(w_T|w_{T-1}, \cdots, w_1)$ $\underset{t=1}{\overset{T}{\prod}}P(w_t|w_{t-1..

반응형