자연어처리 9

Bigbird: Transformers for Longer Sequences (NeurIPS'20)

Contents RNN, LSTM, GRU 이후 Transformers가 제안되고 부터 다양한 분야에서 Transformer 기반 모델이 사용되었으며, 특히 자연어 처리(Natural Language Processing, NLP) 분야에서 많이 사용되고 있다. 이번 글에서는 Transformers의 문제를 개선한 모델인 Bigbird를 제안한 논문을 리뷰하고자 한다. [Transformers], [Bigbird] Introduction BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformers) 등과 같이 Transformer-based model(이하 Transformers)..

[Books] 임베딩(embedding)의 종류

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 컴퓨터는 사람이 사용하는 자연어를 제대로 이해할 수가 없다. 그렇기 때문에 기계가 이해할 수 있도록 변환해주는 작업이 필요하다. 자연어가 가지는 통계적인 패턴(statistical pattern)을 벡터로 변환해주는 것이다. 임베딩을 만들 때 쓰는 통계 정보는 단어의 빈도, 언어 모델, 분포 가정으로 총 세 가지가 존재한다. 단어의 빈도 단어의 빈도는 BoW(Bag of Words)라고도 부르며, 어떤 단어가 많이 쓰였는지를 중요시한다. 순서를 고려하지 않고 단어들을 파싱(parsing)해서 단어의 빈도 수만 확인하는 방법이며, 대표적인 기법으로는 TF-IDF(Term Frequency-Inverse Document Frequency)이다. 딥..

[Books] 한국어 임베딩 시작하기

이기창님께서 작성하신 한국어 임베딩을 정리 및 요약했습니다. 한국어 임베딩은 한국어 자연어 처리를 하는 것에 있어 바이블과 같은 책이라고 말할 수 있다. 본 책의 내용을 간략하게 설명하고 본인의 스타일대로 추가 작성할 것이다. 일단 시작하기에 앞서 환경 설정 부터 진행할 것인데, 본인은 도커 환경에 컨테이너를 설치한 후 로컬 호스트에 연결시켜서 사용할 것이다. $ docker pull ratsgo/embedding-cpu docker run -it --rm --name ko_embedding \ -p 8888:8888 -v C:\[local directory]\:/notebook/embedding \ ratsgo/embedding-cpu:latest 로컬 호스트의 포트와 컨테이너의 포트를 연결시켜 준 후..

[NLP] Tokenization

Tokenization. 토큰화라고 불리는 이것은 단어를 작은 단위로 쪼개주는 역할을 한다. 영어를 토큰화 할 때에는 nltk를 사용하고, 한국어를 토큰화 할 때에는 konlpy를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from torchtext.data import get_tokenizer sentence = "Don't be fooled by the dark sounding name, \ Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop." print('word_tokenize', word_tokenize(se..

[Short] Sentiment Analysis in TripAdvisor, Ana Valdivia (2017)

Sentiment Analysis in TripAdvisor / IEEE Intelligent Systems Vol. 32 (2017) Ana Valdivia, Victoria Luzon, Francisco Herrera Web 1.0에서 Web 2.0으로 변화하면서 웹에 방대한 양의 Review나 사용자의 의견 등의 데이터가 많아졌다. 본 논문에서는 감성분석을 수행하는데 CoreNLP, Syuzhet, Bing, SentiStrength 총 4가지의 분석 기법을 통해서 Tripadvisor Review를 분석했다. 첫번째로 긍정적인 리뷰만을 가지고 분석을 시행했는데, 긍정적인 리뷰 내에서도 상당히 많은 양의 부정적인 리뷰들이 속해있었다. 사용자들은 주로 평점을 좋게 주고, 리뷰 내용은 부정적인 의견을 ..

Understanding homophily of service failure within the hotel guest cycle: Applying NLP-aspect-based sentiment analysis to the hospitality industry (2020)

제목 그대로 호텔 Guest Cycle 내의 서비스 실패 유형을 이해하는 데 자연어 처리 측면의 분석기법을 사용하는 논문이다. 예전에는 WOM(Word of Mouth)의 구전 전달 방식으로 인해 주변 사람들에게만 말이 전달되었지만, 인터넷이 발전되어 가면서 e-WOM 형태로 변형되어졌다. 사람들은 해당 호텔을 이용하고 난 후 리뷰를 작성하는 것으로 본인이 좋았던 점, 불만족스러운 점을 작성하고 이를 분석해서 조금 더 이용객에 만족감을 제공해줄 수 있을 것이다. Guest Cylce은 총 4 스테이지로 구분해 어떤 스테이지에서 호텔 투숙객이 불만을 느끼는지 체크해 해당 스테이지를 개선함으로써 보다 소비자들에게 만족감을 줄 수 있고, 해당 논문에서는 Guest Cycle만 고려하는 것이 아니라 문화까지 접..

The cultural impact on social commerce: A sentiment analysis on Yelp ethnic restaurant reviews, Makoto Nakayama (2019)

Amazon, TripAdvisor, Yelp 등의 포털은 제품, 업종 등의 리뷰는 기업에 유용한 insight 제공해준다. 기업은 리뷰를 보고 소비자들의 불만사항을 체크할 수 있고, 소비자들은 해당 리뷰를 보고 제품, 가게의 정보를 획득할 수 있어 정보의 비대칭성이 완화될 수 있다. 전통적인 마케팅 WOM(word of mouth)의 경우에는 구두를 통한 의사소통으로 인해 가족, 친척, 친구 등의 좁은 범위 내에서만 영향을 주어, 상대적으로 영향이 덜했지만 전자 상거래로 변화되면서 리뷰에 대한 영향이 커지고 있다. 해당 논문에서는 Yelp dataset을 토대로 서로 다른 문화적 배경을 가진 고객들이 음식에 대한 평가 기준에 차이가 있는지 확인하고자 한다. 네덜란드 심리학자인 호프스테더가 주장한 문화차..

[CS224N] Named Entity Recognition(NER)

NER 개체명 인식은 문장에서 Location, Person, Organization 등 개체명$^{Named\ Entity}$를 분류하는 방법론이다. 개체명 인식을 하기 위해서는 그 전에 전처리 과정을 해주어야 한다. input으로 text가 들어오면 sentence단위로 split을 해주는 과정이 필요하고, 그 후 tokenizing을 거치고 pos tagging을 해준 후 Named entity recognition을 진행할 수 있다. 아래와 같이 '우리', '아버지', '가방', '에', '들어간', '다' 로 토큰화 되었다고 해보자. 일반적으로 '가방'이라는 단어를 location으로 판단할 수는 없지만 NER에서는 문맥을 보고 결정하기 때문에 아래의 경우 '가방'을 Location으로 개체명을..

On the long-term learning ability of LSTM LMs (ESANN'20)

오늘 읽은 논문은 On the long-term learning ability of LSTM LMs 다. sentence and discourse-level과 LSTM LM의 analyzing을 CBOW(continuous Bag-of-Words) 기반으로 LSTM LM의 학습 능력을 text와 speech로 평가한다. Sentence - level model 은 vanilla discourse-level LSTM과 같은 성능을 가지고 있다. LSTM LM은 contextual 정보에 의존해 장기 학습을 수행하고 있다. $w = (w_{1},...,w_{t}) $ 각각의 w는 이전 단어의 각각 conditional probability를 곱해서 단어를 예측한다. 많은 성공적인 논문들이 Fig. 1과 같은..

Paper review 2021.06.25
반응형