Contents
본 논문은 2019년 EMNLP에서 발표한 논문이다. E2E-ABSA를 하기 위한 BERT 모델을 제안하였다. ABSA는 Aspect Based Sentiment Analysis 를 의미한다. 기존의 Sentiment Analysis는 문장 전체를 살펴보고 긍정인지 부정인지 분류하는 형태로 진행되었다. 그러나, 이는 문장 내에 다중 속성(Aspect)이 내포되어 있더라도 하나의 속성 만을 도출한다는 단점이 존재한다. 예를 들어, "이 식당은 음식은 맛있지만, 서비스는 별로다." 라는 리뷰는 음식의 맛에 대한 속성은 긍정을 나타내고, 서비스에 대한 속성은 부정을 나타낸다. 그러나, 기존 기법을 사용하는 경우 음식, 서비스에 대한 속성을 모두 긍정 혹은 부정으로 판별한다는 것이다. 본 논문에서는 이러한 문제를 해결하기 위해 BERT-E2E-ABSA 모델을 제안하였다.
Introduction
기존 연구에서도 ABSA (Aspect Based Sentiment Analysis) 관련된 연구는 활발히 진행되었다. 대표적인 모델이 ABSA, AOWE, E2E-ABSA 등이 있다. 첫 번째 기법인 ABSA 기법은 주어진 문장(sentence)과 속성(Aspect)의 정도를 예측하는 것에 초점을 두고 있다. 즉, 문장과 속성을 입력으로 사용하면 출력으로 Aspect Sentiment 를 출력하는 형태로 구성되어 있다.두 번째 기법인 AOWE 기법은 주어진 문장과 속성에 대한 Opinion Word를 추출하는 것이다. 마지막 기법인 E2E-ABSA 기법은 문장이 주어졌을 때 속성과 속성에 대한 감성을 추출하는 것을 목표로 한다.

기존 연구에서는 task-agnostic 한 모델인 Word2Vec, GloVe 등의 모델을 사용하여 ABSA task를 수행하였다. 그러나 기존에 제안된 모델들은 병목 현상(bottleneck)을 발생해 성능이 그다지 좋지 않았다. Word2Vec의 경우 단어들에 대한 정보만을 고려하기 때문에 문장 전체에 대한 정보를 포착하는 것이 어렵기 때문이다. 따라서, 이를 극복하기 위해 문장 정보를 고려하는 LSTM, Transformer 등의 모델을 통한 ABSA 모델이 제안되었다. LSTM, Transformer 등의 기법은 문장의 처음부터 끝까지 모든 정보를 고려하기 때문에 E2E-ABSA 기법이라 부른다.
본 논문에서는 Transformer의 인코더를 이용하여 구축된 BERT를 사용하여 E2E-ABSA를 수행해 성능을 확인하고자 한다. 또한, 기존 연구에서 제안된 E2E-ABSA 모델과 같이 BERT를 사용하고 마지막에 single sequence tagger를 통과해 속성을 예측한다.
Model

BERT as Embedding Layer
본 연구에서는 기존 연구에서 사용된 Word2Vec, GloVe 등을 통한 ABSA 기법의 성능을 개선하기 위해 BERT를 기반으로 E2E-ABSA 기법을 사용하였다. BERT 는 기본적으로 총 3개의 Embedding Layer로 구성되어 있다. 이를
Design of Downstream Model
위 과정을 통해 임베딩을 수행한 후 다운스트림을 위해 마지막 E2E-ABSA Layer를 구축하는 단계이다. 본 논문에서는 Linear Layer, Recurrent Neural Network(RNN), self-attention networks, Conditional Random Fields(CRF) 를 사용하여 최종 E2E-ASBA Layer를 구성하였다.
Linear Layer
매우 간단한 모델 중 하나이며, Linear Layer를 통과한 후 Softmax function을 적용해 최종 output을 도출하는 형태이며, 수식은 아래와 같다.
Recurrent Neural Networks
본 연구에서는 sequence model 중 가장 성능이 우수하다고 알려진 GRU를 사용하여 모델을 구축한다. hidden representation인
Self-Attention Networks
Self-Attention Networks는 이미 성능이 우수하다고 알려진 기법 중 하나이다. 본 연구에서는 token represenation
Conditional Random Fields
Conditional Random Fields(CRF)는 시퀀스 모델링에 효과적이라고 알려진 모델 중 하나이다. 본 논문에서는 CRF Layer는 아래와 같이 확률값을 통해 tag sequence를 도출한다.
Experiments
Dataset
본 연구에서는 LAPTOP, REST 데이터를 활용하여 실험을 진행하였다. 각각의 통계량은 아래와 같다. BERT 는 "bert-base-uncased" 즉, 가장 기본적인 BERT 모델을 사용하였으며, 기본 BERT 모델은

Main Results
실험 결과, 기존 모델에 비해 본 연구에서 제안하는 BERT based 모델의 성능이 가장 우수한 것을 확인할 수 있다.



BERT는 사전학습 모델이기 때문에 fine-tuning을 하기 전 성능에 비해 fine-tuning을 한 성능이 매우 우수한 것으로 확인된다. zero-shot의 경우 46% 정도의 F1-score를 보이는 반면, fine-tuning을 한 후에는 74% 정도로 성능이 많이 개선된 것을 확인할 수 있다.