버트 3

[Transformers] Bert Tokenizer 알아보기

Contents Transformers 패키지는 자연어처리(NLP) 분야에서 엄청 많이 사용되는 패키지 중 하나이다. BERT 등과 같은 모델을 구축할 때 Transformers 패키지를 사용하면 매우 편하게 구축할 수 있다. 이번 글에서는 Transformers에 존재하는 BERT에서 사용하는 tokenizer 함수를 뜯어본다. BertTokenizer BertTokenizer는 PreTrainedTokenizer를 상속받는다. PreTranedTokenizer는 나중에 알아보도록하고, 단순히 사전 학습된 tokenizer 정도로 이해하면 된다. BertTokenizer 내에는 vocab_file, do_lower_case, unk_token 등 다양한 파라미터들이 존재하는데, 중요한 파라미터 위주로 ..

Python/Transformers 2022.12.04

[Pytorch] BERT로 감성 분석하기. 기초 설명까지

Contents BERT(Bidirectional Encoder Representation from Transformers)는 Transformer를 기반으로 양방향 학습을 하는 사전학습 모델이다. 사전학습 모델이란 미리 사전에 많은 양의 코퍼스를 학습하고, 그 후 파인튜닝(Fine-tuning)을 통해 본인이 사용하고자 하는 도메인에 적용하는 모델이다. Transformer가 나오기 이전에도 Bi-LSTM 등과 같이 양방향 학습 모델이 존재했지만, 사전 학습 모델은 아니었으며, BERT는 Self-supervised Learning 중 하나인 Making 기법을 사용하여 학습의 성능을 향상시키고, 지금까지도 많이 사용된다. 이번 글에서는 BERT를 사용하는 방법에 대해서 알아보고, 각 코드가 어떤 의미..

Python/Pytorch 2022.12.03

Exploiting BERT for End-to-End Aspect-based Sentiment Analysis (2019)

Contents 본 논문은 2019년 EMNLP에서 발표한 논문이다. E2E-ABSA를 하기 위한 BERT 모델을 제안하였다. ABSA는 Aspect Based Sentiment Analysis 를 의미한다. 기존의 Sentiment Analysis는 문장 전체를 살펴보고 긍정인지 부정인지 분류하는 형태로 진행되었다. 그러나, 이는 문장 내에 다중 속성(Aspect)이 내포되어 있더라도 하나의 속성 만을 도출한다는 단점이 존재한다. 예를 들어, "이 식당은 음식은 맛있지만, 서비스는 별로다." 라는 리뷰는 음식의 맛에 대한 속성은 긍정을 나타내고, 서비스에 대한 속성은 부정을 나타낸다. 그러나, 기존 기법을 사용하는 경우 음식, 서비스에 대한 속성을 모두 긍정 혹은 부정으로 판별한다는 것이다. 본 논문에..

반응형