Transformer 6

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy (ICLR'22)

Contents 본 논문은 이상치 탐지(Anomaly Detection)를 위해 Prior Association과 Series Association 간의 차이 즉, Association Discrepancy를 이용한 Transformer 기반 모델 Anomaly Transformer를 제안하였다. 최적화를 위해 Minimax 방식을 사용하였으며, 기존 이상치 탐지 기법에 비해 월등히 높은 성능을 보이는 것을 확인하였다. Introduction 이상치 탐지는 지도 학습(Supervised-Learning) 기반, 비지도 학습(Unsupervised-Learning) 기반 등 다양한 기법으로 구성되어 있다. 본 연구에서는 비지도 학습 기반 중 Transformer 기법을 활용하여 이상치 탐지를 수행한다. 학..

[Pytorch] Transformer 구현하기

Contents Transformer는 자연어 처리(Natural Language Processing, NLP) 분야에서 성능이 우수한 것으로 검증된 대표적인 Self-Attention 모델이다. 기존 Sequential Based 모델인 RNN, LSTM, GRU 등과 같은 모델에 비해 매우 우수한 성능을 보여주고 있으며, BERT, GPT 등의 사전 학습 기반 모델이 Transformer의 골조를 활용하였다. 이번 글에서는 Transformer의 Encoder와 Decoder가 어떻게 구성되어 있는지 짧은 코드를 통해 알아보자. Import Package Transformer는 HuggingFace 에서 지원하는 transformers 패키지와 PyTorch를 이용하여 구현할 것이다. 따라서, 구현에..

Python/Pytorch 2022.12.20

[NLP] BERT의 종류

Contents BERT는 Transformer의 Encoder 부분을 사용한 모델이다. 현재까지도 BERT의 파생 모델이 많이 제안되고 있으며, 우수한 모델로써 인정받고 있다. BERT에는 가장 기본적인 BERT와 RoBERTa, ALBERT 등 다양한 파생 모델이 존재하는데, 각각의 모델들이 어떠한 차이점을 가지고 있는지 간략하게 알아보자. BERT BERT는 2018년 구글에서 기계 번역을 위해 제안한 모델이며 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"에서 처음 발표하였다. 이는 Supervised Learning 뿐만 아니라 Self-Supervised Learning이 가능하다고 언급하고 있..

Bigbird: Transformers for Longer Sequences (NeurIPS'20)

Contents RNN, LSTM, GRU 이후 Transformers가 제안되고 부터 다양한 분야에서 Transformer 기반 모델이 사용되었으며, 특히 자연어 처리(Natural Language Processing, NLP) 분야에서 많이 사용되고 있다. 이번 글에서는 Transformers의 문제를 개선한 모델인 Bigbird를 제안한 논문을 리뷰하고자 한다. [Transformers], [Bigbird] Introduction BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformers) 등과 같이 Transformer-based model(이하 Transformers)..

[NLP] Transformer

Sequential Model을 처리하는데 있어서 다루기에 많은 문제들이 발생한다. 끝이 잘리거나, 중간중간 생략이 되거나, 밀리거나 하는 등의 문제가 생기기 때문에 RNN처럼 Sequential 하게 input이 들어가면 Permuted되거나 Omitted 되는 경우 단어를 다루기 힘들어진다. 이와 같은 문제로 인해 기존의 RNN의 문제를 보완하려고 self-attention이라는 것을 타이틀로 Transformer가 등장하게 되었다. (Attention is All you Need, NIPS, 2017) [논문] Recurrent Neural Network(RNN)의 경우 input을 받아 hidden state를 거쳐 output이 나오며 many-to-one의 경우 이전 cell의 정보를 받아서 ..

[CS224N] Subword Model - BPE, Wordpiece

12강에서는 Subword Models에 대해서 다룬다. 이전의 언어모델에서는 형태론을 통해서 각 단어를 띄어쓰기 기반으로 분류해 단어에 대해 분석을 진행했다. 하지만 합성어의 경우 띄어쓰기가 존재하는 합성어도 있고 아닌 경우도 있으며, 띄어쓰기가 없는 언어도 존재하기 때문에 문제에 직면하게 된다. 모든 단어를 커버할 수 없기 때문에 단어기반이 아닌 Character 기반의 모델이 등장했다. Character level 모델은 Unknown word도 파악이 가능하며, Conneted Language 분석은 당연히 가능하며, Character n-gram으로 의미를 추출하는 경우로 주로 사용된다. Byte Pair Encoding (BPE) 수부지 피부 고민이라는 단어를 예측하려면 '수부지'라는 단어는 ..

반응형