Paper review

On the long-term learning ability of LSTM LMs (ESANN'20)

언킴 2021. 6. 25. 13:11
반응형

오늘 읽은 논문은 On the long-term learning ability of LSTM LMs 다.  sentence and discourse-level과 LSTM LM의 analyzing을 CBOW(continuous Bag-of-Words) 기반으로 LSTM LM의 학습 능력을 text와 speech로 평가한다. Sentence - level model 은 vanilla discourse-level LSTM과 같은 성능을 가지고 있다. LSTM LM은 contextual 정보에 의존해 장기 학습을 수행하고 있다.

 

 

$w = (w_{1},...,w_{t}) $ 각각의 w는 이전 단어의 각각 conditional probability를 곱해서 단어를 예측한다. 많은 성공적인 논문들이 Fig. 1과 같은 방식을 사용하였다. 이 모델은 그 안의 단어와 거의 근사한 값을 찾아냈다. 각 $w_{t}$는 embedding vector가 되고, fed되어 하나 또는 여러개의 LSTM layers로 변환된다. 그 후 Softmax 가 적용되어  $p(w_{t+1} |w_{1},...,w_{t})$를 만든다. LSTM 은 본질적으로 model 의 dependencies를 제한할 수 없다. LSTM layers의 피드백으로 인해 이 모델은 이론적으로 long-distance relations을 다룰 수 있다.

 

이론적으로는 long-distance relations를 다룰 수 있지만, 현실적으로는 제한되어 있다. 각 input word 앞에 오는 제한된 양의 단어만 기억할 수 있다. 그래서 이 논문에서는 LSTM LMs의  새로운 long-term learning 방식을 보여준다. 간단한 long-distance module을 설계하고, 정보를 찾기 위해 input word의 context를 사용한다. language modeling과 speech recognition 에 대해 앞의 새로운 context 구성요소를 사용하여 구성요소와 분석결과 차이로 여러 LSTM LMs 구성을 확장하고 분석한다.

 

 

Long-term extension based on the CBOW model

model의 예측은 K-neighborhood${w_{t-K},...,w_{t-1},w_{t+1},...,w_{t+K}}$를 기반으로 단어를 학습하고 로그 선형 결합을 했다. 학습된 embedding은 벡터 공간에서 singular-plural이나 male-female 등 관계를 백터간 차이를 통하여 나타내준다.${e_{t-k},...,e_{t}}$ 는 ${w_{t-k},...,w_{t}}$를 embedding 하고 선형결합한 값이다. 

 

$d_{t}$ : contextual feature vector for predicting word

$g(k,w_{t-k})$ 은 $w_{t-k}$의 weight다.

여기서 weight 방식을 3가지로 제안한다.

1. $g(k,w_{t-k})$ = 1

2. $g(k,w_{t-k}) = \alpha - k $, $\alpha$는 단어의 weight가 얼마나 감소하는지에 대해 결정한다.

3. $g(k,w_{t-k}) = IDF(w_{t-k}) $ 

 

 

Experiments

hyper parameter를 조정하기 위해 예비 실험을 수행했다. 모든 LM은 single LSTM layers를 사용하고, vanilla model은 하나의 embedding을 사용한다. Wikitext-2의 경우 100/280 dimention으로 LSTM을 학습시킨다. LSTM layer는 200/560 개의 hidden layer를 가지고 학습시킨다. 모든 weight의 범위는 [-0.05, 0.05]로 균일하고 무작위로 초기화 된다. IDF에 사용되는 weight는 gensim을 통해 추출한다. 논문에서는 backpropagation과 stochastic gradient descent(SGD)방법을 사용한다. Wikitext-2 의 경우 75 epochs를 사용하고, batch size 는 20, 35개, epoch 6부터 decay된다. 각 모델은 train을 통해 학습되며 각 문장 후 hidden layer가 0으로 재설정된다.

 

embedding vector $e$가 가장 가까운 단어를 검색하고, text piece 끝에 계산된 feature vector $d$가 관련된 long-term information 을 포함할 것이다. 단어의 embedding이 feature vector 와 가장 가까운 context를 나타낸다. 사용된 snippet이 많이 나타나지 않더라도 extension이 long-term information을 capture할 수 있음을 보여준다. WikiText-2 에서 train된 extention이 있는 discourse - level  LM의 결과가 Table 1에 있다. 많은 정보를 가지고 있지 않더라도 단어의 embedding이 feature vector와 가장 가까운 context(문맥)을 나타낸다.

WikiText-2에서 train된 LSTM LM의 경우 WikiText-2 test set에 모델이 생성하는(output) perplexity(PPL)을 측정하여 평가한다. 250K tokens이 포함되어 있고, 점수는 3회 train 한 후 평균화 한 것이다.

 

 

 

 

 

Mediargus corpus and Corpus Gesproken Nederlands (CGN) 의 text 50K tokens을 사용해 PPL을 측정하였다. 또한, LM의 a Dutch speech data set containing news bulletins 의 41K speech sets을 통해 speech 인식 적용에도 사용한다. PPL과 WER 도 위 방법과 똑같이 3번 train한 후 평균치를 기재하였다. 

 

WER(%) : word error rate 

Table 3과 Table2는 PPL과 WER에 대해서 유사한 경향이 있다. CBOW 기반 모듈이있는 sentence-level 모델은 확장없는 discourse - level LM과 유사하게 수행됩니다. 이 결과를 통해 LSTM LM은 제한된 단어 history의 애매한 의미 개념을 통해 장기 정보를 파악하는 것을 알 수 있다.

 

 


참고 문헌

On the long-term learning ability of LSTM LMs

ESANN 2020 proceedings, European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Online event, 2-4 October 2020, i6doc.com publ., ISBN 978-2-87587-074-2. Available from http://www.i6doc.com/en/