오늘 읽은 논문은 On the long-term learning ability of LSTM LMs 다. sentence and discourse-level과 LSTM LM의 analyzing을 CBOW(continuous Bag-of-Words) 기반으로 LSTM LM의 학습 능력을 text와 speech로 평가한다. Sentence - level model 은 vanilla discourse-level LSTM과 같은 성능을 가지고 있다. LSTM LM은 contextual 정보에 의존해 장기 학습을 수행하고 있다.
이론적으로는 long-distance relations를 다룰 수 있지만, 현실적으로는 제한되어 있다. 각 input word 앞에 오는 제한된 양의 단어만 기억할 수 있다. 그래서 이 논문에서는 LSTM LMs의 새로운 long-term learning 방식을 보여준다. 간단한 long-distance module을 설계하고, 정보를 찾기 위해 input word의 context를 사용한다. language modeling과 speech recognition 에 대해 앞의 새로운 context 구성요소를 사용하여 구성요소와 분석결과 차이로 여러 LSTM LMs 구성을 확장하고 분석한다.

Long-term extension based on the CBOW model
model의 예측은 K-neighborhood

여기서 weight 방식을 3가지로 제안한다.
1.
2.
3.

Experiments
hyper parameter를 조정하기 위해 예비 실험을 수행했다. 모든 LM은 single LSTM layers를 사용하고, vanilla model은 하나의 embedding을 사용한다. Wikitext-2의 경우 100/280 dimention으로 LSTM을 학습시킨다. LSTM layer는 200/560 개의 hidden layer를 가지고 학습시킨다. 모든 weight의 범위는 [-0.05, 0.05]로 균일하고 무작위로 초기화 된다. IDF에 사용되는 weight는 gensim을 통해 추출한다. 논문에서는 backpropagation과 stochastic gradient descent(SGD)방법을 사용한다. Wikitext-2 의 경우 75 epochs를 사용하고, batch size 는 20, 35개, epoch 6부터 decay된다. 각 모델은 train을 통해 학습되며 각 문장 후 hidden layer가 0으로 재설정된다.
embedding vector

WikiText-2에서 train된 LSTM LM의 경우 WikiText-2 test set에 모델이 생성하는(output) perplexity(PPL)을 측정하여 평가한다. 250K tokens이 포함되어 있고, 점수는 3회 train 한 후 평균화 한 것이다.

Mediargus corpus and Corpus Gesproken Nederlands (CGN) 의 text 50K tokens을 사용해 PPL을 측정하였다. 또한, LM의 a Dutch speech data set containing news bulletins 의 41K speech sets을 통해 speech 인식 적용에도 사용한다. PPL과 WER 도 위 방법과 똑같이 3번 train한 후 평균치를 기재하였다.

Table 3과 Table2는 PPL과 WER에 대해서 유사한 경향이 있다. CBOW 기반 모듈이있는 sentence-level 모델은 확장없는 discourse - level LM과 유사하게 수행됩니다. 이 결과를 통해 LSTM LM은 제한된 단어 history의 애매한 의미 개념을 통해 장기 정보를 파악하는 것을 알 수 있다.
참고 문헌
On the long-term learning ability of LSTM LMs
ESANN 2020 proceedings, European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Online event, 2-4 October 2020, i6doc.com publ., ISBN 978-2-87587-074-2. Available from http://www.i6doc.com/en/
'Paper review' 카테고리의 다른 글
A RNN-based Multi-Period Recommender System considering Repurchase Behavior (2018) (0) | 2021.06.24 |
---|