반응형
전통적인 자연어처리 방식에서는 동시발생 행렬(Co-occurrence Matrix), 즉, 각 단어가 동시에 출현한 빈도를 측정한 행렬을 사용하였다. 그러나, 발생 횟수를 기반으로 하기 때문에 많이 출현하는 The, A, An 등과 같은 단어로 인해 해당 단어와의 유사도가 높게 측정될 수 있다. 이와 같은 문제를 해결하고자 점별 상호정보량(Pointwise Mutual Information, PMI)이라는 척도가 도입된다.
그러나 PMI의 분자가 0이 되어 버리면
0보다 작은 값, 즉,
'Deep Learning > Natural Language Processing' 카테고리의 다른 글
[NLP] BERT의 종류 (2) | 2022.08.15 |
---|---|
Sequence-to-Sequence (Seq2Seq) (0) | 2022.05.12 |
[NLP] Stemming and Lemmatization (0) | 2022.01.18 |
[NLP] Tokenization (0) | 2022.01.18 |
[NLP] Transformer (0) | 2021.10.21 |