전통적인 자연어처리 방식에서는 동시발생 행렬(Co-occurrence Matrix), 즉, 각 단어가 동시에 출현한 빈도를 측정한 행렬을 사용하였다. 그러나, 발생 횟수를 기반으로 하기 때문에 많이 출현하는 The, A, An 등과 같은 단어로 인해 해당 단어와의 유사도가 높게 측정될 수 있다. 이와 같은 문제를 해결하고자 점별 상호정보량(Pointwise Mutual Information, PMI)이라는 척도가 도입된다. \[ \text{PMI} (x, y) = \log_2 \frac{P(x, y)}{P(x) \cdot P(y)} \] $P(x)$는 x가 발생할 확률, $P(y)$는 y가 발생할 확률, $P(x,y)=P(x \cap y)$는 x와 y가 동시에 발생할 확률을 의미한다. 이때 PMI 값이 ..