glove 2

[Books] 행렬 분해 기반 언어 모델 (LSA, GloVe, Swivel)

Contents 행렬 분해는 단어-문서 행렬이나 TF-IDF 행렬 등의 행렬 구조에 차원 축소 방법을 적용해 차원의 수를 줄여 계산 효율성을 키우고, 행간에 숨어 있는 잠재 의미를 파악하는 것이 목표다. 언어 모델이 가질 수 있는 행렬은 단어-문서 행렬, TF-IDF 행렬, 단어-문맥 행렬, 점별 상호 정보량(PMI) 등이 존재하는데, 이번 글에서는 PMI 행렬의 특수한 버전인 PPMI 행렬에 대해서 다루어볼 것이다. PMI는 두 확률변수 사이의 상관성을 계량화한 지표이며, 두 단어의 등장이 독립을 가정했을 때 대비 얼마나 자주 같이 등장하는지를 수치화한 것이고, 수식은 다음과 같다. \[ \text{PMI}(A,B) = \log \frac{\text{P}(A,B)}{\text{P}(A) \times \..

[CS224N] cound based Word Prediction model (GloVe)

- Optimization - Word Prediction Methods - GloVe : Global Vectors for Word Representation - How to evaluate word vectors - Word senses and word sense ambiguity Optimization gradient descent 최적화의 가장 대표적인 모델은 경사하강법(GD)이 있다. 경사하강법은 Cost Function $J(\theta)$를 최소화하기 위한 알고리즘으로 초기에 $\theta$를 랜덤하게 설정하고 시작한다. 그리고 현재의 $\theta$에서 $J(\theta)$의 기울기를 계산하고 기울기의 반대방향으로 조금씩 이동하면서 최소가 되는 $\hat{\theta}$을 찾아가는 방법이다..

반응형