- Optimization - Word Prediction Methods - GloVe : Global Vectors for Word Representation - How to evaluate word vectors - Word senses and word sense ambiguity Optimization gradient descent 최적화의 가장 대표적인 모델은 경사하강법(GD)이 있다. 경사하강법은 Cost Function $J(\theta)$를 최소화하기 위한 알고리즘으로 초기에 $\theta$를 랜덤하게 설정하고 시작한다. 그리고 현재의 $\theta$에서 $J(\theta)$의 기울기를 계산하고 기울기의 반대방향으로 조금씩 이동하면서 최소가 되는 $\hat{\theta}$을 찾아가는 방법이다..