Deep Learning/Optimization 2

[Optimization] Important Concepts in Optimization

최적화에서도 여러가지 방법이 있지만 여기서는 머신러닝, 딥러닝에서 활용되는 최적화 기법과 기본적인 모델에 대해서 다뤄볼 것이다. 우리는 모델의 Generalization 성능을 높이는 것이 목표다. 하지만 우리가 무조건적인 일반화를 하는 것이 좋은 모델인가? iteration을 반복하게되면 학습데이터에 대해서 계속 학습을 하기 때문에 training error는 지속적으로 줄어들게 된다. training error가 0이 되었다고 해서 모델의 일반화가 되었다고는 말할 수 없다. 왜냐하면 너무 training data에 적합한 모델이 되어버려서 일반화가 되지 않아, training 되지 않은 새로운 dataset에서는 모델이 적절하지 않기 때문이다. 너무 과적합 되어버리면 test set에서는 오히려 er..

[Optimization] Gradient Descent

경사법 ( 경사 하강법 ) 신경망에서 최적의 매개변수를 학습 시에 찾아야 한다. 최적이란 손실 함수가 최솟값이 될 때의 매개변수 값이다. 하지만 매개변수의 공간이 광대하여 최솟값을 찾는데에 있어 어려움이 있기 때문에 경사하강법을 사용하여 최솟값을 찾으려고 한다. 하지만 그 기울기가 가리키는 곳에 정말 함수의 최솟값이 있는지 보장할 수 없다(안장점). 실제로 복잡한 함수에서는 기울기가 가리키는 방향에 최솟값이 없는 경우가 대부분이다. 경사법은 현 위치에서 기울어진 방향으로 일정 거리만큼 이동하는 것을 말한다. 그런 다음 이동한 곳에서 다시 기울기를 구하고, 또 기울어진 방향으로 나아가기를 반복한다. 이 방법은 특히 신경망 학습에 많이 사용된다. $x_{0} = x_{0} - \eta {\partial f ..

반응형