Loss Function 5

Object Function, Cost Function, Loss Fuction

우리가 딥러닝(Deep Learning)을 다루다 보면 목적 함수(Object Function), 비용 함수(Cost Function), 손실 함수(Loss Function)이라는 단어를 많이 접하게 될 것이다. 일반적으로 언급한 세 가지의 함수가 동일하다고 알고 있는데, 일부는 맞고 일부는 틀렸다고 할 수 있다. 목적 함수(Object Function) 목적 함수는 말그대로 어떠한 목적을 가지고 모델을 학습해 최적화하고자 하는 함수이다. 일반적으로 딥러닝에서는 경사 하강법(Gradient Descent) 방식을 사용하여 최적화하기 때문에 비용 함수가 바로 목적 함수가 된다. 하지만 MLE(Maximum Likelihood Estimate)와 같이 확률을 최대로 하는 방법을 사용할 경우에 감소하는 방식이..

Deep Learning 2022.04.28

[Books] 신경망 학습하기 (loss function, gradient descent)

밑바닥부터 시작하는 딥러닝1을 리뷰합니다. 이전 글에서 선형으로 분리가 되는 문제의 경우 데이터로부터 자동으로 학습할 수 있다. 하지만 비선형 분리의 문제의 경우 자동으로 학습하는 것이 불가능하기 때문에 비선형 문제에서는 손실 함수(loss function)라는 개념이 나오게 된다. 본 책에서는 신경망 학습에서는 현재의 상태를 '하나의 지표'로 표현한다고 언급했다. '지표'를 가장 좋게 만들어주는 가중치를 탐색하는 것이 목표라고 할 수 있다. 여기서 '지표'는 바로 손실 함수이다. 손실함수는 다양한 함수들이 존재하지만, 일반적으로 오차제곱합(Sum of Squares for Error, SSE), 교차 엔트로피(Cross Entropy)를 많이 사용한다. 손실함수(loss function) 오차제곱합(S..

[CS231N] Loss function & Optimization (2)

앞 내용에 이어서 이번에는 Loss function 중에서 softmax를 다뤄볼 것이다. 각 score를 확률값으로 바라볼 수 있을 것이다. $P(Y\ =\ k\ |X\ =\ x_{i})$ 는 $X=x_{i}$일 때 $Y = k$로 k라는 class에 속할 확률값을 찾는 것이며, 이러한 값이 Likelihood가 된다. $\Sigma_{j}e^{sj}$ = 모든 score의 합 $e^{sk}$ 는 k class 의 score Maximize loglikelihood는 가장 최대가 되는 값을 찾는 것이기 때문에 그 값에 대해 -1 을 곱해줘서 최솟값을 찾는 loss function 으로 만들 수 있다. 그리고 MLE는 각 확률값을 곱하여 도출하는데 이 부분에서 log를 취해주면 곱을 덧셈으로 바꿀 수 있..

[CS231N] Loss function & Optimization (1)

image를 분류하는 과정에서 여러가지 문제점이 발생할 수 있다. 1. Camera pose : 카메라의 위치에 따라서 image의 값들이 달라질 수 있다. 2. illumination : 조명에 의해 색이 바뀌는 문제가 발생할 수 있다. 3. Deformation : 원래 형상이 아닌 다른 형상으로 image가 생성될 수 있다. 4. Occlusion : 일부가 없어져 보일 수 있다. 5. Background clutter : 배경과 분류하고자 하는 image가 비슷하여 구분하기가 어려울 수 있다. 6. intraclass variation : 같은 종류의 image라도 색상, 모양 등이 다름에서 문제가 발생할 수 있다. 이번 파트에서는 우리가 작성한 score function 이 얼마나 데이터를 잘 ..

[Statisctics] Maximum Likelihood Estimate

MLE란? Maximun Likelihood method라고도 불리며, 최대우도법이라고 한다. 어떤 사건이 일어날 가장 높은 확률 값을 찾는 것이라고 볼 수 있다. 어떤 모수 $\theta$로 결정되는 확률변수의 모임 $D_{\theta} = (X_{1},X_{2},...,X_{n})$이 있고, $D_{\theta}$ 의 확률변수가 $f$라고하면 $f$에 대해서 가능도 $\mathcal{L}_{\theta}$는 다음과 같이 표현할 수 있다. $\mathcal{L}_{\theta} = f_{\theta}(x_{1},x_{2},...,x_{n}) $ $\hat{\theta} = \underset{\theta}{\text{argmax} \mathcal{L(\theta)}} $ 만약 $X_{1},X_{2},....

반응형