[Statisctics] Maximum Likelihood Estimate

Mathematics/Statistics

[Statisctics] Maximum Likelihood Estimate

언킴 2021. 6. 29. 00:03

MLE란?

Maximun Likelihood method라고도 불리며, 최대우도법이라고 한다. 어떤 사건이 일어날 가장 높은 확률 값을 찾는 것이라고 볼 수 있다. 어떤 모수 $θ$ 로 결정되는 확률변수의 모임 $D_{θ} = (X_{1}, X_{2}, . . ., X_{n})$ 이 있고, $D_{θ}$ 의 확률변수가 $f$ 라고하면 $f$ 에 대해서 가능도 $L_{θ}$ 는 다음과 같이 표현할 수 있다.

$L_{θ} = f_{θ} (x_{1}, x_{2}, . . ., x_{n})$

$\hat{θ} = \underset{θ}{argmax L (θ)}$

만약 $X_{1}, X_{2}, . . ., X_{n}$ 이 모두 independent 하고 같은 확률분포를 가진다면 $L (θ) = \underset{i = 1}{\prod^{N}} f_{θ} (x_{i})$ 로 표현이 가능하다. 그리고 위 값을 계산하기 편하게 하기 위하여 log값을 취하게 된다. ( log를 취해주게 되면 곱 형태가 덧셈형태로 변형되기 때문에 계산하기 용이하다 )

Deep Learning 에서는 MLE를 가지고 Cross Entropy를 계산하거나 -1 을 곱해주어서 최소값을 찾는 Loss function으로도 사용한다. ( input value 가 이산형일 경우 사용을 한다. 연속형일 경우는 GD )

- cross Entropy, Gradient Descent 는 다음에 다뤄보도록..

예제 1 : Binomial

$X \sim B (n, θ)$ 라고 하자. $f_{θ} (x_{i}) = (\binom{n}{k}) θ^{k} (1 - θ)^{n - k}$ 가능도 함수는 $L (θ)$ 는 $L (θ) = \underset{i = 1}{\prod^{N}} f_{θ} (x_{i})$ 가 된다.

$\hat{θ} = \underset{θ}{argmax L (θ)} = \underset{θ}{argmaxln L (θ)}$ , $ln L (θ)$ 가 max가 되는 $θ$ 를 찾으면 된다.

$\frac{\partial}{\partial θ} (ln ((\binom{n}{k}) θ^{k} (1 - θ)^{n - k}))$

= $\frac{\partial}{\partial θ} (ln (\frac{n!}{k! (n - k)!} + ln (θ^{k}) + ln ({(1 - θ)}^{n - k}))$

= $\frac{k}{θ} + \frac{n - k}{θ - 1}$ = 0

$k (θ - 1) + (n - k) θ = 0$

$k θ - k + n θ - k θ = 0$

$i . e . θ = \frac{k}{n}$

예제 2 : Gaussian distribution

위와 동일한 방법으로 진행할 것이다. 가우시안 분포에 변수는 $μ$ 와 $σ$ 가 있기 때문에 $μ$ , $σ$ 에 대해 각각 최댓값을 찾을 수 있는 식을 구할 수 있다.

$f_{θ} x = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$

$L (θ) = \underset{i = 1}{\prod^{N}} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x_{i} - μ)^{2}}{2 σ^{2}}}$

$ln L (θ) = Σ ln (\frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x_{i} - μ)^{2}}{2 σ^{2}}})$

= $Σ (ln (\frac{1}{\sqrt{2 π σ^{2}}}) + ln (e^{- \frac{(x_{i} - μ)^{2}}{2 σ^{2}}}))$

= $ln (\frac{n}{\sqrt{2 π σ^{2}}}) - Σ \frac{(x_{i} - μ)^{2}}{2 σ^{2}}$

$\frac{\partial L}{\partial μ} ln (L (θ)) = \frac{\partial}{\partial μ} (ln (\frac{n}{\sqrt{2 π σ^{2}}}) - Σ \frac{(x_{i} - μ)^{2}}{2 σ^{2}})$

= $Σ \frac{1}{σ^{2}} (x_{i} - μ) = 0$

$i . e . \hat{μ} = \frac{Σ x_{i}}{n}$

$\frac{\partial L}{\partial σ} ln (L (θ)) = \frac{\partial}{\partial σ} (ln (\frac{n}{\sqrt{2 π σ^{2}}}) - Σ \frac{(x_{i} - μ)^{2}}{2 σ^{2}})$

= $- \frac{n}{σ} + \frac{1}{σ^{3}} Σ (x_{i} - μ)^{2}$ = 0

$i . e . \hat{σ^{2}} = \underset{i = 1}{\overset{N}{Σ}} \frac{(x_{i} - μ)^{2}}{n}$

저작자표시

'Mathematics > Statistics' 카테고리의 다른 글

[Bayesian] Bayesian Deep Learning - Random Process (0)	2021.07.12
[Bayesian] Bayesian Deep Learning - Random variable (0)	2021.07.09
[Bayesian] Bayesian Deep Learning - Probability (0)	2021.07.06
[Bayesian] Bayesian Deep Learning - Measure theory (0)	2021.07.06
[Bayesian] Bayesian Deep Learning - Set theory (0)	2021.07.06

현재글[Statisctics] Maximum Likelihood Estimate

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ok-lab