entropy의 개념은 정보이론(Information theroy)에서 사용하는 단어이다. entropy를 다루기 이전 다음의 경우를 생각해보자. 예를 들어 '주사위에서 3보다 큰 수가 나왔다.'라는 것과 '주사위에서 5가 나왔다'가 있을 때 어떤 것이 더 많은 정보를 전달할 수 있을까? 당연히 '주사위에서 5가 나왔다'라는 정보가 더 많은 정보를 전달한다고 할 수 있다. 주사위에서 3보다 큰 수가 나왔다는 사실보다 주사위에서 5가 나온다는 정보가 더 많은 정보를 전달하기 때문이다.
self-information
어떤 사건에 대해 일어날 확률을 추정할 수 있다면 사건에 대한 정보량을 측정할 수 있게 된다. 우리는 확률변수(probability variable)를
예를 들어 주사위에서 5가 나올 정보는
로그함수의 밑을 2로 사용할 때도 있고, 밑을
entropy
위에서의 self information은 특정 사건(
모든 사건에 대해 동일한 확률 값을 가진다면 이때의 무질서도는 최대가 된다. 그러나 하나의 사건에 확률값이 치우쳐져 있다면 무질서도는 낮아진다. [0, 0, 1, 0] 이라면 무질서도는 0 이 되며 순수하다고 부른다.
cross entropy, KL-Divergence
entropy는 한 확률분포의 무질서도 혹은 불순도를 측정한다. 그러나 기계학습(Machine Learning)에서는 실제 데이터의 확률분포와 우리의 모델이 예측한 확률분포 간의 엔트로피를 측정하여 근사하는 방향으로 접근한다. 그렇게 하기 위해서는 서로 다른 확률분포간의 엔트로피를 측정하는 '도구'가 있어야 한다. 이때 사용하는 것이 바로 cross entropy이다. cross entropy의 수식은 다음과 같이 정의된다.
우리는 cross entropy의 수식을 통해 다음의 수식을 유도할 수 있다.
위 식에서의
'Mathematics > Statistics' 카테고리의 다른 글
[Statistics] 구조방정식모델(structural equation model)의 모든 것 (6) | 2022.03.29 |
---|---|
[Statistics] F-test (0) | 2022.03.23 |
[Statistics] Factor analysis (0) | 2021.11.23 |
[Statistics] non-parametric test with bootstrapping (0) | 2021.11.05 |
[Statistics] non-parametric statistics with rank sum (0) | 2021.11.05 |