본 자료는 edwith 최성준님이 강의하신 Bayesian Deep Learning 강의를 참고하였다.
핵심 키워드
$Random\ process,\ Realization\ , 브라운운동(Brownian\ motion),\ Mean,\ Covariance,\ Kernel\ function,\ Stationariy $
Random Process
random process는 random variable의 확장판이라고 생각하면 된다. random variable 에서 sampling을 할 때 가우시안 분포에서는 하나 씩 도출되지만 멀티 가우시안, GAN에서 사용하는 여러 차원의 가우시안, 무한차원의 가우시안 분포를 정의하기 위해 random process를 사용한다. random process를 함수들의 공간에 확률을 부여한다고도 말할 수 있다.
random process $ X_{t}(w), t \in I:$ $I$를 index set이라고 부른다. t : time
t가 바뀔때마다 $X(w)$ 값이 바뀌게 된다. 멀티 가우시안에서 분포가 바뀌면 확률값도 바뀌는 것이라 생각할 수 있다.
time 이 고정이 되어 있으면 random process는 random variable이 된다. 단 하나의 가우시안 분포만 가지기 때문!
다음을 알 수 있으면 $X_{t}$는 random process가 된다.
- $P((X_{t_{1}}, ... , X+{t_{k}}) \in B) $ for any $B$, $k$, and $t_{1},...,t_{k} $
- 처음부터 $t$가 무한대일때를 증명하지 않는다. $t_{0}$일 때도 증명할 수 있고, $t_{0}, t_{1}$ 에 대해서도 정의할 수 있고 혹은 100차원의 random vector가 주어져도 그 것에 대한 확률을 정의할 수 있으면 그때 random process가 된다.
- 어떤 random process가 주어졌다 하더라도, 애초에 우리는 무한차원을 얘기하지만 무한차원을 정의할 수 없다. 가변적으로 변화하는 '유한한 차원'의 확률분포를 정의할 수 있으면 그것을 random process라고 부른다.
- fixed $t \in \mathcal{T}, X_{t}(w) $ is a random variable
- for a fixed $w \in \Omega, X_{t}(w) $ is a deterministic function of $t$, which is called a Sample path.
우리가 sample space에서 어떠한 값을 출력하게 되면 $X_{t}(w)$를 random variable이 하나 나오는 것을 realization이라고 불렀는데, 여기서 똑같이 realization을 하게 되면 determient function이 하나 나오게 된다. 그 것을 sample path라 부른다.
- types of random processes
1. discrete-time
2. continuous-time
3. discrete-valued
4. continuous-valued
input data 는 굳이 1차원일 필요가 없다. 그렇기 때문에 time 이 여러차원으로 들어갈 수도 있다!.
ouput data만 1차원으로 출력되면 된다. 1차원이 아니라면 매우 복잡해지기 때문이다.
가장 간단한 예 : Brown motion..
가우시안 분포가 가진 장점이 무엇인가? 왜 많이 쓰는가?
1. CLT을 사용할 수 있다. 어떤 random variable을 sampling 할 때 평균을 엄청 많이 모으면 가우시안 분포가 된다.
2. 가우시안을 표현하기 좋을 때가 많다 . mean과 variance만 알 때 확률분포에 대해서 모든걸 설명할 수 있기 때문
mean function
$ m_{x}(t) \triangleq EX_{t} = \begin{cases} \Sigma_{x}xp(x_{t}), & \mbox{discrete-valued } \\ \int x f_{x_{t}}(x)dx, & \mbox{continuous-valued } \end{cases} $
auto-correlation function, acf
$R_{x}(t, s) \triangleq EX_{t}X_{s} $
$t$와 $s$ 가 고정이 되면 random process는 random variable이 된다. 그렇게 되면 거기서 출력되는 값들은 변동이 있을 것이고, 서로 다른 시간에 대해서 두 값의 correlation을 구하면 acf가 된다.
이 부분이 왜 중요한가? 가우시안 프로세스는 auto-correlation function으로만 가지고 표현이 가능하다. 여기서 mean이 0이라고 가정해보자. 그렇게 되면 우리가 가우시안 분포에서 mean이 0일 때 우리는 variance만 알고 있으면 된다. 똑같은 스케일링을 걸쳐서 가우시안 분포를 가지고 온다고 하면 acf만 있으면 가능하다. acf가 머신러닝이나 가우시안 프로세스에서 보는 kernel function과 동일하다.
함수는 엄청 다양하지만 우리는 다루기 쉬운 random process들만 사용하려고 하는데 가장 대표적인 것이 Stationarity다. shift를 하더라도 그 성질이 같다면 그러한 random process를 stationarity라고 부르는 것이다. 부드러운 함수들에 대한 random precess이다. Stationarity random process는 항상 mean function이 constant다 라고 볼 수 있다.
가우시안 프로세스는 wss를 가정한다.
auto-correlation function이 kernel function이 된다. 두 input사이에서 시간이 가까우면 correlation이 커지게 되고, 그 말은 즉슨, 두 random process 출력값이 비슷해진다는 뜻이다. 이 말을 물리적으로 설명하는 것이 acf, kernel function이다.
'Mathematics > Statistics' 카테고리의 다른 글
[Bayesian] Bayes' Rule (0) | 2021.07.25 |
---|---|
[Bayesian] Bayesian Deep Learning - Functional analysis (0) | 2021.07.13 |
[Bayesian] Bayesian Deep Learning - Random variable (0) | 2021.07.09 |
[Bayesian] Bayesian Deep Learning - Probability (0) | 2021.07.06 |
[Bayesian] Bayesian Deep Learning - Measure theory (0) | 2021.07.06 |