Mathematics/Statistics

[Bayesian] Bayesian Deep Learning - Probability

언킴 2021. 7. 6. 19:22
반응형

본 자료는 edwith 최성준님이 강의하신 Bayesian Deep Learning 강의를 참고하였다.

 

핵심 키워드

Probability, Sample space, Random experiment, Probability mass function, BayesTheorem, Expectation

 

 

Probability


공정한 주사위 게임을 예로 들어보자. σ-field 는 power set이 될 것이고, subset은 A가 될 것이다. 여기서 주사위가 1이 나올 확률은 얼마인지 정의할 수 있어야 하고, 1이 나오거나 6이 나올 확률, 주사위가 1~5 사이에 하나가 나올 확률이 얼마인가에 대해서 정의할 수 있어야한다. 모든 가능한 조합을 표현할 수 있어야 하기 때문이다. 

이제부터 Ω 를 B라고 부를 것이다. 

 

fair dice 

Let P({1})=P({2})=P({3})=P({4})=P({5})=P({6})=16

P(A)=P(2,4,6)=P({2})+P({4})+P({6})=12 

 

여기서 우리는 measure를 probability 로 아직 받아들이면 안된다. probability는 sample space에서 정의된 면적이다 라고만 받아들여야 한다. 

 

 

    • The ramdon experiment should be well defined.
    • outcomes : 나올 수 있는 모든 관측된 sample space에서 어떤 것이 정해진 후 나오는 값
    • sample point w : a point representing an outcome. wΩ {1, 2, 3, 4, 5, 6}
    • sample space Ω : the set of all the sample points.  

 

 

 

Definition ( probability )

P defined on a measurable space (Ω,A) is a set function

P:A[0,1] such that (probability axioms).

     1. P() = 0 

     2. P(A)0,  AΩ

     3. For disjoint sets Ai and AjP(i=1kAi)=Σi=1kP(A) (countable additivity)

     4. P(Ω) = 1

 

 

그렇다면 위 axioms을 만족하는 probability 를 어떻게 만들 수 있을까? 

 

Probability allocation function

 For discrete Ω :

    p:Ω[0,1] such that ΣwΩp(w) = 1 and P(A)=ΣwAp(w)

 For continuous Ω:

    f:Ω[0,) such that wΩf(w)dw = 1 and P(A)=wAf(w)dw

Recall that probability P is a set function P:A[0,1] where A is a σ-field

 

아래에 보이는 검은색 선은 sample space에 들어가 있고, 그때의 면적을 측정하면 probability가 된다.

example

 

conditional probability of A given B

P(A|B)P(AB)P(B)

P:A[0,1].

conditional probability

 

Chain rule

     - P(AB)=P(A|B)P(B)

     - P(ABC)=P(A|BC)P(BC)=P(A|BC)P(B|C)P(C) 

 

total probability law:

P(A)=P(AB)+P(ABc)

=P(A|B)P(B)+P(A|Bc)P(Bc)

 

Bayes' rule

P(B|A)=P(BA)P(A)=P(AB)P(A)=P(A|B)P(B)P(A)

 

 

When B is the event that is considered and A is an observation

  • P(B|A) is called posterior probability
  • P(B) is called prior probability

prior probability가 주어지고 posterior probability를 찾는 것이 bayesian이라고 할 수 있다.

 

 

independent events A and B : P(AB)=P(A)P(B)

independet event를 번역 그대로 관계없는 독립적인 사건이라고 보는 것이 아니라, AB의 교집합과 AB의 확률을 각각 곱한 값이 같은 것을 independent events 라고 부른다. A,B가 멀리 떨어져있으면 indenpendent하지 않다.

 

independent disjoint, mutually exclusive

 

 

independent