Mathematics/Statistics 24

[Statistics] Logistic Regression with binomial

일반적인 Linear Regression Analysis에서 Y는 연속형 변수이면서 정규분포를 따라야 사용이 가능하다. 하지만 현실의 데이터들은 이러한 가정들이 항상 충족되는 것은 아니다. 현실에서는 다음과 같은 문제들도 다루는 경우가 있다. 1. Y가 범주형일 경우, 성공/실패나 생존/사망 등과 같은 두 개의 범주로 구성된 binary variable일 수 있고, 여러 범주를 띄는 우수/보통/미흡, A/B/C/D/F 등의 세 개 이상의 범주로 구성된 multicategory variable일 수 있다. 이 경우 범주형은 정규분포를 따르지 않는다. 2. Y는 어떤 사건이 발생하는 횟수일 수 있다. 연간 철도사고횟수, 상담횟수, 식당을 이용하는 횟수 등의 제한된 값을 가지며 음수일 수 없다. 또 해당 변수..

[Statistics] independent of probability variable

우리가 일반적으로 생각하는 독립(independent)이라는 개념과 확률변수(probability variable)에서의 독립과는 다소 차이가 있다. 일반적으로 생각하는 독립은 '떨어져 있는', '겹치지 않은' 의 의미로 받아들인다. 하지만 확률 변수에서의 독립은 다음과 같이 정의한다. 어떤 값 $a,\ b$에 대해 조건 '$X=a$'와 조건 '$Y=b$'가 항상 독립할 때 확률변수 $X,Y$는 서로 독립이라고 한다. $X$와$Y$가 독립 $P(Y=y | X=x)$이 $x$에 의존하지 않고 $y$만으로 정해진다. $P(Y=y | X=x) = P(Y=y)$ 항상 성립 결합 확률의 비가 일정. $P(X=x, Y=y) = P(X=x)\cdot \ P(Y=y)$ 위와 같은 벤다이어 그램을 생각해보자. $P(A)..

[Statistics] Chi-squared test

Chisq-test 는 기존에 활용된 모수추정과는 조금 다른 모습을 띈다. Chisq-test는 일반적으로 두 집단 혹은 집단 내 데이터들의 분포가 비슷한가에 대한 검정을 하는 방법으로 대표적인 비모수 통계 기법 중 하나이다. 만약 우리가 기존에 연속형 변수를 가지고 분석을 하려고 하는데, 정규성, 선형성, 독립성 등 BLUE의 가정을 만족하지 못한다면 윌콕슨, 카이제곱 검정 등 여러 비모수 추정 단계로 넘어와서 분석을 진행한다. $\chi^2$ 검정은 범주형 변수 간의 관련성을 확인할 수 있다. $\chi^2$의 기본 가정은 기대 빈도(도수)가 5이하인 셀이 20퍼센트 이하 존재할 경우 정규분포를 가정하고 $\chi^2$을 사용할 수 있다. 해당 가정에 위배될 경우 Fisher's exact test를..

[Statistics] ANOVA(Analysis of variance) 사후검정까지

ANOVA ANOVA(Analysis of variance)는 두 개가 아닌 여러 모집단 간의 평균의 동일성을 검정한다. 집단을 구분하는 범주형 변수가 한 개인 경우를 일원분산분석(one-way ANOVA)라고 하며, 두 개인 경우 이원분산분석(two-way ANOVA)라고 한다. 이론상으로는 삼원분산분석, 사원분산분석등 더 많은 집단을 구분하는 것이 가능하지만 해석하는데 있어서 어려움이 있기 때문에 한 개 혹은 두개의 범주형 변수를 다룬다. 예를 들어 수학학원A, B가 있다고 하자. 학생들은 두 학원 모두 다니는 것은 불가하며 한 번에 한 학원만 다닐 수 있다고 가정하자. 여기서 집단을 구분하는 학원은 독립변수며, 수학점수는 종속변수다. 집단 간 one-way ANOVA를 시행할 수 있으며, 분산을 비..

[Statistics] T test with R

T test 는 주로 평균검정을 할 때 사용한다. 평균검정이란 평균에 대한 가설검정을 의미하며 선정한 표본이 특정 평균값을 갖는 모집단에 속하는지 또는 두 표본집단의 평균값 간에 차이가 존재하는지에 대해 검정하는 것이다. 평균검정의 종류로는 일표본, 독립표본, 대응표본 등이 있다. t test의 가설은 다음과 같다. $ H_{null}\ :\ \mu\ =\ a $ $ H_{a}\ :\ \mu\ \neq \ a $ 연구자가 찾고자하는 결과는 기존과 다르다라는 주장이며 대립가설로 설정한다. t test에서는 $\sigma$를 사용하지 않고, 표본의 표준오차인 $s \over \sqrt{n}$ 를 사용한다. 다음과 같이 정의되는 t값을 검정통계량(test statistic)으로 사용하여 검정한다. $ t = ..

[Bayesian] Gaussian process

edwith 최성준님의 강의를 참고했다. Gaussian process 왜 우리는 가우시안 분포를 사용할까? 가우시안 분포는 $\sigma$와 $\mu$ 두가지 변수만 알면 분포를 찾을 수 있기 때문이다. 그리고 중심극한정리(CLT)가 성립하기 때문에 가장 많이 사용한다고 할 수 있다. 가우시안 분포는 다음과 같이 표현한다. univariate Gaussian distribution $f(x) = {1 \over \sqrt{2 \pi \sigma}} exp(-{1 \over 2}(x-\mu)^2) $ central limit theorem : Let $X_{1}, X_{2}, ...$ be independent and identically distributed with $\mathbb{E}(X_{i}) ..

[Bayesian] Bayes' Rule

베이즈 규칙을 알아보기 전 우리가 기본적으로 알아야할 개념들부터 짚고 넘어가자. 우리는 일반적으로 확률을 지칭할 때 $p(A)$형태로 표현을 한다. 이 확률값은 $ 0\le p(A) \le 1$의 값을 지녀야한다. 그리고 결합확률(Joint Probability)은 일반적으로 $p(A \cap B)\ or\ p(AB) $ 로 표기하며 일부 책에서는 $ A \rightarrow B$라고 표기하기도 한다. 여기에서는 일반적으로 표기하는 방법을 사용할 것이다. 결합 확률과 독립 확률에서의 독립이라는 개념은 두 값이 떨어져있다라는 개념으로 받아들이면 큰 문제가 생긴다. 확률에서의 독립이란, 두 사건 사이에 아무런 연관성이 없다는 뜻이며 사건 A가 일어나는 것과 사건 B가 일어나는 것이 서로 관련이 없다는 뜻이다..

[Bayesian] Bayesian Deep Learning - Functional analysis

본 자료는 edwith 최성준님이 강의하신 Bayesian Deep Learning 강의를 참고하였다. 핵심 키워드 Hilbert space, inner product space, Kernel, Eigenfunction, Eigenvalue, Positive semidefinite, Reproducting kernel Hilbert space 우리가 실수를 계산할 때 어떻게 하는가? 1 + 1 = 2, 2 + 3 = 5 이렇게 된다. 1 + 1 = 2 인건 axiom의 연속들로 이루어져 우리가 1+1 = 2 라는 것을 알게 된다. 우리가 만약 강아지 + 강아지 = 고양이 로 부르기로 약속하고, 그 약속을 지키는 공간을 만들면 그 공간 내에서도 덧셈, 뺄셈, 곱셈 등 연산이 작용할 수 있다. vector ..

[Bayesian] Bayesian Deep Learning - Random Process

본 자료는 edwith 최성준님이 강의하신 Bayesian Deep Learning 강의를 참고하였다. 핵심 키워드 $Random\ process,\ Realization\ , 브라운운동(Brownian\ motion),\ Mean,\ Covariance,\ Kernel\ function,\ Stationariy $ Random Process random process는 random variable의 확장판이라고 생각하면 된다. random variable 에서 sampling을 할 때 가우시안 분포에서는 하나 씩 도출되지만 멀티 가우시안, GAN에서 사용하는 여러 차원의 가우시안, 무한차원의 가우시안 분포를 정의하기 위해 random process를 사용한다. random process를 함수들의 공간..

[Bayesian] Bayesian Deep Learning - Random variable

본 자료는 edwith 최성준님이 강의하신 Bayesian Deep Learning 강의를 참고하였다. 핵심키워드 $Random\ Variable,\ Probability\ space,\ Probability\ density\ function,\ Correlation\ analysis$ Random Variable - random variable: 우리에게 관측되는 실수로 가는 어떤 함수가 random variable 이다 . subset이 아니라 하나의 원소 probability space : $ (\Omega, \mathcal{A}, P) $ , Borel measurable space $(\mathbb{R}, \mathcal{B})$ 실수들로 이루어진 $\sigma$-field를 Borel meas..

반응형