Mathematics 44

[Linear Algebra] SVD(Singular Value Decomposition)

기존의 이웃 기반 협업 필터링(Neighbor Based Collaborative Filtering, NBCF)이 가지고 있는 희소성(Sparsity), 확장성(Scalarbility) 문제를 해결하기 위해 모델 기반 협업 필터링(Model Based Collaborative Filtering, MBCF)이 등장했다. MBCF의 종류는 엄청나게 다양하지만 여기서는 행렬 분해(Matrix Factorization) 중 대표적인 기법인 SVD(Singular Value Decomposition)에 대해서만 다룰 것이다. 이전에 다룬 고윳값 분해와는 조금 다른 방식으로 접근한다. SVD는 특이값 분해라고 부른다. SVD는 행렬을 고윳값과 고유벡터가 아닌, 특이벡터(Singular vector)들과 특이값(si..

[Statistics] Factor analysis

요인분석(factor analysis, FA)은 관측한 여러 변수로부터 요인을 추출하여 요인들을 통해 변수 간의 관련성을 설명하려는 기법이다. 예를 들어, 제품에 대한 소비자 평가를 위해 20개의 평가 설문항목을 만들 경우, 설문항목은 제품품질, 제품서비스, 제품가치 등과 같은 세 가지 잠재요인(Latent factor)의 함수로서 표현할 수 있다. 이처럼 요인분석은 여러 관측변수로부터 직접적으로 관측이 가능하지 않은 공통의 요인을 추출하는데 이용한다. 주성분분석처럼 적재값을 산출하여 점수화하지만, 주성분분석과는 달리 요인분석은 측정 가능한 변수들로부터 그 안에 잠재되어 있는 해석 가능한 소수의 요인을 찾는 것을 목적으로 한다. 이를 위해 요인과 변수 간의 관계가 명확히 드러나도록 요인의 축을 회전(ro..

[Statistics] non-parametric test with bootstrapping

모수통계 방법을 사용할 수 없을 때 비모수통계와 permutation test를 많이 이용하지만, permutation test는 경험적 분포를 만들어 내기 때문에 p-value를 구해낼 수는 있지만 신뢰구간을 추정하는 작업은 쉽지 않다. 왜냐하면 신뢰구간은 검정통계량이 아니라 모집단 평균의 추정치인 표본평균에 대해서 계산되어야하기 때문이다. 이때 bootstrapping 을 사용해 신뢰구간 추정에 있어 적합한 비모수검정 기법을 제공해준다. bootstrapping은 원래의 데이터로부터 표본을 반복적으로 무작위 추출(random sampling with replacement)하여 검정통계량의 경험적 분포를 생성한다는 것이 permutation test와 큰 차이점이다. ( permutation은 samp..

[Statistics] non-parametric statistics with rank sum

추론통계는 parametric, nonparmetric으로 나누어 볼 수 있다.모수통계는 모수를 추정하는 기법이며, 모수통계의 대표적인 방법은 t-test로 꼽을 수 있다. 비모수 검정은 모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 분석방법이다. 일반적으로 표본의 수가 30개 미만이면서 정규성을 만족하지 않는 경우, 수치에는 의미가 없고 상대적 크기가 의미있는 경우, 변수의 척도가 등간, 비율이 아닌 명목, 서열 척도로 구성되었을 경우 비모수적 검정을 사용한다. 비모수검정에는 데이터의 순위를 이용하는 전통적인 비모수적 접근법인 rank test, resmapling을 통해 생성한 경험적 분포(empirical distributi..

[Statistics] Logistic Regression with binomial

일반적인 Linear Regression Analysis에서 Y는 연속형 변수이면서 정규분포를 따라야 사용이 가능하다. 하지만 현실의 데이터들은 이러한 가정들이 항상 충족되는 것은 아니다. 현실에서는 다음과 같은 문제들도 다루는 경우가 있다. 1. Y가 범주형일 경우, 성공/실패나 생존/사망 등과 같은 두 개의 범주로 구성된 binary variable일 수 있고, 여러 범주를 띄는 우수/보통/미흡, A/B/C/D/F 등의 세 개 이상의 범주로 구성된 multicategory variable일 수 있다. 이 경우 범주형은 정규분포를 따르지 않는다. 2. Y는 어떤 사건이 발생하는 횟수일 수 있다. 연간 철도사고횟수, 상담횟수, 식당을 이용하는 횟수 등의 제한된 값을 가지며 음수일 수 없다. 또 해당 변수..

[Statistics] independent of probability variable

우리가 일반적으로 생각하는 독립(independent)이라는 개념과 확률변수(probability variable)에서의 독립과는 다소 차이가 있다. 일반적으로 생각하는 독립은 '떨어져 있는', '겹치지 않은' 의 의미로 받아들인다. 하지만 확률 변수에서의 독립은 다음과 같이 정의한다. 어떤 값 $a,\ b$에 대해 조건 '$X=a$'와 조건 '$Y=b$'가 항상 독립할 때 확률변수 $X,Y$는 서로 독립이라고 한다. $X$와$Y$가 독립 $P(Y=y | X=x)$이 $x$에 의존하지 않고 $y$만으로 정해진다. $P(Y=y | X=x) = P(Y=y)$ 항상 성립 결합 확률의 비가 일정. $P(X=x, Y=y) = P(X=x)\cdot \ P(Y=y)$ 위와 같은 벤다이어 그램을 생각해보자. $P(A)..

[Statistics] Chi-squared test

Chisq-test 는 기존에 활용된 모수추정과는 조금 다른 모습을 띈다. Chisq-test는 일반적으로 두 집단 혹은 집단 내 데이터들의 분포가 비슷한가에 대한 검정을 하는 방법으로 대표적인 비모수 통계 기법 중 하나이다. 만약 우리가 기존에 연속형 변수를 가지고 분석을 하려고 하는데, 정규성, 선형성, 독립성 등 BLUE의 가정을 만족하지 못한다면 윌콕슨, 카이제곱 검정 등 여러 비모수 추정 단계로 넘어와서 분석을 진행한다. $\chi^2$ 검정은 범주형 변수 간의 관련성을 확인할 수 있다. $\chi^2$의 기본 가정은 기대 빈도(도수)가 5이하인 셀이 20퍼센트 이하 존재할 경우 정규분포를 가정하고 $\chi^2$을 사용할 수 있다. 해당 가정에 위배될 경우 Fisher's exact test를..

[Statistics] ANOVA(Analysis of variance) 사후검정까지

ANOVA ANOVA(Analysis of variance)는 두 개가 아닌 여러 모집단 간의 평균의 동일성을 검정한다. 집단을 구분하는 범주형 변수가 한 개인 경우를 일원분산분석(one-way ANOVA)라고 하며, 두 개인 경우 이원분산분석(two-way ANOVA)라고 한다. 이론상으로는 삼원분산분석, 사원분산분석등 더 많은 집단을 구분하는 것이 가능하지만 해석하는데 있어서 어려움이 있기 때문에 한 개 혹은 두개의 범주형 변수를 다룬다. 예를 들어 수학학원A, B가 있다고 하자. 학생들은 두 학원 모두 다니는 것은 불가하며 한 번에 한 학원만 다닐 수 있다고 가정하자. 여기서 집단을 구분하는 학원은 독립변수며, 수학점수는 종속변수다. 집단 간 one-way ANOVA를 시행할 수 있으며, 분산을 비..

[Statistics] T test with R

T test 는 주로 평균검정을 할 때 사용한다. 평균검정이란 평균에 대한 가설검정을 의미하며 선정한 표본이 특정 평균값을 갖는 모집단에 속하는지 또는 두 표본집단의 평균값 간에 차이가 존재하는지에 대해 검정하는 것이다. 평균검정의 종류로는 일표본, 독립표본, 대응표본 등이 있다. t test의 가설은 다음과 같다. $ H_{null}\ :\ \mu\ =\ a $ $ H_{a}\ :\ \mu\ \neq \ a $ 연구자가 찾고자하는 결과는 기존과 다르다라는 주장이며 대립가설로 설정한다. t test에서는 $\sigma$를 사용하지 않고, 표본의 표준오차인 $s \over \sqrt{n}$ 를 사용한다. 다음과 같이 정의되는 t값을 검정통계량(test statistic)으로 사용하여 검정한다. $ t = ..

[Bayesian] Gaussian process

edwith 최성준님의 강의를 참고했다. Gaussian process 왜 우리는 가우시안 분포를 사용할까? 가우시안 분포는 $\sigma$와 $\mu$ 두가지 변수만 알면 분포를 찾을 수 있기 때문이다. 그리고 중심극한정리(CLT)가 성립하기 때문에 가장 많이 사용한다고 할 수 있다. 가우시안 분포는 다음과 같이 표현한다. univariate Gaussian distribution $f(x) = {1 \over \sqrt{2 \pi \sigma}} exp(-{1 \over 2}(x-\mu)^2) $ central limit theorem : Let $X_{1}, X_{2}, ...$ be independent and identically distributed with $\mathbb{E}(X_{i}) ..

반응형