Mathematics/Statistics 24

[Statistics] Power Law Distribution

Power Law Distribution은 다양한 이름으로 불린다. Long Tail Distribution으로도 들어본 적 있을 것이다. 이 그래프는 사회의 현상을 가장 잘 매핑할 수 있는 함수이며, 어떤 식으로 유도되는지 알아보자. Power Law Distribution은 Real-World 네트워크 구조를 가장 잘 설명할 수 있다고 한다. 이 분포는 오른쪽으로 긴 꼬리를 가진 형태를 띄고 있어서 가독성이 많이 떨어진다. 이때 Power Law Distribution에 아래와 같은 Log-Log 수식을 취하면 Log-Log plot을 그릴 수 있고, 유의미한 패턴을 찾을 수 있다. \[ \begin{equation} \begin{split} \ln p(x) & = -\alpha \ln x + c \..

[Statistics] Probability 110 - Conditional Probability

Contents 조건부 확률(Conditional Probability) 본 강의에서는 조건부 확률(Conditional Probability)에 대해서 알아보고, 조건부 확률에서 나오는 용어들이 어떤 것들이 있는지, 이 용어들의 정의에 대해서 알아본다. Independent 독립은 조건부 확률을 다루기 위해서는 필수적으로 알아야될 개념이다. 확률에서 나오는 독립은 일반적으로 생각하는 독립과는 다를 수 있다. 일반적으로 다루는 독립은 완전히 독립적으로 떨어져 있는 것을 의미하지만, 여기에서 나오는 독립은 조금 다른 개념이다. 두 사건 A, B가 있다고 하자. 이때 다음과 같을 때 이를 독립이라고 한다. \[ P(A \cap B) = P(A)P(B) \] 우리는 이전 글에서 서로소(disjoint)에 대해..

[Statistics] Probability 110 - Probability and Counting

Contents 본 글은 스탠포드 강의 중 확률론 110 강의에서 언급된 내용 및 용어를 정리하고 있다. 확률과 셈의 원리 (Probability and Counting) 확률론은 유전학, 물리학, 계량 경제학, 인공지능 등 다양한 분야에서 사용되고 있으며, 확률은 불확실성(uncertainty)을 계량화하는 것을 가능하게 해준다. Multiplication Rule 발생 가능한 경우의 수가 $n_1, n_2, ... , n_r$가지인 1, 2, 3, ..., r 번의 시행에서 발생 가능한 모든 경우의 수는 $n_1 \times n_2 \times \\ \cdots \\ \times n_r$이다. Binomial Coefficient $\begin{pmatrix} n \\ k \end{pmatrix} =..

[Statistics] AIC(Akaike information criterion)

데이터가 주어졌을 때 우리가 구축한 모델이 데이터를 제대로 설명하는지 확인할 필요가 있다. AIC(Akaike information criterion)은 모델을 평가하는 지표 중 하나로 최소의 정보 손실을 갖는 모델이 가장 데이터와 적합만 모델로 선택하는 방법이다. 즉, 변수의 수는 적고, 이 변수들로 나타낼 수 있는 설명력은 높아야 한다는 것이다. 일반적으로 데이터를 구성하는 변수가 많으면 많을수록 과적합(Overfitting) 문제가 발생한다. 또한 많은 양의 데이터가 요구된다. 따라서, 최소한의 변수들로 모델을 구성해 과적합을 방지할 뿐만 아니라 불필요한 변수를 반영하지 않음으로써 모델의 설명력을 확보할 수 있다. \[ \text{AIC} = -2\text{ln}(L) + 2k \] 이때 $-2\t..

[Statistics] 구조방정식모델(structural equation model)의 모든 것

Contents 통계 분석의 꽃은 바로 구조방정식모델이라고 할 수 있다. 구조방정식 모델은 직접적인 측정이 어려운 잠재변수(latent variable) 간의 영향관계를 분석하기 위한 통계분석 기법이다. 기존의 회귀 분석의 경우 독립 변수(x)를 기반으로 분석을 수행하기에 잠재변수를 다룰 수 없지만, 구조방정식은 회귀분석과 달리 잠재변수를 다룰 수 있고, 여러 변수 간의 영향관계를 동시에 분석할 수 있다는 장점이 있다. 다시 말해 요인분석(factor analysis)과 회귀분석(regression analysis)의 특성을 결합한 하이브리드 기법이라고 할 수 있다. 구조방정식은 잠재변수를 측정하는 측정모델(measurement model)과 측정된 잠재변수 간의 인과관계(causal relationsh..

[Statistics] F-test

F-test는 ANOVA를 이야기할 때 많이 언급되는 검정 방법이다. ANOVA는 집단 내 혹은 집단 간을 비교해 유의미한 결과를 도출하는 방식인데, 이는 바로 F-test를 의미하기 때문이다. F-test를 다루기 이전 집단 내 분산과 집단 간 분산에 대해서 알아보자. 집단 내 분산(within-groups variability)은 말 그대로 샘플 데이터 내부의 분산을 의미한다. 집단 내 분산이 작으면 작을수록 뾰족한 모양의 분포를 가질 것이다. 집단 간 분산(between-groups variability)은 각 데이터 간의 분산을 의미한다. 집단 간 분산이 크면 클수록 각 분포들은 멀어지게 된다. 그렇다면 우리는 집단 내 분산이 작으면 작을수록, 집단 간 분산이 크면 클수록 두 집단의 평균이 차이가..

[Statisctics] entropy, cross entropy, KL-Divergence

entropy의 개념은 정보이론(Information theroy)에서 사용하는 단어이다. entropy를 다루기 이전 다음의 경우를 생각해보자. 예를 들어 '주사위에서 3보다 큰 수가 나왔다.'라는 것과 '주사위에서 5가 나왔다'가 있을 때 어떤 것이 더 많은 정보를 전달할 수 있을까? 당연히 '주사위에서 5가 나왔다'라는 정보가 더 많은 정보를 전달한다고 할 수 있다. 주사위에서 3보다 큰 수가 나왔다는 사실보다 주사위에서 5가 나온다는 정보가 더 많은 정보를 전달하기 때문이다. self-information 어떤 사건에 대해 일어날 확률을 추정할 수 있다면 사건에 대한 정보량을 측정할 수 있게 된다. 우리는 확률변수(probability variable)를 $x$라고 하고 $x$의 정의역을 $\{e..

[Statistics] Factor analysis

요인분석(factor analysis, FA)은 관측한 여러 변수로부터 요인을 추출하여 요인들을 통해 변수 간의 관련성을 설명하려는 기법이다. 예를 들어, 제품에 대한 소비자 평가를 위해 20개의 평가 설문항목을 만들 경우, 설문항목은 제품품질, 제품서비스, 제품가치 등과 같은 세 가지 잠재요인(Latent factor)의 함수로서 표현할 수 있다. 이처럼 요인분석은 여러 관측변수로부터 직접적으로 관측이 가능하지 않은 공통의 요인을 추출하는데 이용한다. 주성분분석처럼 적재값을 산출하여 점수화하지만, 주성분분석과는 달리 요인분석은 측정 가능한 변수들로부터 그 안에 잠재되어 있는 해석 가능한 소수의 요인을 찾는 것을 목적으로 한다. 이를 위해 요인과 변수 간의 관계가 명확히 드러나도록 요인의 축을 회전(ro..

[Statistics] non-parametric test with bootstrapping

모수통계 방법을 사용할 수 없을 때 비모수통계와 permutation test를 많이 이용하지만, permutation test는 경험적 분포를 만들어 내기 때문에 p-value를 구해낼 수는 있지만 신뢰구간을 추정하는 작업은 쉽지 않다. 왜냐하면 신뢰구간은 검정통계량이 아니라 모집단 평균의 추정치인 표본평균에 대해서 계산되어야하기 때문이다. 이때 bootstrapping 을 사용해 신뢰구간 추정에 있어 적합한 비모수검정 기법을 제공해준다. bootstrapping은 원래의 데이터로부터 표본을 반복적으로 무작위 추출(random sampling with replacement)하여 검정통계량의 경험적 분포를 생성한다는 것이 permutation test와 큰 차이점이다. ( permutation은 samp..

[Statistics] non-parametric statistics with rank sum

추론통계는 parametric, nonparmetric으로 나누어 볼 수 있다.모수통계는 모수를 추정하는 기법이며, 모수통계의 대표적인 방법은 t-test로 꼽을 수 있다. 비모수 검정은 모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 분석방법이다. 일반적으로 표본의 수가 30개 미만이면서 정규성을 만족하지 않는 경우, 수치에는 의미가 없고 상대적 크기가 의미있는 경우, 변수의 척도가 등간, 비율이 아닌 명목, 서열 척도로 구성되었을 경우 비모수적 검정을 사용한다. 비모수검정에는 데이터의 순위를 이용하는 전통적인 비모수적 접근법인 rank test, resmapling을 통해 생성한 경험적 분포(empirical distributi..

반응형