Mathematics/Statistics

[Statistics] F-test

언킴 2022. 3. 23. 13:35
반응형

F-test는 ANOVA를 이야기할 때 많이 언급되는 검정 방법이다. ANOVA는 집단 내 혹은 집단 간을 비교해 유의미한 결과를 도출하는 방식인데, 이는 바로 F-test를 의미하기 때문이다. F-test를 다루기 이전 집단 내 분산과 집단 간 분산에 대해서 알아보자. 집단 내 분산(within-groups variability)은 말 그대로 샘플 데이터 내부의 분산을 의미한다. 집단 내 분산이 작으면 작을수록 뾰족한 모양의 분포를 가질 것이다. 집단 간 분산(between-groups variability)은 각 데이터 간의 분산을 의미한다. 집단 간 분산이 크면 클수록 각 분포들은 멀어지게 된다. 

 

그렇다면 우리는 집단 내 분산이 작으면 작을수록, 집단 간 분산이 크면 클수록 두 집단의 평균이 차이가 난다고 이야기할 수 있을 것이다. 그럼 이제 F-test에 대해서 다루어보자. F-test는 집단 간 분산과 집단 내 분산을 통해 계산되는 F-value를 가지고 가설검정을 수행한다. 집단 간 분산과 집단 내 분산의 비는 F-value이며 집단의 개수(g)-1 과 표본의 크기(n) - 집단의 개수(g)의 자유도를 갖는 F분포를 따른다. 

 

\[ \text{집단 간 분산} = \frac{\text{집단 간 제곱합}}{\text{자유도}} \] 

\[ \text{집단 간 분산} = \frac{\sum_g (\bar{X}_g-\bar{X})^2 \times n_g }{g-1} \]

집단 간 분산은 위의 수식을 통해 산출되며, 집단 내 분산의 수식은 아래와 같다. 

\[ \text{집단 내 분산} = \frac{\text{집단 내 제곱합}}{\text{자유도}} \] 

\[ \text{집단 내 분산} = \frac{\sum_g \sum_i (X_{ig} - \bar{X}_g)^2}{\sum_g (n_g-1)} = \frac{\sum_g s_g^2 \times (n_g-1)}{\sum_g (n_g-1)} = \frac{\sum_g s_g^2 \times (n_g-1)}{n-g} \] 

\[ F = \frac{\text{집단 간 분산}}{\text{집단 내 분산}} \] 

 

F-test의 귀무가설은 다음과 같다. 

\[ H_o: \sigma_1^2 = \sigma_2^2 \]

\[ H_a: \sigma_1^2 \neq \sigma_2^2 \] 

위 수식을 통해 산출된 F-value를 기반으로 귀무가설을 기각할지 혹은 채택할지 선택하게 되는 것이다.