Mathematics/Statistics

[Statistics] 구조방정식모델(structural equation model)의 모든 것

언킴 2022. 3. 29. 14:40
반응형

Contents

     

     

    통계 분석의 꽃은 바로 구조방정식모델이라고 할 수 있다. 구조방정식 모델은 직접적인 측정이 어려운 잠재변수(latent variable) 간의 영향관계를 분석하기 위한 통계분석 기법이다. 기존의 회귀 분석의 경우 독립 변수(x)를 기반으로 분석을 수행하기에 잠재변수를 다룰 수 없지만, 구조방정식은 회귀분석과 달리 잠재변수를 다룰 수 있고, 여러 변수 간의 영향관계를 동시에 분석할 수 있다는 장점이 있다. 다시 말해 요인분석(factor analysis)회귀분석(regression analysis)의 특성을 결합한 하이브리드 기법이라고 할 수 있다. 

     

    구조방정식은 잠재변수를 측정하는 측정모델(measurement model)과 측정된 잠재변수 간의 인과관계(causal relationshop)를 분석하는 구조모델(structural model)로 구성된다. 일반적으로 측정모델은 확인적 요인분석(Confirmatory Factor Analysis, CFA)를 사용하고, 구조모델은 다중회귀분석(multiple regression analysis)을 사용한다. 

     

    structural equation modeling

    구조방정식모델은 일반적으로 위와 같은 경로도(path diagram)로 표현한다. 잠재변수는 외생잠재변수(exogenous latent variable)내생잠재변수(endogenous latent variable)로 구분된다. 외생잠재변수는 $\xi$로 표기하고 모델 내의 다른 잠재변수에 영향을 미치는 변수로 모델 내에서 독립변수로서의 역할만 수행하며, 내생잠재변수는 $\eta$로 표기하고 모델 내의 외생잠재변수에 의해 직,간접적으로 영향을 받는 변수이며 독립, 종속변수로서의 역할을 수행한다. 

     

    우리는 위에서 잠재변수의 종류에 대해서 알아보았다. 그렇다면 잠재변수는 어떻게 측정할 수 있을까? 잠재변수는 관측변수에 의해 측정되며, 외생잠재변수를 측정하는 관측변수는 외생관측변수(exogenous observed variable), 내생잠재변수를 측정하는 관측변수는 내생관측변수(endogenous observed variable)로 명명하며, 각각 $x$와 $y$로 표기한다.

     

    구조방정식모델링에서는 공분산 행렬(covariance matrix)이 분석의 대상이며, 공분산 행렬과 모델에 의해 예측된 공분산 행렬 간의 차이를 가능한 작게하는 구조방정식모델을 추정하는 방식이며, 추정할 parameter는 구조 계수(structural coefficient), 요인 적재값(factor loading), 공분산(covariance), 구조 오차(structural error), 측정 오차(measurement error) 등이 존재한다. 

     

    1. 구조 계수(structural coefficient) : 잠재변수 간 경로계수 
      • 외생잠재변수($\xi$) $\rightarrow$ 내생잠재변수($\eta$) : $\gamma$
      • 내생잠재변수($\eta$) $\rightarrow$ 내생잠재변수($\eta$) : $\beta$
    2. 요인 적재값(factor loading) : 잠재변수와 측정변수 간 경로계수 ($\lambda$)
      • 외생잠재변수($\xi$) $\rightarrow$ 외생관측변수($x$) : $\lambda^x$
      • 내생잠재변수($\eta$) $\rightarrow$ 내생관측변수($y$) : $\lambda^y$
    3. 측정 오차(measurement error) : 잠재변수가 관측변수를 완전히 설명하지 못하는 정도
      • $x$ 의 측정 오차 : $\delta$
      • $y$ 의 측정 오차 : $\epsilon$
    4. 구조 오차(structural error) : 설명되지 않고 남아있는 내생잠재변수의 오차
      • 내생잠재변수($\eta$) 오차 : $\zeta$
    5. 공분산(covariance)
      • 외생잠재변수 간 공분산 : $\phi$
      • 내생잠재변수 간 공분산 : $\psi$
      • 측정 오차 간 공분산 : $\theta$

    위 그림의 경우 왼쪽 사각형으로 구성된 grammar, vocab, compre 등은 외생관측변수인 $x$를 의미하고, e1~e9와 e12~e14는 각각 $y$의 측정 오차 $\epsilon$와 $x$의 측정 오차 $\delta$를 의미한다. Language는 외생잠재변수인 $\xi$, Motivation, Stress, Positivity는 내생잠재변수인 $\eta$, 오른쪽 사각형으로 구성된 변수들은 내생관측변수인 $y$를 의미한다. 

     

     

    구조방정식모델링 분석 절차

    지금까지 다룬 내용이 엄청 많아 보이지만 실제 분석은 수행하지 않았고 단순히 구조방정식모델의 모수에 대해서만 다루어보았다. 그렇다면 구조방정식모델링의 분석은 어떻게 진행될까? 분석은 총 2단계 접근법에 따라 수행된다. 첫 번째로는 측정모델을 대상으로 잠재변수 및 관측변수의 단일차원성, 신뢰도, 타당도를 평가하며, 두 번째 단계에서는 검증된 관측변수로 구성된 구조모델을 바탕으로 잠재변수 간 경로분석을 수행해 잠재변수 간의 영향관계를 검정한다. 

     

    1. 측정모델

    측정모델은 위에서도 언급했듯 주로 확인적 요인분석을 수행하므로 확인적 요인분석에 대해서 알아보자. 확인적 요인분석은 모든 잠재변수에 대해 수행되어야 하며, 개별적으로 평가할수도 있으나 일반적으로는 전체 잠재변수가 하나의 모델로 구성된 통합 측정모델(pooled measurement model)을 대상으로 한 번에 수행한다. 이를 통해 단일차원성(unidimensionality), 신뢰도(reliability), 타당도(validity)를 평가할 수 있다. 

     

    단일차원성(unidimensionality)

      우리는 관측변수를 통해 잠재변수를 측정하는 것을 알고 있다. 이때 하나의 관측변수는 하나의 잠재변수만을 측정해야 하며, 이를 단일차원성(unidimensionality)이라고 한다. 단일차원성은 각각의 잠재변수가 단일요인모델(single factor model)에 의해 잘 적합되는지로 평가하며, 절대적합도(absolute fit), 증분적합도(incremental fit), 간명적합도(parsimonious fit) 등을 적용해 적합도를 평가할 수 있다. 

       

      구분 모델적합도 지표명 권장 수준 참고문헌
      절대적합도 Chisq Discrepancy Chi Square p-value > 0.05 Wheaton et al. (1977)
      RMSEA Root Mean Square of Error Approximation RMSEA < 0.08 Browne and Cudeck
      (1993)
      GFI Goodness of Fit Index GFI > 0.9 Joreskog and Sorbom
      (1984)
      증분적합도 AGFI Adjusted Goodness of Fit Index AGFI > 0.9 Tanaka and Huba
      (1985)
      CFI Comparative Fit Index CFI > 0.9 Bentler (1990)
      TLI Tucker-Lewis Index TLI > 0.9 Bentler and Bonett
      (1980)
      NFI Normed Fit Index NFI > 0.9 Bollen (1989)
      간명적합도 Chisq/df Chi Square/degree of freedom Chisq/df < 3 Marsh and Hocevar
      (1985)

      적합도 내에서도 이처럼 다양한 적합도가 존재하는데, 문헌들을 살펴보면 모델적합도의 각 범주별로 적어도 한 개의 지표는 사용하는 것을 권장하고 있다. 단일차원성은 각 잠재변수에 대해 모든 관측변수가 적정 수준 이상의 요인적재값을 가져야만 충족되며, 요인적재값이 0.6보다 높을 경우 단일차원성을 충족한다고 평가한다. 만약 0.6보다 낮은 요인적재값을 가지는 경우 해당 관측변수를 하나씩 제거하면서 적합도가 충족될 때까지 반복한다. 

       

      낮은 요인적재값을 갖는 관측변수를 제거한 후에도 적합도 수준이 좋지 않을 경우 수정 지표(modification index)를 검토한다. 수정 지표는 추정할 새로운 모수를 모델에 추가하면 적합도가 어떻게 변화는지 알려주는 지표이며 $\chi^2$로 나타낸다. 이를 통해 모델에 새로운 관계를 설정하여 적합도를 개선할 수 있다. 그러나 구조방정식모델을 비롯한 통계분석의 경우 모수 선택에 있어 매우 민감하기에 신중할 필요가 있다. 일반적으로 통계분석은 모수를 선택할 때 선행 연구를 참고하여 이론적 검토를 거쳐 결정된 변수이기 때문이다. 

       

      수정 지표를 이용하는 또 다른 방법은 이를 정보로 활용하는 것이다. 예를 들어 새로운 모수를 추가했을 때 적합도가 크게 개선된다면 모델은 그만큼 데이터를 제대로 적합하지 않고 있다는 것을 의미한다. 즉, 불필요한 변수가 포함되었다는 것을 의미한다. 따라서 수정 지표와 요인적재값을 고려해 하나씩 변수를 제거하면서 확인적 요인분석을 반복 수행함으로써 모델이 적정 수준에 도달할 수 있다. 

       

      신뢰도(reliability)

      측정모델의 단일차원성이 확보되어야 그때 각 잠재변수의 신뢰도(reliability)를 평가한다. 이때의 신뢰도는 일관성을 의미하며, 일관된 조건 하에 유사한 결과가 도출된다면 신뢰도가 높다고 할 수 있다. 즉, 측정 척도가 측정하고자 하는 것을 얼마나 정확하게 오차 없이 측정하고 있는지를 의미한다. 일반적으로 신뢰도를 측정할 때에는 크론바흐 알파계수(Cronhach's coefficient $\alpha$)를 사용한다. 크론바흐 알파계수는 동일 개념을 여러 측정 항목으로 측정할 경우 항목 간 일관성이나 동질성 정도를 평가하며, 이를 내적일관성(internal consistency)이라고 한다. 

       

      구조방정식모델링에서는 내적일관성과 요인적재값, 측정오차를 함께 고려한 복합신뢰도(composite reliability, CR)의 사용을 권장하며, 0.7 이상일 경우 신뢰도가 확보되었다고 간주한다. CR의 수식은 다음과 같다. 

      \[ \text{CR} = \frac{(\sum_1^n \lambda)^2 }{(\sum_1^n \lambda)^2 + \sum_1^n \delta(\epsilon)} = \frac{(\sum_1^n \lambda)^2 }{(\sum_1^n \lambda)^2 + \sum_1^n (1-\lambda^2)} \] 

      이때 $\lambda$는 표준화 요인적재값을 의미하고, $\delta$와 $\epsilon$은 관측 변수의 측정 오차, $n$은 측정변수의 개수를 의미한다. 신뢰도는 모든 잠재변수에 대해 AVE(Average Variance Extracted)를 계산하여 평가할수도 있다.

      \[ \text{AVE} = \frac{\sum_1^n \lambda^2 }{\sum_1^n \lambda^2 + \sum_1^n \delta(\epsilon)} = \frac{\sum_1^n \lambda^2 }{\sum_1^n \lambda^2 + \sum_1^n (1-\lambda^2)} = \frac{\sum_1^n \lambda^2}{n} \] 

      $\text{AVE}$는 잠재변수에 대한 관측변수의 평균적인 설명력을 의미하며 $\text{AVE}$가 0.5 이상일 경우 신뢰도 요건을 충족한다고 할 수 있다. 

       

      타당도(validity)

      타당도는 측정척도가 측정하려고 하는 것을 얼마나 충실하게 측정하고 있는지를 나타내며, 집중타당도(convergent validity)판별타당도(discriminant validity)를 통해 평가한다. 집중타당도는 측정척도가 측정하기로 되어 있는 잠재변수와 관련을 갖는 정도를 의미하며($x$와 $\xi$간 관계 : $\lambda$), 동일한 잠재변수를 측정하는 측정척도가 서로 어느 정도 일치하는지를 의미한다. 따라서 관측변수는 대응되는 잠재변수에 의해 가능한 많은 분산이 설명되어야 한다. 우리는 관측변수와 잠재변수 간 관계를 나타내는 값을 경로계수라 부르며 이는 요인적재값을 의미한다. 즉, 요인적재값이 클수록 집중타당도는 증가한다. $\text{AVE}$는 요인적재값($\lambda$)으로 계산되기에 $\text{AVE}$가 0.5 이상일 경우 집중타당도가 확보된다고 할 수 있다. 

       

      판별타당도는 측정척도가 측정하지 않기로 되어 있는 다른 잠재변수와는 관련을 갖지 않는 정도를 의미하며, 다른 잠재변수에 속한 측정변수 간에는 서로 관련성이 작아야 한다는 것을 의미한다. 하나의 측정변수가 두 개 이상의 요인에 일정 크기 이상의 교차적재값(cross loading)이 존재하면 이는 판별타당도를 충족하지 못하는 것으로 간주한다. 만약 어떤 잠재변수의 판별타당도에 문제가 있으면 관측변수는 해당 잠재변수의 관측변수들보다 다른 잠재변수의 관측변수들과 더 높은 상관관계를 갖게 된다. 다시 말해 해당 잠재변수에 속해 있는 관측변수보다 다른 잠재변수의 관측변수에 의해서 더 잘 측정된다는 것을 의미한다. 

       

      확인적 요인분석을 사용하는 구조방정식모델링에서는 교차적재값을 바로 계산하지 않고 AVE를 통해 측정한다. 그렇다면 구조방정식모델링에서는 교차적재값을 바로 측정하지 않는 것일까? 우리는 앞에서 구조방정식모델링에서 측정모델로는 확인적 요인분석을 사용한다고 언급했다. 탐색적 요인분석의 경우 측정변수 간 교차적재값을 확인해 판별타당도를 평가하지만, 확인적 요인분석의 경우 이론을 바탕으로 잠재요인과 관련 변수간의 측정모델을 수립하기에 이론에 의해 도출되지 않은 교차적재를 직접적으로 평가하지 않기 때문이다. 확인적 요인분석을 수행할 때 잠재변수와 관측변수 간의 경로계수($\lambda$)만 모수로 설정하여 추정하며, 교차적재 부분은 고정모수로 설정해 0으로 지정하기에 교차적재는 추정하지 않는다(아래의 그림을 확인해보면 교차적재값은 구하지 않는다). 

       

      만약 교차적재값을 확인하고 싶다면 탐색적 구조방정식모델링(Exploratpry Structural Equation Modeling, ESEM)을 사용하여야 한다. 그러나 이번 글에서는 확인적 요인분석에 대해서 다루기에 넘어가도록 한다. 

       

      좌 : 확인적 요인분석, 우 : 탐색적 요인분석

       

      그러므로 구조방정식모델링에서는 $\text{AVE}$를 통해 판별타당도를 평가한다. $\text{AVE}$는 평균분산추출이므로 잠재변수에 의해 설명될 수 있는 관측변수의 변동을 나타낸다. 이를 잠재변수 간의 상관계수와 비교함으로써 판별타당도를 평가할 수 있다. $\text{AVE}$의 제곱근이 잠재변수 간 상관계수보다 크면 판별타당도를 충족한 것으로 판단한다. 

       

       

      2. 구조모델

      앞에서 다룬 측정모델의 경우 관측변수와 잠재변수 간의 관계에 초점을 맞추어 분석을 수행하였다. 이와 달리 구조모델에 대한 평가는 잠재변수와 잠재변수 간의 관계에 초점을 맞추어 진행하며, 연구모델에 의해 설정된 이론적 관계가 데이터에 의해 지지되는지를 검토한다. 주로 모델의 적합도 평가, 유의성 검정, 결정계수($R^2$) 검토 등을 수행한다. 

       

      가설을 채택하기 위해서는 해당 경로계수가 통계적으로 유의미 해야한다. 즉, 유의수준이 0.05일 경우 p-value 값이 0.05보다 작아야하며, 경로계수의 부호 역시 가설의 방향과 일치해야한다. 확인적 요인분석을 수행한 후 단일차원성, 신뢰도, 타당도에 대한 검정을 마치고 난 후 해당 모델을 기반으로 구조모델을 생성할 수 있을 것이다. 

       

      우리는 위에서 언급했듯 외생잠재변수의 경우 독립변수로서의 역할만을 수행할 수 있고, 내생잠재변수의 경우 독립변수로서의 역할 뿐만 아니라 종속변수로서의 역할도 수행할 수 있다고 했다. 우리는 각각에 대해 경로도를 그려보고 가설에 맞추어 종속변수와 독립변수를 설정해 회귀분석을 수행할 수 있을 것이다. 구조방정식모델링을 할 때는 SPSS 혹은 R을 사용하여 분석을 많이 수행한다. 위에서 이렇게 장황하게 기술했지만, SPSS, R에서는 구조방정식을 쉽게 할 수 있도록 패키지를 제공해주고 있기에 쉽게 분석할 수 있다. 아래의 그림은 R을 통해 구조방정식모델링을한 예시이다. 

       

      구조방정식모델링

      코드를 참고하고 싶으신 분은 여기를 클릭하면 된다. 구조방정식모델링을 이해하기 위해서는 기본적으로 매개효과와 조절효과에 대해서도 이해하고 있어야 된다. 당연히 요인분석에 대해서도 알아야할 것이다. 요인분석에 대한 내용은 여기에 간략히 설명해두었으니 참고하길 바란다.