다층 모형

multi-level model, hierarchical linear model

1. 개요2. 언제 다층모형을 사용해야 하는가3. OLS, probit, logit 등 다른 모형과의 차이4. 분석 과정 (2층 모형)5. 검정6. 결측치 분석7. 확장된 모형

7.1. 위계적 일반화 선형모형 (HGLM)7.2. 이원 다층 모형7.3. 위계적 베이지안 모형7.4. 잠재 변수 다층모형

1. 개요

개인 수준의 분석과 개인이 집락되어 있는 상위 집단 수준의 분석이 한 데 통합되는 통계적 분석 방법. 계층적 선형 모형, 위계 선형 모형, 혼합효과 모형(mixed effects model)등 이라고도 한다. 관련 통계 패키지로는 HLM, MLwiN , SPSS, LISREL, Mplus, R(nlme,lme4), STATA, SAS 등이 있다.

1986년 영국, 미국 교육학계에서 동시에 독립적으로 연구되어 발표되었다. [1]

가장 간단한 예로, 학생의 성적을 알고 싶다고 하자. A학교에는 1반~10반이 있다. 1반과 2반의 차이는 집단 수준의 차이다. 1반 내에서도 1번학생, 3번학생, 10번학생 등의 성적에는 차이가 나는데 학생들의 공부시간 (1층 모형의 독립변수)가 제각각이기 때문이다. 따라서 학생의 성적을 알기 위해 개인 수준의 차이와 집단 수준의 차이를 모두 조사한다면 2수준 모형 분석이 이루어진 것이다.

여기서 더 나아가 3수준 모형을 사용할 수도 있다.

2. 언제 다층모형을 사용해야 하는가

자료가 통계학에서 말하는 내재적 자료 (nested data, 위계적 자료, 다층 자료)일 때 도움이 된다.

통계 모형이 내놓는 결과가 신빙성을 갖추려면 통계적 가정이 충족되어야 한다. 통계모형이 특정 가정이 위배되더라도 강인성 (robustness)을 지닌다면 다행이지만, 어떤 가정은 연구결과에 치명적인 손상을 입힌다. 구체적으로 살펴보자면 위계적 자료일 경우 집단간 등분산성, 수집되는 관찰단위의 독립성의 가정을 충족하기 어렵다. 전통적인 통계모형은 등분산성 가정이 위배되는 경우에는 어느 정도 강인성을 지니지만 독립성을 만족하지 못할 경우 연구결과에 치명적인 손상을 입는다. [2] 범주형 변수 자료 [3]일 경우 변수 관계의 선형성을 만족하지 못 해 비선형 관계를 가지게 되며, 종속변수의 정규분포도 갖지 않는다. 전통적인 통계모형은 정규성 가정이 위배되는 경우에는 어느 정도 강인성을 지닌다. 다층모형을 적용할 경우 등분산성, 독립성, 선형성, 정규성 가정을 모두 만족한다.

사회과학 쪽 연구를 할 때, 패널자료가 있으면 여러 해의 관찰치를 하나의 자료로 만들고, 개인 관련 변수, 가구 관련 변수, 제도 관련 변수 등을 한 차원에 포괄하여 로지스틱 회귀를 실시하는 경우가 일반적이다. 그러나 연도가 다르게 관찰된 개인을 하나의 자료로 통합하는 것은 표본 간 자기상관 (autocorrelation) 문제를 일으킬 수 있다. 다층자료를 개인수준에서 분석하는 것은 관찰단위의 독립성 가정을 만족하지 못한다. 집단수준의 분석에서 개인의 정보를 집계화하여 사용하는 것은 집계화의 오류(aggregative fallacy)와 생태학적 오류(ecological fallacy)를 범할 수 있다.

전통적인 회귀 분석 방법이 '개인의 특성을 연도별로 반복 측정한 자료'를 해석할 경우 고정 효과 모형 (fixed effect model)인데 이러면 개인차에 의한 분산을 설명하는 데 한계를 지니게 된다. 이는 회귀계수의 표준오차를 과소 추정하여 통계적 유의성을 과대평가하는 오류를 범하기 쉽다. 다층자료에서 표집단위인 집단의 임의효과가 존재하는 경우에는 다층모형이 회귀분석모형보다 더 적절하다. [4]

개체별 측정 횟수와 측정 시점이 동일하지 않을 때 다변량 반복 측정 분석보다 유리하다. 다층모형은 통계학적으로 공분산 성분 모형 [5]이고 EM 연산법을 사용하기 때문에 측정치 간의 상호상관을 허용하고 불균형 자료를 분석할 수 있다. 따라서 측정 횟수와 시점이 다양해도 된다. 반면 전통적인 다변량 반복 측정 분석을 하려면 측정횟수와 시점이 동일해야 한다.

3. OLS, probit, logit 등 다른 모형과의 차이

회귀모형 중에는 OLS나 probit, logit 모형 등 하나의 오차항 (error term)을 가정하는 모형들이 많이 쓰인다. 반면, 다층모형에서는 측정 수준별로 여러 개의 오차항을 가정한다. 정교하다는 것은 곧 무진장 어렵다는 뜻이다.

OLS, logit, probit 등의 일반적인 회귀모형에서는 연구자나 통계패키지에 관계없이 결과가 일정하다. 하지만 다층모형의 모수 추정은 반복적 수렴 (iterative convergence) 과정을 거치기 때문에 연구자, 통계 패키지에 따라 제각각이다.

4. 분석 과정 (2층 모형)

2층 모형은 다층모형 분석 중 가장 단순한 형태이다. 1층 모형은 개인수준의 변수간 관계에 관한 회귀식이 된다. 이 회귀식에서는 여러 개인적 특성들이 독립변수가 되고 그 값들이 영향을 미친 결과물이 종속변수가 된다. 2층 모형은 개인이 속한 집단의 특성이 미치는 영향을 분석하기 위한 모형이다. 2층 모형은 1층 모형에서 추정된 절편과 각 독립변수들의 기울기(회귀계수)에 개인을 넘어서는 거시․맥락적 단위의 변수들이 어떤 영향을 미치는지를 밝히기 위한 추정모형이다.

다층모형의 분석과정은 무조건모형과 조건모형에 대한 분석으로 구분된다. 무조건 모형이란 일원 분산 분석 (One-way ANOVA) 모형을 의미한다.

무조건모형 분석은 자료의 기초정보를 확인하는 단계다. 첫 단계는 귀무모형(null model)의 추정이다.[6] 귀무모형을 추정해서 1차 모형의 종속변수의 총분산과 집단간 분산이 어느 정도인지 확인한다. 왜 확인하냐면 이 분산을 설명하기 위해 다층모형을 활용할 필요가 있는지를 판단하기 위함이다. 예를 들어, 이 분산이 0이라는 귀무가설을 1% 수준에서 기각하기에 충분한 수준이라면 다층모형을 통해 1차 모형의 종속변수의 집단간 차이를 해명할 필요가 있다고 봐도 좋다. 다음에는, 이른바 확률계수모형(Random Coefficient Model)의 추정을 통해 개인간 분산과 상위 집단간 분산을 각 수준의 독립변수들을 통해 어느 정도 설명할 수 있는 지를 확인할 수 있다.

그리고, 확률계수모형에서 2수준 독립변수를 추가한 조건모형(연구모형. conditional model)을 추정한 결과를 구한다. 여기서 확률계수모형이 무조건 모형에 비해 더 설명력이 강한지 알아보기 위해서는 다변량 우도비검증(multivariate likelihood-ratio test)을 실시한다. 다변량 우도비 검증은 편차통계량 (deviance statistics)을 비교하는 것을 말한다.

5. 검정

다층모형 (위계적 선형모형) 역시 회귀분석의 일종이므로 다중공선성을 검정해야 한다. VIF 지수가 1이상 2이하로 나타날 경우 요인 간 관계성이 과도하지 않는다.

6. 결측치 분석

Missing data
다중대체법 (multiple imputation)을 이용하기도 한다.

7. 확장된 모형

다층구조방정식
다층 메타 분석

7.1. 위계적 일반화 선형모형 (HGLM)

hierarchical generalized linear models

다층모형과 일반화 선형모형(McCullagh and Nelder, 1983)을 결합했다. 종속변수가 범주형 자료 변수 [7]일 경우 일반적으로 위계선형모형에서 가정하고 있는 '독립변수들의 관계가 선형이고 정규분포를 이룬다'는 가정을 충족하지 못 한다. 이럴 경우 HGLM을 사용한다.

7.2. 이원 다층 모형

Two way crossed multilevel model

개인이 두 가지 유형의 집단에 동시에 속하는 다층 자료의 분석에 적합한 모형. 단순한 다층모형은 '학생'은 '학급', '학급'은 '학교'에 속하는 식으로 한 가지 유형의 집단에만 속한다는 차이가 있다.

7.3. 위계적 베이지안 모형

베이즈 정리 문서 참조.
베이지안 통계는 그 특성상 다층모형을 쉽게 할 수 있는 구조이다.

7.4. 잠재 변수 다층모형

일반적인 다층 모형에 측정의 오차를 분해하는 측정모형을 가미한 것이다. 통계모형에서 측정의 오차 문제를 극복하기 위해서 종속변수와 예측변수를 잠재변수로 사용하는 것을 가져온 것이다.

예를 들어 2수준 모형의 예를 생각해보자면, 1수준에서 고전검사이론 (CTT)에 기초해 종속변수와 예측변수의 값을 진짜 점수와 오차 점수의 합으로 모형화한다고 하자. 이 때 2수준부터는 종속변수나 예측변수에 모형화된 진짜 점수만을 사용하도록 한다.

[1] Aitkin and Longford, 1986; deLeeuw and Kreft, 1986; Goldstein, 1986; Raudenbush and Bryk, 1986 [2] Glass, Peckham, Sanders, 1972. 관련 참고문헌 [3] 이분변수(dichotomous variable), 다분변수(polytomous variable), 빈도변수(count variable) 등 [4] 자세한 내용은 다음 논문 (2009) 참조바람. [5] covariance components model [6] 이 문서는 다음 논문 2014, 한 강의자료를 참조하여 기술되었다. [7] 위를 다시 참조바람. 이항변수 등.