통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
時 系 列 分 析 / time-series analysis시계열(시간의 흐름에 따라 기록된 것) 자료(data)를 분석하고 여러 변수들간의 인과관계를 분석하는 방법론이다.
통신공학의 신호처리(signal processing)와도 관계가 깊다. 실제 신호라는 것은 확정 신호인 경우도 있지만, 실제 통신 시스템에서는 어떤 신호가 들어올 지 예측할 수 없기 때문에 통계적으로 분석할 수 밖에 없다.
경제학에서도 매우 많이 쓰이는 방법론이고 계량경제학, 금융, 거시경제 분석 등에 사용된다.
시계열 분석과 횡단면 분석의 성격을 결합하면 패널 분석이 된다. 이는 통계학적으로 매우 어려운 과정을 요구한다.
2. 모형
한 시점의 변수가 그 이전 변수들의 영향, 과거 오차의 영향을 받는 경우 이쪽 모형들을 사용할 수 있다. 그 가정이 깨지는 예시가 랜덤워크.일변량 정상시계열 모형으로는 [1] 이동평균법(moving average model; 이하 MA), naive methods, simple exponential smoothing, Box-Jenkins methods 등이 있다
자기회귀(auto regression; AR), 스펙트럼 분석, 조건부이분산성(ARCH, GARCH) 모형 등이 있다. 통계 프로그램을 이용하여 실제 데이터를 다루는 것 또한 중요하게 여겨진다.
AR과 MA모형을 적용한 것이 자기회귀 이동평균모형(autoregressive moving average model; 이하 ARMA)이다[2].
시계열 자료는 추세(trend), 순환(cycle), 계절변동(seasonal variation), 불규칙변동(irregular fluctuation) 등으로 구성되어 있다. 따라서 분석을 시작하기 전에 자료의 계절성과 주기성, 순환성 파악을 위해 분산 분석(ANOVA)과 다중비교(multiple comparisons)를 통해 계절효과가 있는지 확인해야 한다.
이 문단은 유가 예측 논문 및 최병선 교수 저서들을 참고하였다.
2.1. 결합 시계열분석
횡단자료와 종단(시계열)자료를 결합하여 사용함으로써 분석단위간, 시점간 변화를 모두 포착할 수 있다[3]. 또한 횡단분석이나 시계열분석 어느 한 방법만을 사용할 경우에 발생하는 사례수의 문제(small-N problem)를 해결할 수 있다. 사례수가 부족할 경우 독립변수의 수가 자유도의 허용 한도를 넘게 되어 자료의 다각적인 분석이 불가능한데, 결합시계열분석은 사례수가 (횡단사례수)×(시계열사례수)로 증가하여 독립변수의 수가 많아도 분석이 가능하다[4]. 특히 국가 간 제도 비교 연구에서는 국가 수가 한정되어 있거나 제도 시행의 역사가 짧아 횡단분석이나 시계열 분석 어느 한 방법만을 사용할 경우 사례수 문제가 발생하기 쉬우므로 결합시계열분석이 추천된다.결합시계열분석은 횡단분석이나 시계열 분석 어느 한 가지 방법만으로는 분석하기 어려운 변수의 영향을 포착할 수 있다[5]. 국가 제도나 정책들의 경우 시간에 따른 변화가 크지 않다. 따라서 시간의 변화에 따른 변량만으로 제도나 정책을 분석하기에는 변량이 너무 작아 분석이 불가능하지만, 횡단분석과 결합함으로써 변량이 커져 제도 효과 분석이 가능해진다.
이 문단은 일가족양립정책과 노동시장 젠더 형평성의 관계에 대한 연구 (2009)를 참고하였다.
2.2. 일변량
2.2.1. 정상시계열
stationary time series정상시계열은 시계열 분석의 기본이 되는 중요한 개념이다. 시계열의 평균과 분산이 일정하고 일정한 추세가 없으면 정상시계열이다. 보다 엄밀한 수학적인 정의는 다음과 같다.
강정상시계열(strictly/strong stationary time series)은 [math(F_{X})]를 X의 결합확률밀도함수라 할 때, 임의의 [math(t_{1}, \cdots, t_{k}, h)] 에 대하여 다음을 만족하는 시계열이다.
[math(\displaystyle F_{X}(x_{t_{1}+h}, \cdots, x_{t_{k}+h}) = F_{X}(x_{t_{1}}, \cdots, x_{t_{k}}) )]
그러나 특정한 시계열이 강정상시계열임을 증명하는 것에는 어려움이 있으므로 일반적인 분석에는 다음의 약정상시계열 개념을 많이 사용한다. 사실 시계열 분석의 이론 분야를 전공할 게 아니라면 강정상성과 약정상성이 있다는 사실만 알고 그 정의만 알아도 큰 문제는 없다.
약정상시계열(weak stationary time series)은 다음의 세가지 조건을 만족하는 시계열이다.
- 임의의 [math(t)]에 대하여 [math(E(X_{t})=\mu)]
- 임의의 [math(t)]에 대하여 [math(\text{Var}(X_{t})<\infty)]
- 임의의 [math(t, h)]에 대하여 [math(\text{Cov}(X_{t+h}, X_{t})=\gamma(h))] (즉, 공분산이 t에 의존하지 않고 h에만 의존한다.) [math(\gamma(h))]는 자기공분산함수(autocovariance function, ACVF)라 한다.
참고로 약정상시계열과 강정상시계열은 한쪽이 어느 한쪽을 완전히 포괄하는 개념이 아니라는 데 유의한다.
[math( \left\{X_{t}\right\} )]가 iid Cauchy 분포를 따르는 경우 분산이 존재하지 않으므로 강정상시계열이지만 약정상시계열이 아니다.
[math( \left\{u_{t}\right\} )]가 iid N(0,1) 분포를 따르고 [math( X_{t} = \begin{cases} u_{t} & \quad \text{if } t \text{ is odd}\\ {1 \over \sqrt{2}}({u_{t}}^{2}-1) & \quad \text{if } t \text{ is even} \end{cases} )]
라 정의하면 약정상시계열이지만 [math(F_{X_{1}}(x) \neq F_{X_{2}}(x))]이므로 강정상시계열은 아니다.2.2.2. ARIMA
ARIMA 모형은 비정상적(nonstationary) 시계열 자료에 대해 분석하는 방법이다. 실제 ARMA 시계열 분석은 적용공분산 정상성(covariance stationary)을 만족시키는 과정을 거쳐 분석을 진행하게 되는데 이를 ARIMA 모형이라고 한다[6]. ARIMA 분석방법론은 시계열의 변동형태를 파악하고 이를 통해 예측이 가능하다는 장점으로 증권시장 등 경제분야와 수산자원 관리에서 많이 응용되고 있다. 단일변량 ARIMA 분석기법의 특징은 첫째, 시계열 자료 외에 다른 자료가 없더라도 그 변동 상태를 확인할 수 있다는 장점을 가지고 있으며, 둘째, 어떤 시계열에도 적용이 가능하며 특히 시간의 흐름에 따라 자료의 변동이 빠를 때 민감하게 반영할 수 있다.AR모형은 기본적으로 회귀 분석에서 자기 자신의 과거값을 변수로 하는 회귀식을 추정하는 과정이라고 요약할 수 있다. 정상 시계열의 경우 AR과 MA가 상호 변환가능하다는 것이 증명되었기 때문에 MA모형에 대해서도 이 말이 틀렸다고는 할 수 없다. MA모형은 특정 변수를 그 변수의 초기에 과거의 충격들의 선형결합의 형태로 나타낼 수 있다고 표현하면 더욱 정확하다. ARMA 모형은 정상시계열의 경우 AR과 MA가 결과적으로 같기 때문에 (Wold의 정리) 특정 변수를 자신의 과거치와 과거 충격들의 선형결합으로 간단히 나타낼 수 있다는 것이고 (Wold representation) ARIMA는 비정상시계열 데이터를 차분해서 정상시계열로 만든 후 Wold의 정리를 쓰자는 것이다.
ARIMA모형은 크게 1)모형의 식별 2)모수 추정 3)모델 적합 4)예측의 4 단계로 구분이 되는데, 1) 모형의 식별에서 시계열의 정상성 여부를 확인하게 되며, 보통은 그래프를 먼저 그려보고 추세선이 존재하는지, 상수항이 존재하는지(즉 시계열 변수의 평균값이 0이 아닌지) 확인 후 ADF[7] 검정법으로 단위근을 검정하거나, 혹은 자기상관함수나 편자기상관함수가 줄어드는 양태를 보고 단위근 여부를 판단하거나, 혹은 그냥 그래프가 추세,순환,계절,불규칙 변동을 보이는지 눈으로 확인하고 정상성 여부를 확인하게 된다.
정상성을 확인하는게 중요한 이유는, 일반적으로 선형확률과정은 임의의 표본공간으로부터 시계열 값들이 선출되면서 실현된 것이라고 보기 때문이다. [8] 즉, 오늘의 주가 지수가 320이라면, 그 주가지수는 이상적인 천상의 주가지수 그래프에서 여러개를 표본 선출하여 만든 수치들의 평균(앙상블 평균)의 값이라고 볼 수 있는 것이다. 좀 더 엄밀히 말하면 우리가 구한 시계열 자료는 시간에 따른 확률분포에서 실현된 값들의 나열이다. 그런데 시간이 흐름에 따라 확률분포가 크게 변동한다면 그 실현값들의 평균이나 분산 등 모멘트가 의미가 없기 때문에 적어도 이 모멘트들이 우리가 다루고자하는 확률과정을 설명하기에 문제가 없도록 하기 위해 필요한 조건이 정상성 조건이다. 마찬가지로 미래의 수치도 이런 방법으로 추측이 가능한데, 문제는 현실사회에선 이상적인 그래프는 존재하지도 않고, 어디까지나 모수치는 없고(가정은 하지만) 과거값인 표본들만 존재하는 상황이라는 데 있다. 즉, 유한개의 관찰된 시계열 자료로 추정을 하려면 필연적으로 그래프를 단순화 시키는 가정이 필요하다.
그래프를 정상화 시키는 가장 효율적인 방법은 시계열 변수들을 백색화(Whitening) 시키는 것이다. 백색잡음으로 구성된 항들은 평균은 일정하고, 분산은 일정하며, 변수들간 공분산과 자기상관은 시점t에 의존하지 않고(즉 특정 시점t에 갈수록 커지거나 작아지지 않고) 어디까지나 각 변수들의 시점의 차이인 "시차"에만 의존한다는 정상성 조건을 만족하게 된다.
변수들을 "백색잡음"으로 만드는 가장 효율적인 방법은 바로 차분(differencing)을 이용하는 방법인데, 바로 현재 변수에서 바로 전 차수의 변수를 빼줌으로서 가능하다. 단위근이 존재한다는 것은 [math(Z_{t}=aZ_{t-1}+\epsilon_{t})] (단, [math(\epsilon_{t})]는 백색잡음)에서 a가 1이라는 뜻인데, a가 1이 되어버리면 [math(Z_{t}=Z_{t-1}+\epsilon_{t})]가 되어 분산이 일정 값으로 수렴하지 않고 무한히 발산한다. 즉, [math(Z_{t}=Z_{t-1}+\epsilon_{t})]에서 [math(Z_{t-1})]을 좌변으로 이항하여 [math(Z_{t}-Z_{t-1}=\epsilon_{t})]가 되어버린다면 이 변수는 백색잡음이 되면서 자연스럽게 정상성을 만족하게 된다.
이렇게 시계열 정상화가 끝나면 다음은 [math(ARIMA(p,q,r))]의 차수를 결정해야 하는데, 차수는 [math(AR(p))] 모형과 [math(MA(q))]모형이 각각 몇 차시까지 상관성을 갖느냐를 나타내는 수치이다. 가령, [math(ARIMA(2,1,2))]라면, 이 시계열은 1차 차분이 완료된([math(q=1)]) 그리고 자기상관모형인 AR항이 2차시까지 ([math(Y_{t}=\alpha_{1}Y_{t-1}+\alpha_{2}Y_{t-2}+\epsilon_{t})]) 가며, MA항이 2차시([math(Y_{t}=\epsilon_{t}+\beta_{1}\epsilon_{t-1}+\beta_{2}\epsilon_{t-2})])까지 존재하는 모형임을 나타낸다. 식으로 표현하면 다음과 같다.
[math(Y_{t}=\alpha_{1}Y_{t-1}+\alpha_{2}Y_{t-2}+\beta_{1}\epsilon_{t-1}+\beta_{2}\epsilon_{t-2}+\epsilon_{t})][식1]
적정 차수를 추정하는 방법은 크게 1)자기상관함수(ACF)와 2)부분자기상관함수(PACF)가 줄어드는 양태를 보고 적정 차수를 결정하는 방법과 AIC, BIC등 각종 모형의 적합도를 나타내는 수치를 확인하고 적합도 수치가 가장 적절한 모형을 찾는 방법 두 가지가 존재한다. ACF와 PACF로 차수를 결정하는 방법은 방법론에 익숙해지면 직관적이나 그 양태가 그래프에서 뚜렷히 나타나는 경우가 생각보다 적고, 또 MA(q)항을 추정하는 과정에서 그 오류가 누적적으로 커지기 때문에[9] 0이 아닌데도(귀무가설이 아닌데도) 0으로 간주하는 1종오류를 범할 확률이 매우 높아진다. 따라서 보통은 ACF와 PCAF가 줄어드는 양태 + 적합 후 나타나는 적합도 수치의 결과를 보고 타당한 모형을 지속적으로 적용하는 노가다가 필요하다. 통계 패키지 프로그램들은 이런 과정을 자동으로 진행해주는 경우가 많다.
다음은 모수의 추정인데, 대개 최대우도 추정법(MLE), 최소자승추정법( OLS)이 쓰인다. 적률추정법은 가장 간단하긴 하나 그 예측치가 효율적이지 않아서 자주 쓰이진 않는다. 좀 더 정확히 말하면 이동평균 component가 들어가면 OLS를 쓸 수 없다. AR process를 Wold theorem과 iteration을 통해 MA process로 바꾸고 MLE를 쓰고 이를 다시 ARIMA로 바꾸는 것이다. 그런데 계산량이 많아서 특정한 점에서 OLS를 하고 이 점의 근방에 이 점보다 더 큰 Likelihood를 주는 점은 없는지 확인하는 수치적 방법을 더 많이 쓴다. 물론 이론계량경제학자거나 통계학자거나 통계프로그램 만드는 회사의 직원이 아니면 알 필요가 없다. 컴퓨터가 알아서 해주니까.
2.2.2.1. 계절 ARIMA
SARIMA (Seasonal ARIMA)비정상적 시계열 자료인데다가 계절효과도 추가되면 계절성이 존재하는 비정상적 시계열이기 때문에 계절 ARIMA모형을 이용한다. 계절 ARIMA모형은 순수 계절시계열이나 비정상적인 시계열과는 다른 패턴을 갖고 있는 시계열 자료이다. 따라서 계절성과 비정상성을 동시에 고려해야 한다. 계절효과를 제거한 뒤 분산안정을 위한 자료변환과 추세제거를 위한 차분을 적용하면 정상시계열 자료를 얻을 수 있다. 이러면 모형의 식별과 분석, 추정, 예측적합의 과정을 통하여 결과를 도출할 수 있다.