통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
moment generating function · 積 率 生 成 函 數특정 확률 분포의 '적률'을 '생성'하는 ' 함수'이다. '모멘트 생성함수'라고도 하며, 약칭으로 MGF라고도 한다.
확률 변수 혹은 분포의 [math(n)]차 적률 혹은 모멘트(moment)는 확률변수의 거듭제곱의 기댓값으로, 다음과 같이 정의한다. 적률이 존재하지 않을 수도 있다.
[math(\displaystyle \mu_n = \mathbb{E}[X^n] )]
적률 생성함수 혹은 모멘트 생성함수는 이들 적률을 계수로 갖는 급수로, 정확한 정의는 다음과 같다.
[math(M_X(t) = \mathbb{E}[e^{tX} ] )]
만약 위 기대값이 [math(t=0)]의 근방에서 수렴한다면, 다음처럼 급수전개가 가능함을 증명할 수 있다.
[math(\displaystyle M_X(t) = \mathbb{E}\left[\sum_{k=0}^{\infty} \frac{(tX)^k}{k!}\right] = \sum_{k=0}^{\infty} \frac{t^k}{k!} \mathbb{E}[X^k] )]
따라서 테일러 정리에 의해 [math(\mu_n = M^{(n)}(0))]을 얻을 수 있다.
물론 이 모든 얘기는 확률변수 [math(e^{tX})]가 [math(t=0)] 근방에서 적분가능해야 의미가 있고, 이 조건이 만족되지 않으면 적률생성함수를 생각할 수 없다. 그러기 위해서는 모든 차수의 적률이 존재해야 할 뿐만 아니라, 이들이 너무 빠르게 증가해도 안 된다. 적률생성함수가 존재한다는 조건은 의외로 매우 까다로운 조건이다. 심지어 모든 차수의 적률이 존재한다 하더라도 적률생성함수가 존재하지 않을 수 있다. 대표적인 반례가 [math(\log X)]가 정규분포를 따르는 확률변수 [math(X)]이다. 여기서 [math(X)]가 따르는 확률분포를 로그정규분포라고 부른다.
일변수일뿐만 아니라 [math(X)]가 다변수 확률 변수일 경우에도, 벡터함수로 적률생성함수를 정의할 수 있다. 이 경우에 [math(tX)]는 내적으로 간주한다. 이 다변수 세팅
[math(X=(X_1,\, X_2,\, \cdots,\, X_n))]
에서 적률생성함수의 테일러 급수는 결합 적률(joint moment)
[math(\displaystyle \mu_{(k_1,\,k_{2},\, \cdots,\, k_n)} = \mathbb{E}[X_1^{k_1} \cdots X_n^{k_n}])]
을 나타낸다고 볼 수 있다. 이 경우에는 일변수와 구별하기 위해서 결합적률생성함수(joint moment generating function)라는 이름으로 많이 부른다.
적률생성함수는 확률론 외적으로도 다양한 개념들과 관련을 짓고 있다.
- 이름에서 알 수 있듯이 적률생성함수도 생성함수의 일종이고, 의외로 비슷한 활용법들도 많다.
- 라플라스 변환을 보았다면 연속확률변수의 경우[1] 적률생성함수는 확률분포함수의 라플라스 변환임을 관찰할 수 있다.
-
라플라스 변환의 수렴 문제로 대신
푸리에 변환을 생각하듯이, 적률생성함수 대신에 확률분포함수의 푸리에 변환인 특성함수(characteristic function)
{{{#!wiki style="text-align: center"
[math(\varphi_X(t) = \mathbb{E}[e^{itX}])]}}}
들을 대신 생각하기도 한다. 성질은 사실상 거의 동일하지만, 이 특성함수는 모든 확률변수에 대해 존재한다는 장점이 있다.
2. 여러 가지 적률
-
중심적률: [math(Y=X-\mathrm E(X))]일 때, [math(Y)]의 적률이 [math(X)]의 중심적률이다. 차수에 따라 다음과 같은 정보를 준다.
<colbgcolor=#efefef,#555555> 1차 적률 0[2]
2차 적률 \mathrm V(X)=\{\sigma(X)\}^2</math>[3]
3차 적률 분포의 왜도(歪度, skewness)
4차 적률 분포의 첨도(尖度, kurtosis) - 계승적률: X의 거듭제곱 대신 계승인 [math({}_X\mathrm P_n)]을 사용한 적률.
분산은 각각의 적률을 사용해 3가지 방법으로 구할 수 있다.
|
3. 적률생성함수의 성질
다음 성질들을 증명할 수 있다.- [math(M_{X+c}(t) = e^{ct} M_X(t))]
- [math( M_{kX}(t) = M_{X}(kt) )]
- [math(X, Y)]가 독립이면 [math(M_{X+Y}(t) = M_X(t) M_Y(t))]이다.
- 두 확률분포의 적률생성함수가 동일하면, 두 확률분포는 동일하다.
- 확률변수 [math(X_n)]의 적률분포함수가 [math(X)]의 적률분포함수에 구간 내에서 수렴하면, [math(X_n)]의 분포는 [math(X)]의 분포에 수렴한다.
4. 여러 가지 확률 분포의 적률생성함수
4.1. 정규 분포
표준정규분포 [math(Z \sim N(0,1))]의 적률생성함수는 다음처럼 [math(M_{Z}(t) = e^{{t^2}/2})]로 나타난다.[math( \displaystyle \begin{aligned} M_{Z}(t) &= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-{z^2}/2}e^{zt} \,{\rm d}z \\&= e^{{t^2}/2} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-{(z-t)^2}/2} \,{\rm d}z \\&= e^{{t^2}/2} \end{aligned})]
정규분포 [math(N(\mu, \sigma^2))]는 표준정규분포 [math(Z \sim N(0,1))]에 대해 [math(X=\sigma Z + \mu)]의 분포로 나타나므로, 따라서 이 적률생성함수는 위 일차변환 성질을 이용하면 다음처럼 나타난다.
[math( \displaystyle M_{X}(t) = e^{\mu t + (\sigma^2 t^2/2)})]
여담으로 다변수 정규분포를 다음의 생성함수를 통해서 '정의'하기도 한다.
[math( \displaystyle M_{{\bf X}}({\bf t}) = \exp( {\bf \mu} \cdot {\bf t} + \frac{1}{2} {\bf t}^{T} {\bf \Sigma} {\bf t} ) )]
여기서 [math({\bf \mu})]는 평균벡터, [math({\bf \Sigma})]는 공분산행렬이다.
4.2. 이항 분포
베르누이 시행의 적률생성함수가 [math(p e^t + q)] 이므로, 이것의 [math(n)]회 독립시행의 누적인 [math((pe^t+q)^n)]이 된다. 물론 이항정리를 활용해 다음처럼 증명할 수도 있다.[math(\begin{aligned} M_X(t)&=\displaystyle\sum_{k=0}^ne^{kt} \binom{n}{k} p^kq^{n-k}\\&=\displaystyle\sum_{k=0}^n \binom{n}{k}(pe^t)^kq^{n-k}\\&=(pe^t+q)^n \end{aligned})]
4.3. 기하 분포
[math(\begin{aligned} M_X(t)&=\displaystyle\sum_{k=1}^\infty e^{kt}q^{k-1}p\\&=\dfrac pq\displaystyle\sum_{k=1}^\infty(qe^t)^k\\&=\dfrac pq\dfrac{qe^t}{1-(qe^t)}\\&=\dfrac {pe^t}{1-qe^t} \end{aligned})]
수렴 범위는 [math(qe^t<1)], 즉 [math(t<-\ln q)]이다.[4]
4.4. 푸아송 분포
[math(\begin{aligned} M_X(t)&=\displaystyle\sum_{k=0}^\infty e^{kt}e^{-\lambda}\dfrac{\lambda^k}{k!}\\ &=e^{-\lambda}\displaystyle\sum_{k=0}^\infty\dfrac{(e^t\lambda)^k}{k!}\\ &=e^{-\lambda}e^{e^t\lambda}\\ &=e^{\lambda(e^t-1)} \end{aligned})]