mir.pe (일반/밝은 화면)
최근 수정 시각 : 2024-11-03 16:47:34

분산

표본분산에서 넘어옴

파일:나무위키+유도.png  
은(는) 여기로 연결됩니다.
매직 더 개더링의 카드에 대한 내용은 부메랑(매직 더 개더링) 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.

파일:나무위키+유도.png  
은(는) 여기로 연결됩니다.
중국의 도시 변량에 대한 내용은 카이펑시 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 모 분산
2.1. N으로 나눔
2.1.1. 계산 예
3. 표본 분산
3.1. n-1로 나눔
4. 평균 절대 편차5. 엑셀에서 분산 구하기6. 같이 보기

1. 개요

/ variance

분산의 국립국어원 표준국어대사전의 정의는 '갈라져 흩어짐, 또는 그렇게 되게 함.'으로, 어떤 대상의 흩어진 정도나 상태를 의미한다. 물리학에서는 이 두 개 이상의 다른 매질을 통과할 때 그 경계면에서 고유 파장에 따라 나뉘어지는 현상을 의미한다.

통계학에서는 통계적 산술 평균의 하나로 편차를 제곱하여(squared deviations) 이들의 평균값(mean value)으로 나타낸다. 본 문서에서의 분산은 '통계학적 분산'을 기준으로 한다.

통계학에서 분산(variance)은 관측값에서 산술평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 변량과 산술평균의 차이값의 제곱의 평균이다. 관측값에서 산술평균을 뺀 값인 편차들의 합은 언제나 0이 나오므로 제곱해서 음수를 모두 소거하고, 0이나 양수로 만들어 더한다.

절댓값을 취하면 되지 않느냐는 주장도 있지만 편차의 절댓값의 합의 평균은 중앙값에서 의미를 가지기 때문에, 평균에서는 편차의 제곱의 합을 이용해야 한다. 대체로 점수가 평균 근처에 몰려있다는 것은 각 점수를 모두 골고루 하나씩 받았다는 이야기와 엄밀히 다르다.

여담으로 통계학에서의 분산에는 단위가 없다.[1] 반대로 표준편차는 단위가 있으니 주의할 것.

모 분산(population variance) [math(\sigma^2)]은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 [math(n)]으로 나눈 것이다.

표본 분산(sample variance) [math(s^2)]은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 [math(n-1)]로 나눈 것이다.

참고로 전자공학에서 전압 또는 전류의 분산을 구하면 이는 곧 전력(power)이 된다.

2. 모 분산

아래는 모 집단 모 분산(population variance) [math(\sigma^2)]이다.

고등학교 수준의 설명을 하자면 다음과 같다. 각각 100명으로 구성된 두 집단의 평균 키를 구하는데, 한 집단은 10살짜리의 100명의 어린이들로만 구성되고, 다른 집단은 5~15세 연령이 골고루 포함된 100명으로 구성된다고 생각해 보자.

전자의 집단에 비해서 후자의 집단의 키는 그 숫자가 훨씬 들쑥날쑥하게 튀게 될 것이다. 평균 자체는 표본에 따라 대략 비슷하겠지만 각각의 관찰값들은 훨씬 더 넓게 퍼져 있게 된다는 것이다. 즉, 관찰값들이 얼마나 많이 퍼져 있는지 역시 평균값이 어디인지만큼이나 중요하다. 그리고 그걸 조사하는 것이 바로 분산이다.

분산을 알기 위해서는 먼저 평균을 알아야 하고, 각각의 관찰값들과 평균 사이의 거리(distance)를 재기 위해 관찰값에서 평균을 빼게 된다. 그런데 여기서 문제가 생긴다. 어떤 관찰값들은 반드시 평균 이하에 존재하고 있고, 이들의 존재로 인해 양수 값들과 음수 값들이 혼재하게 되는 것이다. 그리고 이들을 모두 합칠 경우 결과는 반드시 0이 나온다.

결국 옛날 통계학자들은 이 문제를 해결하기 위해 제곱을 취해서 마이너스 기호를 떼어내 버리자! 라는 결정을 하게 되었다.절댓값을 구하면 되는데[2]

위의 설명은 분산의 여러 의의중 관측값의 특징을 나타내는 요약통계량적인 측면에 치우친 설명이다. 학교 시험을 보고나면 평균과 분산이 주어지는데 이는 위와 같은 과정을 통해 구해지는 것이다. 하지만 분산은 위의 요약통계량으로서의 의의 이외에 다른 의의를 가지고 있다. 이에 대해 설명 하기 위해 다음의 예를 들어보자. 아마 이 문서를 읽고 있는 독자라면 고등학교 수학에서 정규분포에 대해서 배웠을 것이다.

정규분포에 대한 문제를 풀때 거의 대부분 문제는 어떤 대상은 평균과 분산이 몇인 정규분포를 따른다고 주어지며 N(50, 4) 와 같은 형식이다. 그런데 이 때는 관측치가 주어지지 않았는데 어떻게 분산이란 것을 계산했을까? 위의 정의에 따르면 어떤 관측치가 주어져야만 분산이라는 것이 정의되는데 말이다.

사실 분산이란 관측값에 의존하여 정의되는 양이 아니라 분포함수에 의존하여 정의되는 양이다. 전공자가 아니라면 관찰값을 통해 설명해도 된다. 이에 대해 엄밀히 이야기 하자면 확률밀도함수(pdf), 누적확률밀도함수(cdf)에 대한 개념과 적분을 도입해야 하지만 생략하고 이야기하자. 분산이란 분포의 모양을 결정하는 양이다. 정규분포의 예시를 들면, 같은 평균을 가지는 정규분포라고 하더라도, 분산이 큰 정규분포가 그 확률밀도함수의 높이가 낮고 대신 넓게 퍼져있는 것을 볼 수 있다.

이렇게 분산은 확률밀도함수가 평균으로 부터 퍼져있는 정도를 나타내는 양이다. 분산이 크면 확률밀도함수의 모양은 평균으로부터 넓게 퍼지며, 분산이 작으면 확률밀도함수의 모양은 평균에 가깝게 몰리게 된다.

2.1. N으로 나눔

데이터의 각 값에서 모 평균 [math(\mu)]를 빼고 제곱해서 모두 더한 후, 모집단(population)의 데이터 갯수 [math(N)]으로 나눈다.

이렇게 얻어진 편차제곱(squares of deviation)을 모두 합친 후 전체 관찰값의 개수 [math(N )]만큼 나눈다. 즉 편차제곱을 가지고 평균을 구하는 것이다. 이것이 분산이다.

편차제곱을 모두 합친 값을 편차제곱합(SS; sum of squared deviation)이라고도 한다.

2.1.1. 계산 예

이름(N=8) 점수 편차 제곱
철수 90 0
영희 99 81
영구 93 9
제임스 89 1
수지 89 1
유진 91 1
찰리 91 1
제인 78 144
합계 720 238(SS)
평균 90 29.75(분산)
표준 편차는 5.454 이다.

3. 표본 분산

통계학을 조금 더 공부하다보면, 관측치들의 성질을 요약하는 통계량으로서 모집단에서의 분산과는 다른 표본 분산 [math(s^2)]이라는 개념을 정의한다. 모분산 표본 분산은 데이터를 뽑은 집단이 모집단인지 표본인지에 따라 구분하는데 자세한 내용은 표본조사 문서 참고.

3.1. n-1로 나눔

표본분산은 표본에서 구한 분산으로 모분산을 추정할 때 위의 분산 공식에서 [math(n)]으로 나누는 것과 다르게 [math(n-1)]로 나눈다. 분산 및 표준편차에서 분모를 n-1로 계산하는 이유

데이터의 각 값에서 표본 평균 [math(\bar{X})]를 빼고 제곱해서 모두 더한 후, 표본(sample)의 데이터 개수 [math(n)]에서 [math(1)]을 뺀 [math(n-1)]로 나눈다. 여기서 [math(n-1)]로 나누는 이유는 [math(n-1)]이 값이 표본의 자유도가 되기 때문이다.(자유도에 대한 설명은 모든 통계 관련 수업마다 다루지만, 제대로 설명해주는 경우는 없다.) 자유도의 개념을 이해 했다면, 불편추정량으로 n-1로 나누는 이유를 설명할 수 있다.

이는 표본분산을 불편추정량(unbiased estimator)으로 만들기 위해서이다. 불편추정량이 되기 위해서는 독립항등분포 (모든 관측치가 독립이고 동일한 확률분포에서 뽑혔다는 뜻. iid; independent and identically distributed)는 가정이 필요하다. 조금 더 나아가서 이야기 하면 iid 샘플링을 모평균이 알려진 정규분포에서 했다고 가정했을 경우 표본일지라도 위의 모분산공식을 그대로 표본분산으로 사용한다. (표본을 추출한 이유가 모집단의 모수를 추정하기 위함임을 명심한다.)불편추정량에 통한 이해가 어렵다면 수식 없이 설명하는 표분분산 계산법을 참고하길 바란다.

또, [math(n)]으로 나눈 분산이 최대우도추정량(Maximum Likelihood Estimator)으로 설명가능하다. 이 경우에는 [math(n-1)]로 나누나 [math(n)]으로 나누나 어차피 일치추정량(Consistent Estimator)이기 때문에 어느 쪽을 사용하더라도 문제는 없다.

다만 z-test, t-test 등의 검정을 수행할 때는 꼭 통계학 서적에 있는 대로 계산하자. 그 때는 [math(n)]으로 나누거나 [math(n-1)]로 나누는 것이 꽤나 중요하다. 물론 n이 꽤나 크면 그렇게까지 중요하지는 않다. 값을 1,000,000으로 나누는 것과 999,999으로 나누는 것은 오차가 작기 때문이다. 하지만 모집단과 표본의 자유도의 개념은 숙지하는 것이 훗날을 위해 편하다.

4. 평균 절대 편차

제곱 후 제곱근 하는 대신 절댓값을 취하는 절대 편차를 써도 되지 않느냐고 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다.... 지만 최근에는 robust한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 " 평균 편차"(MAD) 라고 부른다.

절대 편차 문서의 평균 절대 편차 항목 참조.

5. 엑셀에서 분산 구하기

엑셀 2010 이후부터는 표본 분산(sample variance)은 VAR.S 함수로, 모 분산(population variance)은 VAR.P 함수로 구한다.

이전 버전 엑셀은 표본 분산은 VAR 함수를 쓰고, 모 분산은 VARP 함수를 쓴다. VAR 함수와 VARP 함수는 아직은 지원되지만 이후 버전의 엑셀에서는 지원이 종료될 수 있다.

Microsoft Excel/함수 목록 문서 참조.

6. 같이 보기



파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는
문서의 r47
, 번 문단
에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r47 ( 이전 역사)
문서의 r ( 이전 역사)


[1] 굳이 쓴다면 원래 단위의 제곱이긴 하지만, 원래 자료의 단위와 다를 뿐더러 데이터의 변량이 아닌 편차의 제곱이므로 아무런 의미가 없어서 단위를 쓰지 않는다. [2] 절대 편차의 평균을 구하게 되면 원자료 자체가 산술평균이 아닌 중앙값을 기준으로 평균이 정렬되는 효과가 나오기 때문에 절대값으로 편차를 못 구한다. 그래서 제곱하는 것이다. 초중고등학교 수준의 평균-중앙값 차이야 거의 똑같기 때문에 넘어가지만 이제 여론조사나 대통령 선거 출구조사 급 자료가 되면 산술평균과 중앙값의 차이는 엄청나게 벌어지기 때문에 절대값을 못 씌우는 것이다.