mir.pe (일반/밝은 화면)
최근 수정 시각 : 2024-10-29 20:35:36

통계학

STATA에서 넘어옴
과학의 범위
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px; word-break: keep-all"
좁은 의미 [[자연과학|
자연과학
]] 물리학 · 화학 · 생물학 · 천문학 · 지구과학( 지질학 · 해양학 · 대기과학)
넓은 의미 [[형식과학|
형식과학
]] 논리학 · 수학 · 시스템 과학 · 전산학 · 통계학
[[응용과학|
응용과학
]] 간호학 · 거대과학 · 건축학 · 공학 · 농학 · 임학 · 수산학 · 수의학 · 약학 · 의학 · 치의학 · 동양의학( 한의학, 중의학)1
[[사회과학|
사회과학
]] 심리학 · 사회학 · 정치학( 행정학 · 정책학) · 경제학 · 교육학 · 군사학 · 미디어학 · 법학 · 경영학 · 사회복지학 · 인류학 · 지리학 · 지역학
비과학 [[인문학|
인문학2
]] 언어: 언어학3 / 예술: 문학 · 미술사학 · 음악사학 / 역사: 사학4 · 과학사학 · 고고학4 / 사상: 철학 · 종교학4 · 신학5
변경지대의 과학
비학문 병적 과학 · 쓰레기 과학 · 유사과학( 대체의학) · 반과학
1 대부분의 국가에서는 유사과학의 일종인 대체의학으로 분류하나, 한국, 중국, 북한, 대만 4개국에는 독립된 한의학부가 존재하여 의학사에 준하는 학위를 부여한다.
}}}}}}}}}

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 · 자료 시각화 도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

형식과학의 일반적 분류
논리학
Logic
수학
Mathematics
통계학
Statistics
시스템 과학
System Science
이론 컴퓨터 과학
Computer Science
[[파일:statistics_graph.jpg
width=100%]]| 통계학의 일부를 내포하는 이미지[1]
1. 개요2. 용어
2.1. 공통2.2. 대표값2.3. 산포도2.4. 기술 통계학2.5. 추론 통계학
3. 다른 학문과의 관계
3.1. 사회과학3.2. 자연과학과 공학3.3. 의학, 약학3.4. 수학
4. 세부 분야
4.1. 기초 분야4.2. 데이터의 형태에 따른 각론4.3. 기타 각론
5. 수험과목으로서의 통계학6. 관련 저널7. 통계 소프트웨어(데이터분석)8. 각종 오해와 통념들9. 통계학의 주요 인물10. 관련사이트11. 관련 문서

1. 개요

/ Statistics

통계학은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다.[2]

표준국어대사전에 따르면 사회 현상을 통계에 의하여 관찰ㆍ연구하는 학문. 불확실성에 대한 논리를 부여하는 학문으로 경험과학의 한 분야이자 대부분 학문의 기초를 담당한다.[3]

한국 통계법에 의하면 통계작성기관이 정부정책의 수립·평가 또는 경제·사회현상의 연구·분석 등에 활용할 목적으로 산업·물가·인구·주택·문화·환경 등 특정 집단이나 대상 등에 관하여 직접 또는 다른 기관이나 법인, 단체 등에 위임 위탁하여 작성하는 수량적 정보(통계법 제3조 제1호)로서 통계는 주로 숫자(numbers)를 의미하는 것으로 되어있다.

통계학에 대한 여러 정의가 있는데 모두 축약하면 자료를 연구하는 학문, 데이터를 분석하는 학문으로 압축할 수 있다.
에런 레벤슈타인(Aaron Levenstein) 경영학 교수: "통계학은 비키니와 같다. 이것이 드러내는 것은, 많은 것을 연상하게 하지만, 감추는 것은 매우 치명적이다."

"왜 통계를 배워야 하는가?"에 대한 좋은 글이다

2. 용어

기재 시 가나다 순으로 정렬하고, 항목화 해주시기 바랍니다. 나무위키에서 순환링크는 금지입니다.

2.1. 공통

2.2. 대표값

2.3. 산포도

2.4. 기술 통계학

2.5. 추론 통계학

3. 다른 학문과의 관계

3.1. 사회과학

통계학은 사회과학에 있어 사회통계 및 데이터를 분석하기 위해 이용된다. 영어이름부터가 State의 학문으로, 국가에 관한 특성을 연구하기 위해 만들어졌다. 몇천만에서 몇십억을 다루는 통계를 연구하는 통계학은 태생적으로 사회과학과 떼어놓을 수 없다.

실험분석이나 자료해석이 필요한 연구분야에서 논문을 쓰려면 통계 지식이 필요하다. 대부분의 논문은 통계 분석을 거쳐 논문의 결론을 제시하는 구조다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과 회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인 도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, MATLAB, JAMOVI 등 통계 분석 프로그램을 다루는 법도 배울 필요가 있다. 엑셀 함수(trend, slope, linest 등) 및 데이터분석 메뉴에서 다중회귀분석을 지원한다.

특히 경제학에선 통계학이 빠질 수 없다. 통계를 다루는 주무부처인 대한민국 통계청부터가 과학기술정보통신부 행정안전부가 아닌 기획재정부의 외청이다. 학계에서도 완전히 이론적인 모형을 다루는 일부 전공[4]을 제외하면 거의 모든 세부전공에서 끼고 사는 것이 데이터와 통계학이며, 실무에서는 중급 이상의 통계학 이론은 그렇게까지 강조하지는 않지만, 그럼에도 불구하고 현실의 데이터를 직접 돌리는 작업은 필수적이다. 경제학에서 쓰이는 통계학을 경제통계학(Statistics for Economics / Economic statistics) 혹은 계량경제학(Econometrics)이라고 부른다.

3.2. 자연과학과 공학

품질, 복잡계, 카오스 이론, 네트워크 이론, 머신러닝, 빅 데이터 등의 용어가 사용된다면 통계학과 연관된 분야다. 현대 자연과학은 정적인 연구주제가 고갈되었기 때문에 동적이고 예측불가능한 연구주제를 파고있다. 이런 문제들을 해결하기 위해 쓰이는 도구가 바로 통계학이다. 현대 자연과학은 전통적인 실험에서 벗어나, 통계학으로 대량의 데이터를 분석해 근사치를 구한 뒤, 이것을 수학적으로 추론하는 방식을 취한다.

3.3. 의학, 약학

의학 약학 연구에서 사용된다. 그밖에 예방의학, 공중보건학에서 전염병을 조사할 때 사용한다.

3.4. 수학


통계학과 수학이 같은 분야이냐 아니냐에 대해선 많은 논쟁이 있었다.

통계학의 학문적 독립성을 역설했던 Moore는 “통계학은 수학이 아니라 경험과학에서 비롯된 수리과학”으로 규정하였다. 동시에 다음과 같은 근거를 제시한 바 있다.

대개 학문적 독립성은 연구 대상, 연구 내용, 연구 방법에 의해 설명된다 [18, p. 495]. 통계학은 불확실성을 내포한 경험적 자료(data)가 연구 대상이며 연구 내용은 맥락에 의존하는 경험과학의 성격을 띠고 있다. 반면, 수학은 수학 그 자체가 연구 대상이자 동시에 연구 방법인 형식과학이다.

반면 이안 해킹은 통계학의 논리적 확률론적 기반을 마련하면서 다른 결론을 내렸다. 그는 1960년대에 Logic of Statistical Inference (1965)를, 그리고 70년대에는 The Emergence of Probability (1975)를, 이어 90년대에는 The Taming of Chance (1990)를 낸 바 있다. 또한 그는 확률과 귀납 논리에 대한 책(Hacking, 2001)을 내는 등, 과학철학과 과학사 양쪽을 넘나들며 통계학과 확률을 지속적으로 연구해왔다. 해킹의 화두는 모든 일에는 그 일을 일어나게 할 수밖에 없는 조건들이 미리 존재하기 마련이라는 ‘결정론’(determinism)이다. 그 중에서도 그는 모든 물리적인 일들의 미래를 결정해주는 법칙이 존재한다는 물리법칙적 결정론(physical-law determinism)과 확률의 관계를 주목하였다. 즉, 그의 관점에서 통계는 확률을 도출해내는 방법으로, 수학의 연장이다.

각 대학의 수학과 학부 교육과정에서는 '수리통계학'이나 그와 비슷한 이름의 한 학기, 또는 두 학기에 걸친 전공과목이 개설된다. 이 과목은 학교에서 전공선택으로만 정해놨다면 아예 안 듣고 졸업하는 것도 가능은 하지만, 수학과 외의 이공계열이나 상경계열 대학원 진학, 구직활동, 하다못해 중등교원 임용시험을 준비하더라도 수학과 나와서 수학으로 먹고 살 것을 염두에 뒀다면 반드시 들어야 하는 과목이다. 생계필수 수학 전공 커리큘럼에서 수리통계학은 미분방정식과 마찬가지로 각종 응용수학의 기본이 되는 과목이므로 수리통계학을 아예 안 듣는다면 수학과 졸업 후 운신의 폭이 상당히 좁아지기에 어쩔 수 없다. 이공계열 학생이라면 1학년~2학년 때 한번쯤 듣게끔 정해놓는 기초통계학 과목과 유사하다 볼 수도 있지만, 미적분과 선형대수, 더러는 해석학에서 다루는 테크닉까지도 다양하게 동원해가며 보다 깊이 있고 엄밀한 내용으로 수업이 진행되므로 이들 선수과목을 이수한 후 들어야 한다.

일부 대학의 통계학과는 수학과와 함께 신입생을 모집하거나 학부 전체를 아예 통합하여 운영하기도 한다. 운영상으로 분리되어 있어도 상술한 수리통계학과 그 선수과목 등 일부 과목은 함께 듣게끔 커리큘럼이 짜여있을 수도 있다.

통계학은 수학을 아예 안 쓰면 성립이 안 될 정도로 수학을 중요하게 쓰는 학문이다. 그리고 인공지능에서 통계학을 쓰므로 통계학의 중요성은 날로 더 커지고 있다. [5]

4. 세부 분야

수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 응용통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.

4.1. 기초 분야

아래의 분야들은 어느 대학을 가든 '통계이론', '응용통계' 등의 이름으로 묶여 학부의 경우 전공 필수로 지정되고, 대학원의 경우 1년차에 수강을 마치는 것이 필수로 되어 있는 경우가 대부분이다. 이후 각론으로 들어가기 위한 기초를 공부한다.

4.2. 데이터의 형태에 따른 각론

다루게 되는 데이터의 형태에 따라, 여기에 접근하기 위한 이론적 관점이나 통계적 기법 등이 달라지게 된다.

4.3. 기타 각론

5. 수험과목으로서의 통계학

6. 관련 저널

4대 저널로는 JASA(Journal of the American Statistical Association), JRSSB(Journal of the Royal Statistical Society: Series B), Biometrika, The Annals of Statistics이 있다.

7. 통계 소프트웨어(데이터분석)

파일:top10-analytics-data-science-software-2016.jpg 파일:top-analytics-data-science-machine-learning-software-2015-2017.jpg

8. 각종 오해와 통념들

이 문서는
이 문단은
토론을 통해 사측의 판단에 따라 편견 및 고정관념/과학 문서의 기여내용을 관련문서로 이동시키고 삭제하기로 합의되었습니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
아래 토론들로 합의된 편집방침이 적용됩니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
[ 내용 펼치기 · 접기 ]
||<table width=100%><table bordercolor=#ffffff,#1f2023><bgcolor=#ffffff,#1f2023><(> 토론 - 사측의 판단에 따라 편견 및 고정관념/과학 문서의 기여내용을 관련문서로 이동시키고 삭제하기
토론 - 합의사항2
토론 - 합의사항3
토론 - 합의사항4
토론 - 합의사항5
토론 - 합의사항6
토론 - 합의사항7
토론 - 합의사항8
토론 - 합의사항9
토론 - 합의사항10
토론 - 합의사항11
토론 - 합의사항12
토론 - 합의사항13
토론 - 합의사항14
토론 - 합의사항15
토론 - 합의사항16
토론 - 합의사항17
토론 - 합의사항18
토론 - 합의사항19
토론 - 합의사항20
토론 - 합의사항21
토론 - 합의사항22
토론 - 합의사항23
토론 - 합의사항24
토론 - 합의사항25
토론 - 합의사항26
토론 - 합의사항27
토론 - 합의사항28
토론 - 합의사항29
토론 - 합의사항30
토론 - 합의사항31
토론 - 합의사항32
토론 - 합의사항33
토론 - 합의사항34
토론 - 합의사항35
토론 - 합의사항36
토론 - 합의사항37
토론 - 합의사항38
토론 - 합의사항39
토론 - 합의사항40
토론 - 합의사항41
토론 - 합의사항42
토론 - 합의사항43
토론 - 합의사항44
토론 - 합의사항45
토론 - 합의사항46
토론 - 합의사항47
토론 - 합의사항48
토론 - 합의사항49
토론 - 합의사항50
||


여담으로 이 유명 어록은 마크 트웨인이 벤저민 디즈레일리의 말을 인용한 것이다. 그러나 벤저민 디즈레일리의 어떤 저술에도 이런 말을 했다는 증거는 존재하지 않기에 이 문구는 역설적이게도 자기자신조차 거짓말일 수도 있다.



파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는
문서의 r576
, 번 문단
에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r576 ( 이전 역사)
문서의 r ( 이전 역사)

9. 통계학의 주요 인물

10. 관련사이트

11. 관련 문서



[1] 그냥 그래프 몇개 있는 것처럼 보이지만 자세히보면 시계열 정보부터 시작해 막대 그래프로 표현된 다변량 정보, 확률과정, 격자무늬로 표현된 패널데이터가 있다. [2] 따라서 적어도 학부 수준의 수학을 아예 모르면 통계학을 제대로 배울 수 없다. 또한 때로는 통계학이 수학보다 응용 범위, 분야가 더 폭넓기도 하다. [3] 한국대학 인문사회계열에 진학하면 통계기법을 배우는 모습을 쉽게 볼 수 있다. [4] 주로 미시경제학, 그 중에서도 게임이론과 같은 통계와 직접 관계없는 연역 모델링을 하는 사람들이 여기에 해당한다. 물론 이것도 데이터를 돌리지만 않는 것이지 확률의 개념은 거의 모든 미시이론에 들어가 있으며, 같은 미시라도 응용성이 조금만 가미되면 현실의 데이터를 무조건 들여다봐야 한다. [5] 통계학에서 수학을 안 쓰겠다는 것은 물리학에서 수학 1도 없이 이론 전개 하겠다는 것과 비슷한 맥락이다. [6] 서울대학교 통계학과 홈페이지 [7] 사전에 알고 있는 정보를 사전분포라는 이름으로 분석에 활용하기 때문에, 아무런 자료가 없는 경우에는 자료를 분석하는 사람이 생각하는 '주관적 확률' 역시도 필요한 경우에는 분석에 포함시킬 수 있다. 물론 이런 경우는 있을 수 있는 모든 경우의 수에 대해 동일하거나 아주 미세한 차이만 있는 사전분포를 사용하여, 모든 가능성이 동등하게 고려될 수 있도록 한다. 만약 특정한 경향성을 가지고 있는 '주관적 확률'을 사용하고자 한다면, 여기에 대해서 정당화를 할 수 있어야 한다. [8] https://en.wikipedia.org/wiki/Algebraic_statistics [9] https://en.wikipedia.org/wiki/Information_geometry [10] 입자물리학자들이 쓰는 다양한 기계학습 방식을 간편하게 쓸 수 있는 라이브러리이다. [11] 이 맥락에서 정반대로 "통계학을 모르는 사람은 고등교육을 받은 사람이 아니다" 라는 어록도 있다. [12] 극명한 사례를 들자면, 대한민국의 양성평등 순위는 세계에서 몇 등일까? 세계경제포럼(WEF)에 따르면 우리나라는 2013년 기준으로 136개국 중 111위로 최하위권이다. 그런데 유엔개발계획(UNDP)의 성불평등지수(GII)에 따르면 우리나라는 2011년 기준 146개국 중 11위로 최상위권에 속한다! 이렇게 엄청난 차이가 나타나는 것도 가능하다. #관련기사 [13] 위 고정관념의 표현이 애매한 것 같아 원문을 옮긴다. "VERY COMMON ERROR : The confidence interval IS NOT the probability that the population mean lies within the interval."

분류