통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
xkcd 1701화 [1] |
1. 개요
異 常 點 / outlier이상치(또는 이상점) 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다.
2. 소개
이상치는 여러가지 정의로 나뉘게 되는데, 각각 통계적 이상치, 시각적 이상치, 도메인 지식에 의한 이상치로 말이다.통계적 이상치는 말 그대로 통계적 기법을 사용하여 데이터를 분석할 때, 특정 관측값이 통계적으로 유의미한 패턴에서 벗어나는 경우 이상치로 간주한다. 보통 이상치라 하면 이런 통계적 이상치를 의미하고 시각적 이상치와 밀접한 관련이 있다.
이어서 시각적 이상치는 말 그대로 데이터를 시각적으로 표현해 다른 데이터 포인트와 현저히 다른 점을 눈으로 확인할 수 있는 경우를 말한다. 보통 시각적 이상치를 표현할 땐 boxplot, 산점도, 히스토그램 등을 사용한다.
특히 상자도표(boxplot)은 이상치를 직관적으로 표현해주는 유용한 툴인데, 상(하)사분위수로부터 1.5×IQR[2]만큼 떨어진 거리보다 더 먼 곳에서 발견되는 관측값으로 정의할 수 있다.
도메인 지식에 의한 이상치는 특정 분야의 전문 지식을 활용하여 식별된 이상치를 뜻하는데, 의료 분야로 쉽게 예를 들면, 어떤 환자의 특정 질병 진단을 위해 혈압, 혈당 수치 등을 분석할 때, 도메인 지식을 활용하여 이상치를 식별할 수 있게 되는데, 이게 시사하는 것이 특정 환자의 혈압 수치가 통계적으론 정상일순 있어도, 해당 환자의 병력이나 다른 증상과 비교했을 때 비정상적으로 간주될 수 있다. 그러니까 겉으로 보이는 것만 보면 안된단 것이다.
아웃라이어가 대체로 산점도(scatterplot)나 상자도표 같은 통계 데이터 시각자료에서 나타나기 때문에 이상점이라고도 불린다. 통계학 외에서는 특이점(特異點/singularity)이라는 다른 말을 쓴다.
예를 들어 산점도를 그린다고 가정해 보자. 좌표평면을 펼쳐 놓고 점을 마구 찍게 되면, 대체로 점들이 일정한 범위에 걸쳐서 모이게 되는 모습이 나타날 것이다. 그런데 그 중에는 여러분이 상당히 먼 바깥에 외따로 찍어놓은 점도 몇 개 있을 것이다. 이런 값은 전체 평균값을 크게 왜곡시킨다. 그러나 이렇게 뜬금없는 자리에 찍힌 점은 큰 통계적 의미는 없는 경우가 많지만 간혹 통계적으로 굉장히 중요하게 취급되는 경우도 있기는 있다. 특히 반례 사례를 찾는 경우 등. 따라서 아주 무시하고 넘길 수만도 없다.
그래서 데이터를 취급하는 과학자들은 이런 점들을 보통 아웃라이어라고 부르면서 별도로 관리한다. 이들만 데이터에서 체계적으로 배제하는 과정을 '절사(trim[3])한다.'고 표현한다.
이상치를 판단하기 위해 수많은 계산이 필요한데, 종속변수의 분포를 그려보면 판단하기가 아주 쉽다. 즉 히스토그램과 정규분포 곡선을 이용해서 종속변수의 정규성에 대한 개괄적인 판단이 가능하다. 여기서 주의할점은 잔차의 분포가 정규분포라고 가정해야 하기 때문에 진짜 판단을 잘하려면 잔차의 분포를 살펴야할지도 모른다.
3. 판별
이상치를 판별하는데 다양한 방법이 있는데, 보통 Z-score가 +3.0 이상, -3.0 이하인 경우나, 이상치로 의심되는 데이터의 표준 편차가 [math(x > \mu + 3\sigma)] or [math(x < \mu - 3\sigma)]인 경우가 그 예다.때문에 표준정규분포표도 일반적으론 3.0의 값 까지만 나오고 그 이후부턴 교과서 상에선 다루지 않는다.
4. 원인
이상치의 원인은 여러가지 이유로 발생하나, 보통 그 유형은 데이터 입력 오류, 측정 오류, 샘플링 오류, 자연적 변동 등으로 나타난다.데이터 입력 오류는 말 그대로 사람이 데이터를 입력할 때 실수로 잘못 입력하는 경우를 말하고, 측정 오류는 장비나 시스템 오류로 인해 잘못된 값이 기록되는 경우다.
다음은 샘플링 오류는 샘플링 과정에서 비정상적인 값이 포함되는 경우고, 자연적 변동은 실제 관찰 데이터 내에 자연스럽게 발생하는 변동이다. 특히 자연적 변동의 대표적인 예론 키가 200cm가 넘는 사람이나 삼각근 포함 어깨너비가 56.0cm를 넘는 경우가 그 예다.
5. 역사
이상치는 통계학이 발전함에 따라 자연스럽게 형성된 개념이다. 통계학의 초기 발달 단계인 19세기 후반, 통계학자들은 데이터를 분석할 때 특이값(특이점)에 눈독을 들였다. 이들이 데이터 해석에 있어 주요 골칫거리 중 하나이기 때문이다. 그래서 데이터의 분포와 특이점의 중요성이 인식되어서 여러가지 방법론들이 도안되었다.프랜시스 갤턴(Francis Galton)과 카를 피어슨(Karl Pearson)이 대표적으로 이상치 해석의 기초를 마련한 인물들로, 그들의 연구에서 데이터의 이상치의 해석법이 언급됐다. 특히, 피어슨은 데이터 분포와 관련된 개념을 연구하면서, 특이값의 영향을 분석하기 위한 방법론을 개발했다. IQR, boxplot, 로버스트 회귀 등이 그 예다.
이후 존 튜키(John Tukey)는 1977년에 출판된 "탐색적 데이터 분석(Exploratory Data Analysis)", 즉 EDA에서 데이터 분석 과정에서 이상치의 중요성을 강조했는데, 이상치를 시각화하고 탐색하기 위한 다양한 도구와 기법을 개발했다. 이는 오늘날 이상치 분석의 기초가 되었는데, 상술한 박스플롯(Box Plot)과 같은 시각화 도구는 이상치를 쉽게 식별할 수 있도록 도와줌으로써 오늘날 이상치의 해석 방법론들이 마련되었다.
6. 사용
통계, 수학 등에서 사용한다.통계의 사용이 늘고 있는 스포츠에서도 이 용어를 가져와서 쓰기도 한다. 대부분 특정 선수가 일반적인 수준을 한참 뛰어넘을 때 쓴다. 한참 뒤떨어지는 선수를 뜻하지는 않는 게 보통이다.
e스포츠 대회인 2022 롤드컵을 앞두고 한 네티즌이 조사한 아웃라이어 지표가 주목을 받기도 했다.
이 극단값을 고려하지 않고 능력을 평균으로 해달라고 하고 환생했다가 고생하는 저, 능력은 평균치로 해달라고 말했잖아요! 라는 제목의 라노벨도 있다.
7. 관련 문서
[1]
NASCAR 나 포뮬러 원은 일반적으로 아주 빠르고, 아주 위험한 스포츠로 인식되지만 '로켓 발사'라는 특이값을 추가하면 아주 느리고, 위험하지 않은 스포츠로 착각할 수 있다. 로켓 발사라는 값이 전체 평균을 왜곡한 것이다.
[2]
사분위간 범위(interquartile range)의 약자로, 자료의 중앙부 50%에 해당하는 범위를 의미한다. 통계적으로는 하사분위수에서 상사분위수를 뺀 값으로 정의된다.
[3]
그래서
엑셀에서 관련 함수가 trim과 trimmean인 것이다.