p-해킹

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 · 자료 시각화		도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 연구부정행위인가?3. 상세4. p-값 강화 움직임5. 관련 문서6. 외부 링크

1. 개요

p-hacking / data seeking / statistical significance seeking

논문을 작성함에 있어서 널리 사용되는 통계적 방법 중 하나인 유의확률 p-값(p-value)에 관련된 관행.

통계학에서는 틀렸다고 기각할 영 가설(null hypothesis)과 맞았다고 검증하고 싶은 대립 가설(alternative hypothesis)의 쌍을 만들어놓고 영 가설이 틀렸음을 검증해보인다.

영가설이 맞다고 가정할 경우 관측된 데이터 이상으로 극단적인 데이터가 관측될 확률이 p값이다. p값은 0~1 사이의 값이며 그 값이 작을수록 영가설과 데이터가 불일치한다고 생각하면 된다. 즉, p값이 작을수록 데이터가 영가설을 반박한다는 것으로 해석할 수 있다. 사이언스온: ‘통계적으로 유의미한 결과’는 얼마나 유의미할까 2016. 05. 20.

주어진 신뢰 수준에서 영 가설을 기각하고 대립가설을 채택하기 위해 연구자들은 손쉽게 p-값을 사용한다. 물론 주지하듯이 95% 신뢰수준일 때 p-값은 0.05 이하여야 하고, 99% 신뢰수준일 때는 0.01 이하여야만 한다. 영가설을 기각하기 위한 문턱값을 결정하는 신뢰수준 및 이에 상응하는 유의수준은 연구 디자인 단계에서 사전에 결정되어야 하며, 만일 분석 결과 그 문턱값(=유의수준) 이상의 p-값이 나온다면 영 가설을 기각해서는 안 된다는 결론을 도출해야 한다.[1] 연구자가 확신할 수 있을 만큼 강고한 p-값이 나타나면 애스터리스크 기호 *나 ∗를 붙여 표시하기도 한다.

여기서 우리의 데이터는 종종 우리의 기대를 저버리기도 한다. 아예 확실하게 p-값이 엉망으로 나오면 아예 단념하고 말면 끝인데, 이게 아슬아슬하게 살짝 걸릴 것 같은 수치로 나온다는 점이다. 그러면 연구자들은 저도 모르게 p-값을 슬쩍 조작하려는 동기를 갖게 된다. 무슨 말인고 하니, 표본 측정값 중에서 일부 아웃라이어들을 살리거나 버리는 등의 방식을 통해서 그 통계적 정보가 더 선명하게 드러나게 만드는 것이다. 그렇게 해서 p-값이 간신히 0.05 값에 턱걸이를 하면 비로소 안심하고 출판한다. 이것이 바로 p-해킹의 전말.

예컨대 90건의 관측값을 갖고 있다면, 그 중에서 대략 15건 정도를 버리고( = 파일 서랍장에 숨겨놓고) 나머지 75건만 가지고 마치 처음부터 75건의 관측만을 한 것마냥 발표하면 되기 때문이다. 이런 표본이 실제로 표본 표집에 따라서는 우연히 만들어질 수 있다는 사실 때문에 더욱 골치아픈 문제인 것이 바로 p-해킹이다. 이러한 성격 때문에 p-해킹은 종종 파일 서랍장 문제(file drawer problem)라고도 불린다. 최초로 이 표현이 제안된 것은 1979년의 일(Rosenthal, 1979.)이나, p-값에 대한 불신이 연구자들 사이에 싹트면서 갑자기 인기몰이 중.

2. 연구부정행위인가?

이것이 연구부정행위라고 주장하는 경우, 데이터를 버리는 행위 자체가 직관적으로 연구부정행위에 속한다고 판단한다. 대부분의 경우 p-해킹은 소수의 특수한 케이스를 버림으로써 이루어지며, 이 경우 연구부정행위로 인식하기 어려울 수 있지만, 만일 그 숫자를 키워서 생각하면 판단이 달라진다는 것이다. 예컨대, 환자 1만 명에게 신약을 투여해서 7천 명에게는 아무 효과가 없었고, 3천 명에게만 효과가 있었다고 하자. 효과가 없는 환자의 데이터 중 4천 건을 버려서, 총 6천 명에게 투여해서 50%의 환자에게 효과가 있었다고 발표하는 것은 누구라도 연구부정행위라고 인식한다는 것이다.

하지만, 이것이 도의적으로 연구윤리에 위배된다고 판단할지라도, 미국 학계 지침(속칭 FFP rule)이나 교육부 훈령에 비추어볼 때 연구부정행위의 한 종류로 판단하기 어렵다고 주장할 수도 있다. 기존의 가장 광범위한 연구부정행위의 범주는 1) 없는 데이터를 만들거나, 2) 있는 데이터를 고치거나, 3) 남의 데이터나 생각을 자신의 것이라고 속이는 것이다. 이미 갖고 있던 데이터를 버리는 것은 이 중에 속하지 않는다. 하단에 다시 설명되겠지만, 학계에서도 아직까지는 p-해킹에 대해서 "의심스럽다"(questionable)는 표현으로 그치고 있을 따름이다.

데이터 폐기는 정상적이고 양심적인 연구 과정에서도 종종 스크리닝(screening)이라는 이름으로 실시되기도 한다. 특히 소표본일 때 저질의 반응 세트(response set)가 존재하는 설문지는 그냥 버릴 것이 권장될 정도. 예컨대 모든 질문 문항에 대해 전부 "매우 그렇다" 에만 응답하는 경우. 소년원학교나 청소년 보호시설, 교도소 등에서 수행하는 질문지 연구에서 이런 식의 무책임한 응답은 거의 일상이다.

따라서 일반적으로 p-해킹이 문제가 있다고 누구나 생각하게 되는 이유는 결국 그 작위성과 고의성에 있다고 생각해도 될 것이다. 일반적인 스크리닝 절차는 자신의 연구결과에 대한 설득력을 높이고 영가설을 기각하지 못하는 상황을 회피하지 않으려는 반면, p-해킹은 출판 가능성(publishability)을 높이기 위하여 영가설을 기각할 수 있도록 고의적으로 자신이 원하는 표본을 구성하기 때문이다. 이는 동료 연구자들에 대한 기만 행위이며, 해당 연구를 가지고 후속연구를 진행할 후학들에게도 큰 민폐가 된다. 따라서 연구자들은 이것이 비록 법적으로나 관행적으로나 연구부정행위에 해당하지 않더라도, 연구부정행위에 준하는 연구윤리의 중대한 위반이라는 것을 인식하고 경각심을 갖는 것이 바람직하다.

구분을 위해 간략한 기준을 나무위키에 한정하여 제시하자면, 만일 저널의 리뷰어들이 자기 등 뒤에 서서 자신이 데이터를 솎아내는 모습을 전부 지켜보았다고 가정했을 때, 그들에게 당당하게 스스로를 디펜스할 말을 못한다면, p-해킹이라고 생각해도 되겠다.

3. 상세

심하게 말하면 p-해킹은 연구자들 사이에 은연중에 퍼져 있는 공공연한 비밀이라고도 하지만, 더 조심스럽게 말하자면 그 정확한 실태를 파악하기가 극히 곤란하다는 것이 문제이다. 쉽게 말해, p-해킹이 의심된다고 하더라도 심증은 있는데 물증이 없는 경우가 태반이다. 게다가 일단 p-해킹을 지적했다고 하더라도, 연구자가 만일 정말로 무고하다면 이를 방어하기도 마땅치 않다. 그래서 의심스러운 연구에 대해서 아주 연구부정행위라고 몰아붙이지는 않고, 대신 의심스러운 연구활동(QRP; questionable research practice)이라는 딱지를 붙이는 데서 그칠 뿐이다. 일단 어느 학술통계 관련 블로그(영어)에서는 "자신의 연구를 섣불리 정당화하려 하지 마라. 사전에 신뢰수준을 선정했다는 것을 논증하거나, 결과수치가 강고(robust)함을 보여주거나, 재현성이 존재함을 증명하거나 해라. 만일 이 세 가지가 불가능하다면, 당신을 저격한 사람에게 술이나 사 주어라. 그가 제대로 봤을 테니까." 라고 제안한 적이 있다.(…)

p-해킹이 문제가 되자 학술계에서도 대응 방법을 찾기 위해 고심중이다. 일례로 p-곡선(p-curve)이라고 하여 x축으로는 유의확률을, y축으로는 문헌의 출판 수를 의미하는 분포표를 그려볼 수 있는데, 이렇게 하면 유독 p=0.05 근방에서는 출판된 문헌의 수가 하늘을 치솟을 정도로 높은 막대기가 그려지는 경우가 많다. 구체성은 없지만, 적어도 학계에 p-해킹이 만연해 있을 수 있다는 경고 메시지 정도로서는 괜찮은 측정 방법인지도. 과학자사회가 미숙한 국가의 학자들일수록 p-해킹의 유혹에도 취약하고 실제로 그러한 경향이 있을 수 있다는 우려도 나오는 상황인데, p-해킹 자체가 원래 연구윤리의 클래식한 범주에는 들지 않지만 어쨌건 도의적인 측면에서는 관계가 있기 때문이다.

학계에서 활용하는 또 다른 암묵적인 (그리고 원론적으로 잘못된) 방법은, p>0.05 라고 하더라도 그 값이 0.07 미만 정도로 나온다면 조심스럽게 논문에서 언급해 보는 것이다. 논문에서 이러한 결과가 언급될 경우 대개 'marginally significant', 'approaching significance' 등의 '유의성에 가까움'을 어필하는 우회적인 표현이 사용된다. 물론 이걸 가지고 논의(discussion) 단락에서 자기 가설을 채택하거나 할 정도로 확신에 차서 주장할 수는 없지만, 다양한 가설들 중에 한 개 정도가 이 정도에서 아슬아슬하게 걸리게 된다면 "요건 제가 예측한 패턴대로 나오긴 했는데 애매하게 딱 0.056 정도에 걸렸네요~" 같은 식으로 한 문장 정도 덧붙이는 식이다. 물론 자기 핵심 가설이나 유일한 가설이 이렇게 나온다면 이건 정말 짤없이 게재 거절이 될테고 그 연구는 그냥 접어야 한다. 그리고 통계학적으로는 영가설검정의 결과는 p값이 유의수준 미만인가(영가설 기각) 그렇지 않은가(기각 실패)라는 이분법적 해석만 가능하고 p값의 크기에 따라 단계적으로 해석될 수 있는 것이 아니며[2], 유의수준을 바꾸는 것은 사전에 정해야 하는 결과 유효성의 판단 기준을 사후에 (대개는 느슨한 방향으로) 변경하겠다는 의미를 함축하므로, 원칙적으로도 이런 방식의 해석은 해서는 안 된다.

사실 통계학자들 사이에서 p-값 자체는 꽤 예전부터 애증의 대상이었다. 그것이 갖는 통계적 함의에는 관심도 없이, 단순히 "내 연구가 출판될 수 있느냐 없느냐" 의 YES/NO 여부만을 판가름하는 숫자로만 여겨지는 현실에 개탄하는 것도 하루 이틀 일이 아니었던 것이다. 특히 1994년에는 제이콥 코헨(J.Cohen)이라는 심리학자가 《American Psychologist》 저널에 〈 The Earth Is Round ( p < .05 ) 〉 (…)라는 골때리는 제목의 논문을 써서 유명해지기도 했다. 출처 실제로 심리학은 연구방법론 깐깐하기로는 의학의 뒤를 잇는 학문이다. 나무위키에 등재된 다른 다양한 연구방법론 관련 문서들도 심리학자들이 공헌한 바가 어마어마하다.

특히 2010년대에 들어서면서는 p-값만으로 연구의 흐름이 좌우되는 세태를 고발하는 논문들이 분야를 가리지 않고 방법론, 측정, 평가, 실험설계 관련 저널들에서 봇물 터지듯 쏟아져 나왔으며, 그 중 가장 유명한 것이 "Simmons, Nelson, & Simonsohn(2011)"이다.

미국통계학회(ASA)에서는 아예 p-값의 오남용을 경계할 것을 당부하는 성명서를 발표하기도 했다. #

소수지만 Basic and Applied Social Psychology (BASP) 등 일부 저널은 실제로 격렬한 반대를 무릅쓰고 "우리 저널은 p-값 데이터 들어간 논문은 읽어보지도 않고 리젝할 거임" 을 선언하기도 했다고(…). 사이언스온: ‘가설검정’ P값, 더 이상 전가의 보도 아니다 2016. 09. 08. Psychology journal bans P values : Nature News & Comment (26 February 2015) #한국심리학회 웹진 관련기고 단 BASP의 경우 뒷말이 많았는지, 적어도 2023년 기준으로는 p-값이 들어간 원고도 정상적으로 접수하고 있으며 사전 탈락을 시키지는 않고 있다.

4. p-값 강화 움직임

흔히 p-value가 0.05 이하면 가설이 틀릴 가능성이 낮다고 보고 논문을 출판했으나, 0.005로 기준을 높여야 한다는 주장이 근래에 많이 나오고 있다. [바이오토픽] 유명 통계학자들, '논란 많은 P값'의 대대적 개혁 요구 2017-07-28 문제는 이렇게 한다고 해서 마냥 이 논란이 잠잠해지지도 않는다는 것. 이 경우 도리어 방법론 연구자들이 가장 극렬하게 반발한다. 실제로 국내의 한국심리학회 학술대회에서도 p-값을 강화하자는 주장을 소개하면서 문제가 많은 주장이라고 비판하는 경우도 있었다. 실험설계 및 사회연구 자체의 특성상, 출판 기준을 그렇게 높여 버리면 오히려 영가설을 기각해야 하는데 기각하지 못하는 새로운 통계적 오류가 발생한다는 것이며, 사회과학은 그 오류를 줄일 수 있는 연구주제가 아니라는 것이다. 또한 사회과학의 통계는 반드시 실증을 최우선하기보다는 기존 문헌과의 실질적인(substantive)[3] 연관성을 함께 고려해야 하므로 항상 통계적 엄격함을 견지하는 게 힘들다. 그렇기 때문에 이런 논의는 오히려 자연과학 연구자들에게 좀 더 생산적인 효과를 내고 있으며, 사회과학자들은 입맛만 다시고 있는 중이다(…).

p-value에 대한 맹신이 문제가 되는 것은 연구자들이 p-value에 의존해서 영가설의 기각을 너무 쉽게 하기 때문에 발생하기도 하지만, 영가설을 너무 쉽게 받아들이기 때문에도 발생한다. p-value 자체는 통계적 분석결과 계수나 차이의 크기가 통계적으로 유의한 수준으로 0이 아닌지를 보여주는 것일 뿐이다. 예컨대 어떤 연구에서 종속변수에 유의한 영향력을 미칠 것이라고 예측한 독립변수의 계수가 0.05보다 약간 높은 0.051의 p-value 를 얻었다고 해서 그 연구가 무가치한 것이 아니다. 반대로, 독립변수의 계수의 p-value가 0.0000001이라고 해서 더 우월한 연구결과라고 단언할 수도 없다. 전자의 경우에서 만일 해당 독립변수가 기존 연구에서 검증되었던 것과는 전혀 다른 상관관계를 나타내고 있다면 0.051의 p-value라고 하더라도 중요한 의미를 가질 수 있다. 반대로, p-value는 0.00001이지만 그러한 p-value를 갖는 독립변수의 종속변수에 대한 효과가 매우 미미한 수준에 그친다면 (분야에 따라 다르겠지만) 그것이 아주 유의한 연구결과라고 보기도 어렵다. 통계적으로만 유의한 영향력을 미칠 뿐 실질적으로는 아무런 영향력이 없을 수 있기 때문이다. 게다가 p-value가 산출되는 식을 보면, 관측수(number of observations)이 커질수록 p-value는 작아질 수밖에 없다(물론 효과 크기가 커져도 p-value는 작아진다).[4] 가끔 수십만 건의 관측수를 가진 연구에서 0.000의 p-value가 나와도 계수의 크기가 0.0000001인 경우도 볼 수 있다. 이 경우, 그 독립변인의 '유의함'을 단언할 수 있는가? 중요한 것은 연구자가 제시한 분석모형을 이끌어낸 이론의 참신함과 혁신성이고, 계수의 방향과 영향력의 크기다. 상술한 것처럼 p-value가 연구의 '실질적인 유의함'을 가리는데 유용하기는 하지만 충분히 좋은 수단은 아니기 때문에 오직 p-value만을 가설검증에 활용하는 것에 대하여 문제가 제기되는 것이며, 그 대안으로 계수의 영향력이나, 모델이 예측하는 독립변수의 변화에 따른 종속변수 값의 변화(즉 한계효과)를 그래프로 제시하고 이론적, 실질적 의미를 글로 충실히 설명하는 것을 권장하는 것이다. 어디까지나 중요한 것은 통계적으로 유의하다(significant) 또는 유의하지 않다고 해놓고 연구를 종결하는 것이 아니라 자신의 이론에서 핵심이라고 생각한 인과관계를 이론적, 실질적인 의미를 담아서 유의미하게(meaningfully) 잘 설명하는 데 있다. 연구는 인간의 사회와 자연에 대한 이해를 넓히는 것이 목적이지 별을 띄우는 것이 목적이 아니다.

하지만 그렇다고 해서 p-값을 강화하자는 주장이 이상주의자들의 비현실적인 제안이라고 무작정 생각하는 것도 곤란하다. 사실 분산의 관점에서 연구 데이터를 자세히 뜯어보면 p=.05 기준은 너무하다 싶을 정도로 널널한(?) 기준이라고 보일 정도이다. 이 기준에 아슬아슬하게 걸치는 연구의 경우, 해당 독립 변인을 통해 설명될 수 있는 분산은 총분산에 비추어 보면 정말 보잘것없는 정도이고, 여전히 어마어마하게 많은 분산이 설명되지 못한 채로 남겨지는 걸 볼 수 있다. 확률적으로 보더라도 0.05라면 50:50 동전을 4~5번 던질 때 모두 앞면이 나오는 정도의 확률이다. 실제로 난수를 생성해서 동전던지기를 시뮬레이션해보면 이게 꽤 널널한 기준임을 알 수 있을 것이다. 결국 핵심 가설들이 이 지경으로 나오게 된다면, 학계에서 출판은 해 준다지만 어쨌든 어디 내놓기 민망할 만큼 초라한 연구라는 점은 염두에 두어야 하는 것이다.

5. 관련 문서

6. 외부 링크

Veritasium 영상(영어): 본문의 p-해킹 및 재현성, 연구투명성, 자기교정성, 초능력 논문 게재 사건까지 한방에 엮어서 설명하고 있다.

[1] 영가설을 "채택한다" 는 표현은 쓸 수 없다. 확실히 아니라고는 못하는 것 뿐이기 때문. [2] 정 이런 방식의 단계적인 해석을 하고 싶다면 p-값이 아니라 효과 크기(effect size)나 베이즈 통계학에서의 베이즈 요인(Bayes factor) 등을 이용해야 한다. 이런 지표들은 애당초 절차적으로 '기각 또는 실패' 등 이분법적으로만 해석되어야 한다는 전제를 깔고 만들어진 것이 아니기 때문. [3] 방법론 전공 사회과학자들이 이 영어단어를 사용하면 머릿속에서 conceptual basis를 의미하는 것이라고 바꾸어 받아들이면 된다. 전형적인 전문가들 사이의 은어(?) 중 하나. [4] 그래서 누군가의 연구발표에서 애스터리스크가 숱하게 띄워지고 있으면 많은 연구자들은 직감적으로 N수의 크기부터 확인한다. 큰 표본에서는 p-값이 과소추정되기 때문에 이때 연구자들은 p-값을 무시하고 (비)표준화 베타 또는 F-값, z-값, t-값 등의 여러 기존 통계량들에 주의를 기울인다.