표본조사

미국의 저격 소총에 대한 내용은 스텔스 리콘 스카웃 문서 참고하십시오.

성전환 수술의 영어 약자에 대한 내용은 성전환 수술 문서 참고하십시오.

1. 개요2. 표본조사의 필요성

2.1. 가상의 사례 12.2. 가상의 사례 2

3. 자료의 측정 수준4. 표본추출

4.1. 확률 표본추출법

4.1.1. 단순 무작위 추출법4.1.2. 체계적 추출법4.1.3. 군집 추출법 (집락 추출법)4.1.4. 층화 추출법

4.2. 비확률 표본추출법

4.2.1. 편의 추출법4.2.2. 판단 추출법 (유의 추출법)4.2.3. 할당 추출법4.2.4. 눈덩이 추출법

4.3. 표집틀4.4. 표본크기의 결정

5. 부록: 부족한 표본 수 추가하기6. 관련 문서7. 외부 링크8. 둘러보기

1. 개요

標本調査 / Sampling

사회과학의 연구에서, 연구의 주제가 되는 전체 모집단(population)의 일부를 일정한 방법에 따라 표본(sample)으로 추출하여 이들을 통해 얻은 정보를 바탕으로 모집단을 추정하는 추론 통계학적 방식. 그 의미상 표본조사는 흔히 센서스로 잘 알려진 전수 조사(complete observation)와 구분되는데, 전수조사는 연구의 주제가 되는 전체 모집단 개개의 단위들을 남김없이 조사하는 방법이다.

여기서 모집단이란 연구의 주제가 되는 전체 집단을 말하는데, 연구에 활용하기 좋을 만큼 그 수가 적을 수도 있긴 하지만, 대부분의 경우 모집단의 구성 단위 수는 어마어마하게 많아서 일개 연구자 수준에서는 연구의 엄두가 안 날 정도이다. 모집단의 대표적인 사례로는 대한민국 국민이 있다. 모집단은 다시 유한모집단과 무한모집단으로 나누어지는데, 모집단에 어떤 구성단위가 속하는 기준을 명확히 밝히지 않는다면 무한모집단이 되고, 명확히 밝히면 유한모집단이 된다. 일반적으로 사회과학의 각종 연구들에서는 유한모집단을 연구의 주제로 하며, 위의 대한민국 국민의 경우도 유한모집단화하기 위해 "2015년 현재 대한민국 영토 내에 거주하는 대한민국 국적 소유자" 와 같은 식으로 엄밀하게 한정하는 정의를 하는 경우가 많다. 모집단으로부터 튀어나온 데이터는 따로 모수(parameter)라고 하며, 연구자가 최종적으로 추정하고자 하는 대상이기도 하다.

연구자들은 모집단을 고스란히 연구하지 않고 별도로 표본을 추출해서 모집단의 성질을 추정하는데, 이때 모집단의 부분집단으로서 추출된 표본을 표본집단(sample)이라고 한다. 표본 집단은 연구자가 다루기 용이할 만큼 적은 수에서 그 규모가 결정되는데, 대부분의 경우 통계학자들이 열심히 연구한 끝에 "몇 단위에서 표본의 규모를 정해야 할지" 에 대해 벌써 다 찾아서 공식으로 만들어 두었다. 물론 사회과학자들은 통계학자가 아니므로 "왜" 이만큼의 표본만 있으면 되는지 궁금해할 필요가 없다. 단지 통계학자들이 인증한 대로 표본을 뽑아서 연구하면 그걸로 끝일 뿐. 표본 집단으로부터 튀어나온 데이터는 따로 통계량(statistic)이라고 하며, 이 데이터를 통해 연구자는 모집단의 성질을 추정하게 된다. 어떤 이는 이에 대해서 "모수가 표적지라면, 통계량은 가늠자 속 표적지의 모습"이라고 비유하기도 했다.

물론 표본조사를 하게 되면 여러모로 골치아파진다. 이 표본이 모집단을 제대로 대표하고 있는 것인가? 만일 그렇지 못하다면 그 연구자가 수행한 모든 데이터는 전부 쓰레기통으로 직행하게 된다. 그 바닥에서 도는 명언처럼, 쓰레기를 집어넣으면 쓰레기가 나온다.(Garbage in, garbage out) 그렇기 때문에 연구자는 항상 표본을 선정하는 데 있는 힘을 다해서 심혈을 기울여야 한다. 물론 모집단의 성질과 완벽하게 동일한 표본집단을 찾는다는 건 수학적으로 불가능에 가깝기 때문에 아무리 잘 된 연구라도 통계량과 모수 사이에는 차이가 존재할 수밖에 없는데, 이를 가리켜서 표본 오차(sampling error)라고도 한다. 표준 오차(standard error)와는 절대로 같은 것이 아니다! 통계학을 배우는 사회과학도 학부생들이 흔히 헷갈리는 부분. 예를 들어 평균의 표본 오차는 μ-m 이라는 수식으로 간단히 표현할 수 있다.

사회조사분석사 2급 자격시험에서 주관식으로 빈출되는 주제이기도 하다

2. 표본조사의 필요성

그렇다면 왜 괜히 골치아프게 연구자들은 표본을 선정하는 괜한 수고를 하고 있는 것일까? 왜 모집단의 성질을 직접 규명할 생각은 하지 않고 표본집단을 통해 모집단을 추정할 뿐일까? 그것도 그나마 표본오차를 무릅써 가면서? 사실, 표본조사는 전수조사에 비해서 몇 가지 압도적인 장점들이 있다. 여기서는 부득이 학술적인 엄밀함은 완화하는 대신, 가볍게 설명할 수 있는 가상의 사례 두 가지를 들어서 설명해 보기로 한다.

2.1. 가상의 사례 1

① 상품 가치의 확인 등 조사의 대상이 판매 및 확산에 목적이 있는 경우.

혹시 휴지 포장비닐 겉면에 적힌 제품설명서를 읽어본 적이 있는가? 휴지 따위가 뭐 그리 설명할 게 많겠는가 싶기도 하지만, 그 중에 "파열강도"(bursting strength)라는 게 있다. 종이나 휴지 같은 재료에다 수직으로 압력을 가했을 때 얼마나 잘 버틸 수 있는지를 보여주는 것으로, 이것이 높으면 그만큼 질기고 튼튼한 휴지가 되지만, 이것이 낮으면 약간의 압력에도 버틸 수가 없다. 이제 여러분이 휴지 제조회사의 품질 관리자(QM)라고 가정하자. 여러분의 회사에서 만드는 휴지가 사내 기준 파열강도를 충족시키는지 확인해서 보고서를 올려야 한다. 자, 어떻게 하는 게 좋을까?

생산 라인에서 쏟아져 나오는 휴지들이 기준 파열강도를 충족하는지 확인하기 위해, 우선 전수조사를 염두에 둔다고 해 보자. 만약 전수조사를 하게 된다면, 공장에서 나오는 모든 휴지들을 전부 찢어봐야 할 것이다. 물론 여러분은 품질 관리자로서, 우리 회사의 휴지들이 모두 품질 기준에 합격한다는 보고서를 써서 만족스럽게 제출하게 되겠지만, 뒤늦게 현장에 나타난 공장장은 기껏 만든 모든 휴지가 전부 갈기갈기 찢어발겨져 있다는 사실에 경악할 것이다. 시장에 내다 팔 휴지가 없어지는 것이다. 새로 만들어 낸 것만 팔면 되지 않겠는가 싶지만, 그럼 새 휴지들의 파열강도는 또 어떻게 보장할 것인가? 결국 또 일일이 찢어봐야 한다.

다른 상품들에 대해서도 마찬가지다. 여러분의 회사가 통조림을 판매하고 있고, 여러분은 통조림에 이물질이 들어가 있지는 않은지 확인하는 위생 조사를 해야 한다고 가정해 보자. 전수조사를 하게 되면, 모든 통조림이 전부 따이게 되고, 소비자들에게 팔아치울 통조림은 없어지고 만다. 다른 예를 들어 보자. 여러분의 회사에서 자동차를 만들고 있고, 안전성 테스트를 위해 더미 인형을 넣고 모의 충돌 실험을 기획하고 있다고 가정해 보자. 이번에도 전수조사를 하게 되면, 그 회사가 팔아치울 자동차들은 전부 형편없이 찌그러진 고철 덩어리로 변해버리고 만다. 또 다른 예를 들자면, 여러분의 회사가 전구를 생산하고 있으며 전구의 평균 수명이 얼마나 될지 측정해야 한다고 할 경우, 전수조사를 했을 때 어떻게 될지는 이제 굳이 설명하지 않아도 될 것이다. 이러한 종류의 조사들을 가리켜서 "파괴 검사" 라고도 한다. 상품가치를 보장하기 위해 실시하는 검사를 하려면 부득이 상품가치를 포기해야 하는 것.

결국 여러분은 모든 상품들에 대한 전수조사를 포기하고, 무작위로 아무 상품들이나 일부 골라서 그것들을 대상으로 조사를 실시하여 데이터를 얻게 될 것이다. 조사에 필요한 상품의 수는 너무 많아서도 안 되지만, 너무 적어서도 안 된다. 그리고 조사결과로 얻은 데이터는 물론 모든 상품들의 가치를 온전히 보장하지는 못하지만, 어느 정도 선에서는 모든 상품들의 일반적인 가치를 추정해 볼 수 있게 한다. 바로 이것이 표본조사의 한 가지 묘미다. 이런 종류의 조사에 있어서 표본조사는 사실상 필수이다.

2.2. 가상의 사례 2

② 모집단의 수가 방대하여 전체적인 조사가 사실상 불가능한 경우.

여러분이 제2의 한국갤럽을 꿈꾸며 리서치 전문기관을 창립했다고 가정하자. 개업 후 처음으로 의뢰받은 일은, "학부모들이 인식하는 게임의 주관적 위험성" 에 대해서 설문조사를 통해 측정하여 발표하는 것이다. 여러분은 전화를 통한 설문조사를 하기로 결정했고, 이에 따라 설문 업무에 충분히 숙달된 면접원들을 채용 및 훈련해야 함도 알고 있다. 또한, 이 주제에 대해서 굉장히 많은 변인들이 개입할 수 있으며, 고객에게 가능한 한 정확한 데이터를 제공하는 것이 중요하다는 것도 인식하고 있다.

우선 이 주제를 조사하기 위해서 전수조사를 선택했다고 가정해 보자. 여기서 우리의 면접원들은 큰 위기에 봉착한다. 당장 대한민국에 학부모라고 불릴 만한 사람들은 천만 명 단위로 셀 수 있다. 그렇다면, 도대체 그들 모두에게 전화를 걸려면 면접원을 몇 명을 채용해야 할까? 열 명? 백 명? 아니면 천 명? 그들을 훈련시키는 시간과 비용은 또 얼마나 될까? 게다가 그 수많은 사람들을 일일이 추적해서 전화를 걸어야 하는데, 어떤 사람들은 전화가 집에 없을 수도 있고, 어떤 사람들은 장기 출타중일 수도 있으며, 어떤 부모들은 장애가 있어서 수어나 점자 등 다른 방법으로 설문조사를 해야 할지도 모른다. 이 모든 상황을 전부 고려하면 전수조사를 하기에는 모집단이 너무 커서 시간과 비용이 어마어마하다는 결론을 얻는다. 이건 그야말로 맨땅에 헤딩하기다.

그렇기 때문에, 어쩔 수 없이 많은 리서치 전문기관들은 통계적 절차를 따라서 일부 표본만을 제한적으로 뽑아서 그들을 대상으로 설문조사를 진행하고, 그들의 답변을 통해 전체 집단의 답변이 예상되는 범위를 대략적으로 추정해보게 된다. 예를 들면, 5천만 대한민국 국민의 의견을 얻기 위해 많은 기관들은 천 몇백 명 정도의 표본을 뽑아서 이를 통해 온 국민들의 반응을 플러스 마이너스 몇 퍼센트 정도 내에서 가늠해 보곤 한다. 모집단이 5천만인데 고작 그 정도 표본 가지고 괜찮겠냐고 생각할 수도 있겠지만, 다 방법이 있다. 전세계의 통계학자들이 빈둥빈둥 놀면서 연구비를 타서 챙긴 건 아니다.(…) 표본이 크면 비용과 시간이 감당할 수 없을 만큼 커지므로, 통계학적으로 확립된 수학적 지식에 기초하여 신뢰성을 담보할 수 있는 최소한의 표본 크기를 맞추는 것이다.

3. 자료의 측정 수준

자세한 내용은 측정 문서 참고하십시오.

4. 표본추출

표본표집, 표본선정이라고도 한다.

일단 전수조사보다 표본조사가 훨씬 현실적이고 합리적인 방법이라는 것은 알더라도, 남은 문제가 있다. 도대체 어떤 식으로 표본을 추출할 것인가? 그냥 어린아이들 방식처럼 "너, 너, 너, ..." 같은 식으로 지목하는 건 어떨까? 차후에 모집단 전체로 일반화(generalization)를 함에 있어서 잠재적인 위험성은 없을까? 대한민국 국민의 평균 키를 알고 싶어서 성인 남녀 100명을 추출했다고 가정하자. 하필이면 표본평균 값이 155cm로 나오는 바람에 대한민국이 난쟁이 나라로 판단될 위험은 없을까? 결국 문제는 연구자 본인부터가 이 표본을 얼마나 신뢰할 수 있는가로 환원된다. 따라서 표본조사의 핵심은 표본추출을 어떻게 할 것인가에 달려 있다고 해도 과언이 아니다.

이상적인 표본추출은 흔히 "독립성과 불편성" 이라는 조건을 만족해야 한다고도 알려져 있다. 연구자 입장에서 모집단의 구성단위들을 뽑을 때, 특정 구성단위들을 뽑을 확률이 모두 동일해야 한다. 즉, 연구자의 편향적 추출이 금지되어야 한다. 또한, 구성단위 입장에서 연구자에게 뽑힐 때, 각 구성단위들이 연구자에게 뽑힐 확률이 모두 동일해야 한다. 즉, 특정 구성단위가 연구에서 배제되는 것이 방지되어야 한다.

표본추출을 위한 방법으로는 두 가지가 있는데, 하나는 수학적으로 그 신뢰성이 보장된 방법인 확률 표본추출이고, 다른 하나는 그보다는 신뢰하기 힘든 방법인 비확률 표본추출이다. 당연하겠지만 전자가 후자에 비해 독립성과 불편성이 더 잘 보장되어 있다. 물론 진지한 연구자라면 자신의 연구의 신뢰성을 담보하기 위해 가급적 확률 표본추출을 쓰게 되겠지만, 언제나 세상은 시간과 예산이 지배하고, 또한 이러한 방법론적인 측면에 별 신경을 쓰지 않는 사람들도 표본추출 활동을 할 수 있기 때문에 비확률 표본추출 역시 현실과 타협하는 차원에서 많이 쓰이고 있다.

일부 연구자들은 Amazon's Mechanical Turk 사이트를 활용해서 간편하게 연구 참가자들을 모집하는 방안도 구상하고 있다.[1] 비용도 싼 데다 표본 대표성도 만족스럽다고. 물론 이에 대해서도 사회적으로 바람직한 응답에 의해 오염된다는 등의 방법론적 비판이나, 지나치게 저가에 응답자들을 착취하는 게 아니냐는 윤리적 비판도 있다.[2]

4.1. 확률 표본추출법

확률 표본추출법은 모집단 내 각 구성단위들의 추출확률이 계산 가능한 추출법이다. 이것은 여러 면에서 이상적이지만 그만큼 정밀한 연구과정과 많은 비용, 시간을 필요로 한다. 확률 표본추출법의 특징은 다음과 같다.

모집단의 정확한 규모에 대한 정보가 알려져 있다.[3]
비확률 표본추출법에 비해서 일반화가 쉽고 편향으로부터 자유롭다고 인정된다.
표본오차를 추정하는 것이 가능하다. 다시 말해, 모집단과의 최대 허용오차를 정할 수 있다.
표본의 크기가 클수록 모집단 대표성이 증가한다고 인정된다.

많은 준비를 필요로 하기는 하지만, 부득이한 경우가 아닌 이상, 확률 표본추출법은 많은 연구들에서 채택되고 있는 방법이다. 그러나 모집단에 대한 정확한 정보가 없다면 쓰이기 어렵다.

확률 표본추출법으로는 단순 무선 추출법, 군집 추출법(집락 추출법), 체계적 추출법, 층화 추출법 등이 있다.

4.1.1. 단순 무작위 추출법

simple random sampling (SRS)

32	96	8	86	64	58	56	42	74	40	➜	8 42 94 27 79 70 7 37 65 55
30	94	11	27	60	79	52	44	9	16
53	76	12	38	49	89	70	15	7	71
99	37	57	98	65	3	61	23	67	55

[4]

단순 무작위 추출법은 다음의 조건을 만족시켜야 의미가 있다.

표본을 [math(X_1, X_2,\cdots ,X_n)]이라 할 때

서로 독립: [math(P(X_1)P(X_2)\cdots P(X_n)=P(X_1,X_2,\cdots ,X_n), Cov[X_i, X_j]=0\;\textsf{for all}\;i,\;j\;(i\neq j))]
선택될 확률이 동일: [math(P(X_1)=P(X_2)=\cdots=P(X_n))]
같은 확률 분포를 따름: [math(E(X_1)=E(X_2)=\cdots=E(X_n),\;Var[X_1]=Var[X_2]=\cdots=Var[X_n])] 등

모집단의 각 구성단위가 표본집단의 구성단위로 선택될 확률을 동일하게 하는 추출법. 가장 단순한 확률 추출법으로, 이때 모집단의 크기가 N, 표본집단의 크기가 n이라 한다면 각 구성단위들은 n/N 확률로 표본집단에 선택된다. 독립성과 불편성을 가장 철저하게 지키는 추출방법이기도 하다. 객관적이고 일반화가 쉽기 때문에 가장 이상적이지만, 그만큼 시간과 비용이 심각하게 많이 소요된다. 그리고 SRS를 따랐다고 해서 표본오차가 반드시 "0" 이라고는 누구도 보장할 수 없다.

단순 무선 추출법은 일반적으로 컴퓨터로 난수표를 생성하는 등의 방식으로 임의추출을 하게 된다. 컴퓨터가 없다면 아쉬운 대로 추첨법을 쓸 수도 있는데, 흔히 행사에서 나오곤 하는 행운권 추첨 같은 개념이라고 보면 된다. 쉽게 예상할 수 있겠지만 이 방법은 모집단의 구성단위가 엄청나게 많을 경우에는 쓰기 힘들어져서, 작게는 번거롭고 크게는 아예 사용이 불가능하다.

인터넷에는 무선추출 및 무선할당을 대신 해주는 웹 페이지도 있다! 해당 페이지 보기

4.1.2. 체계적 추출법

systematic sampling

99
37
57
98
65
3
61
23
67
55

53
76
12
38
49
89
70
15
7
71

30
94
11
27
60
79
52
44
9
16

32
96
8
86
64
58
56
42
74
40

➜

30 94 11 27 60
79 52 44 9 16

[5]

모집단의 각 구성단위 사이에 존재하는 순서나 배열을 파악하고, 이를 통해 초항을 무선추출한 뒤, 이후 해당 패턴의 각 항마다 규칙적으로 표본을 추출하는 방법. 초항을 무선추출한다는 점에서 확률 표본추출법에 속한다. 길게 말로 풀어서 설명하기는 꽤 까다롭지만, 막상 적용해 보면 의외로 쉬워서 우리 생활 속에서도 꽤 흔하게 관찰할 수 있는 방법이다. 흔한 경우 이러한 방식은 마치 수학의 등차수열을 연상시키기도 한다.

체계적 추출법의 적용 사례를 들자면, 시 공무원이 주택환경 조사를 위해 20가구씩 묶어놓고 각 묶음마다 한 가구만을 방문하는 경우가 있고, 백화점에서 고객만족도 조사를 할 때에도 처음에는 아무나 한 사람 붙잡았다가, 이후 30명씩 규칙적으로 거르면서 한 사람씩 붙잡아서 설문에 참여시킬 수도 있다. 당장 100명의 사람들이 한 자리에 모여 있고 10명만 무작위로 뽑아야 한다면, 그들을 한 줄로 세운 후에 10의 배수에 해당하는 위치만 뽑아낼 수도 있다. 이러한 손쉬운 규칙성 덕분인지는 모르겠지만, 체계적 추출법은 흔히 전화번호부나 연감 등의 문헌자료와도 환상적인 궁합을 자랑한다.

체계적 추출법의 대표적인 단점은, 관찰할 대상이 체계적 추출법에서 적용한 배열에 일치하는 일정한 패턴을 보일 경우에는 쓰기가 어렵다는 것이다. 예컨대 모집단 1,000명의 IQ를 조사하기 위해 10명×100배열로 끊음으로써 100명을 추출하고자 하는데, 응답자들이 하필 10명 단위로 끊어서 IQ가 오름차순으로 정렬되어 있을 수도 있다. 만일 이처럼 표본 내에 주기성이 존재할 경우에는 엄청난 규모의 표본오차가 발생한다. 초항의 무선추출 결과 각 배열마다 첫째 사람들만 추출하게 되었다면 그 집단은 바보들의 행진(…)이 될 것이며, 거꾸로 각 배열마다 마지막 사람들만 추출하게 되었다면 그 집단은 멘사 뺨치는 고지능자 집단으로 분석될 것이다. 마찬가지로 홍대입구역의 일별 이용인원을 계산하는데 금요일 저녁 시간대만 체계적으로 추출한다면 실제 이용인원보다 훨씬 높은 인원이 측정된다.

4.1.3. 군집 추출법 (집락 추출법)

cluster sampling

전체 모집단을 몇 개의 상호배타적 하위 집단(군집)으로 분할한 후, 그 중에서 하나의 집단을 무선표본추출하여 그 집단에 속한 모든 구성단위들을 전수조사하는 방법. '집단을 무선추출' 한다는 점에서 확률 표본추출법에 속하며, 집단이 선정된 후에는 필요에 따라 전수조사를 하거나 다시 SRS를 사용한다. 이 방법을 쓰기 위한 가장 이상적인 조건은, 각 군집들 사이에는 서로간에 동질성이 보장되지만, 군집 내의 구성단위들 사이에는 서로간에 이질성이 보장되는 경우이다. 다시 말해, 군집 추출법은 집단 간에 동질적, 집단 내에 이질적이다. 이러한 점에서 이하에 설명할 층화 추출법과는 정반대라고 할 수 있다.

군집 추출법의 적용 사례를 들자면 다음과 같다.

빵셔틀에 대한 학생들의 인식을 알아보기 위해서 중학교 하나를 선정하고, 그 학교에 재학중인 모든 중학생들을 대상으로 조사를 실시하는 경우를 들 수 있다. 이때 중학교는 세상에 그 하나만 있는 것은 아니지만, 각각의 중학교들이 서로 비슷비슷하리라고 가정한다(집단 간 동질성). 그러나 어떤 중학교건 간에, 공부를 잘 하는 학생과 못 하는 학생이 똑같이 있게 마련이고, 인기 있는 학생과 인기 없는 학생이 똑같이 있게 마련이다(집단 내 이질성).
각 행정관서 공무원들의 안보관을 조사하기 위하여 하나의 부처/청을 무선추출하여, 모든 소속 공무원들을 대상으로 조사를 실시할 수도 있다. 이때 행정관서가 그 하나만 있는 것은 아니지만, 공직사회는 어디건 다 그놈이 그놈(…)일 것이라고 가정한다(집단 간 동질성). 그러나 어디서든 직급이 높은 공무원과 낮은 공무원이 존재하고, 계선 조직과 막료 조직이 별개로 존재한다(집단 내 이질성).

어떤 경우에든 특이한 점이라면, 특정 군집에서 얻어진 통계량을 통해서 전체 모집단의 모수를 추정할 수 있도록 일반화가 이루어진다는 것이다. 즉, 이렇게 얻어진 데이터를 통해서 모든 중학생들의 인식이, 모든 공무원들의 안보관이 대표되는 것이다.

논리 자체가 행정학 및 정책학 등에서 써먹기 쉬운 방식이다. 여러 지방자치단체들이 서로 동질적인 특성을 공유한다는 ~~비현실적인~~ 전제를 깨지 않는 한, 하나의 지자체를 무선적으로 뽑아내서 살펴보면 되는 것. 경우에 따라서는 다단계 군집 추출법(multi-stage cluster sampling)이라 하여, 먼저 광역단체 중에서 하나를 무선추출하고, 다시 기초 수준에서 무선추출하고, 다시 읍면동 수준에서 무선추출하는 식으로 무선추출을 반복하기도 한다. 이때 최초의 군집 수를 늘리면 늘릴수록 표본의 대표성이 증가하며, 마지막 단계의 표본 정보만 가지고 분석을 실시한다.

군집 추출법의 한계는, 앞서 암시했듯이 집단 간 동질성에 대한 전제가 깨지는 순간 아무짝에도 쓸모없어진다(…)는 점, 그리고 확률 표본추출법 중에서는 표본오차가 가장 큰 편이라는 점이다.

4.1.4. 층화 추출법

stratified sampling

전체 모집단을 몇 개의 상호배타적 하위 집단(층)으로 분할한 후, 각 층들 속에서 그 층의 범주에 맞도록 구성단위를 무선추출하는 방법이다. 최종적으로 '구성단위를 무선추출' 한다는 점에서 확률 표본추출법에 속하며, 아래 비확률 표본추출법 중 할당 추출법과는 서로 달라진다. 위의 군집 추출법과도 미묘하면서도 정반대의 논리를 갖고 있다. 군집 추출법과는 달리, 층화 추출법은 각 층들 사이에는 서로간에 이질성이 확보되어 있으며, 층 속의 구성단위들 사이에는 서로간에 동질성이 보장되어야 한다. 다시 말해, 층화 추출법은 집단 간에 이질적, 집단 내에 동질적이다. 위에서 소개한 군집 추출법과는 정반대.

층화 추출법의 적용 사례를 들기 위해 가상의 조사를 가정해 보자. 즉, 이를테면 대한민국 국민들이 책을 얼마나 읽는지 조사하기 위해서 전국 서점의 도서 판매량을 조사한다고 가정해 보자. 그런데 이 경우, 모든 서점들이 표본집단에 선택될 확률이 모두 같을 경우에는 뜻밖의 문제가 발생한다. 실제보다 이상하리만치 도서 판매량이 열악하게 확인되는 것이다. 물론 이것은 전체 도서 판매량의 대부분을 차지하는 소수의 대형 서점들이, 단순 무선추출(SRS) 시에는 그 수가 워낙 적다 보니 표본집단에 거의 포함되지 못했기 때문이다. 결국 대형 서점에 이리저리 치여서 오늘 간판 내릴까 내일 내릴까를 고민하는 영세 서점들이 주로 표본집단으로 선택되었고, 그 결과 도서 판매량도 저조하게 나타난 것이다. 즉, 이 경우에는 층화 추출법을 적용하여, 소수의 대형 서점 층에서 무선추출을, 약간의 중형 서점 층에서 무선추출을, 다수의 영세 서점 층에서 무선추출을 하는 것이 더 정확할 수 있다.

각종 사회조사 기관이나 실무 업체들에서는 높은 정확성으로 인해 굉장히 선호된다. 층화 추출법의 논리에 따르면, 모집단 인구를 성별에 따라 한번 나누고, 종교에 따라 또 나누고, 교육년수에 따라 또 나누고 하면서 잘라 놓은 뒤에 각각의 잘린 '조각' 들을 대상으로 무선추출을 따로따로 실시하는데, 만약에 그 모집단이 좀 특수해서 예컨대 남녀 성비가 50:50이 아니라 남초 혹은 여초 경향을 보인다거나, 특정 종교가 유난히 득세한다거나 하면서 '조각' 들의 크기가 제각기 달라질 때, 작지만 강한 조각을 사냥하는 데 강하기 때문이다.

게다가 모집단을 자르고 자르면서 점점 그 '조각' 들에 해당하는 구성원들의 동질성이 증가한다. 처음에는 남녀 섞여 있었더라도 성별에 따라 나누고 나면 적어도 조각마다 구성원들이 같은 성별이라는 공통점이 생기기 때문이다. 층화 추출법은 표본 구성원들이 동질적이기 때문에 가장 작은 표본만으로도 충분히 표본오차를 줄일 수 있으며, 같은 신뢰수준이라 할지라도 SRS에 비해 신뢰구간이 확 좁혀지는 마법 같은 추출법이다. 이는 곧 작은 표본추출로 인해 조사자의 부담이 감소한다는 의미도 된다.

각각의 층의 크기에 비례하여 일정한 비율을 유지하면서 무선추출을 한다면 비례 층화 추출법(proportional stratified sampling)이 된다. 여기서는 모집단의 크기를 층의 수로 나눈 결과가 층의 크기가 된다. 만일 층별로 상이한 가중치를 준다면 이는 불비례 층화 추출법(disproportional stratified sampling)이 된다. 남성과 여성의 성비가 80:20인 남초 집단에서 전체 모집단의 여론을 정확히 예측하려면 당연히 표본에서도 동일한 성비를 유지하면서 추출해야 한다. 이것이 바로 비례 층화 추출법이다. 하지만 단순히 남녀의 의견 차이를 비교해야 한다거나, 혹은 상대적으로 드문 여성들의 목소리까지 반영하는 데 의의가 있을 때는 불비례 층화 추출법으로도 충분하다. 이는 연구목적에 따라 조사자가 자유롭게 선택하게 된다.

현대에는 최적분할 층화 추출법(optimal stratified sampling)이 가장 많이 쓰인다. 그 중에서 1934년에 통계학자 저지 네이만(J.Neyman)이 제안한 방법에 따르면, 같은 신뢰수준에서 이질적 집단일수록 표본의 크기가 커져야 한다는 점에 착안하여, 각 층별로 이질성이 큰 층에서는 더 많은 비율로 추출하는 반면 동질성이 큰 층에서는 더 적은 비율로 추출하는 방식이다. 이렇게 할 경우 통계적 처리를 할 때 작은 표본만으로도 표준오차가 낮아진다는 장점이 있다. 단, 작게 추출되는 집단이더라도 사전에 지정한 최소 표본의 제한선보다 더 작은 크기로 추출되지 못하도록 관리해야 한다.

한편 통계학자 에드워드 데밍(W.E.Deming)은 네이만의 방법에 한 가지 판단기준을 더했다. 표본추출을 늘리는 데 드는 단위별 비용이 층별로 상이할 경우, 적은 비용으로 많은 표본을 확보할 수 있는 층에다 그만큼 가중치를 두어 더 추출하는 것이다. 쉽게 말해, 추출하기 힘든 구성원들 추출한다고 괜히 애쓰느니, 추출이 용이한 구성원을 하나라도 더 뽑아내는 데 신경쓰자는 것이다. 그렇다면 이질성 높은 집단의 추출규모를 키운다 하더라도 그 표본을 얻는 데 시간과 비용이 많이 소요된다면 꼭 대규모 추출을 할 필요는 없어진다. 따라서 여기서는 집단 내 이질성 여부 외에도 추출의 단위비용까지 함께 고려하게 된다.

층화 추출법에 단점이 없는 것은 아니다. 그만큼 모집단에 대한 정확한 사전지식을 필요로 하며, 집단 간의 이질성 때문에 층별로 응답률에 차이가 발생할 수 있다.

4.2. 비확률 표본추출법

모집단 내 각 구성단위의 추출확률의 계산이 불가능한 추출법을 비확률 표본추출법이라고 한다. 비확률 표본추출법의 특징은 다음과 같다.

모집단의 정확한 규모에 대한 정보가 알려져 있지 않고, 가용한 표집틀도 없다.
확률 표본추출법과는 달리, 일반화가 불가능하고 연구자의 주관적 판단이 개입하기에 편향적으로 추출될 위험이 있다.
추출된 표본의 표본오차를 추정하는 것이 불가능하다.
표본의 크기를 아무리 증대시키더라도 모집단 대표성은 논리적으로 정당화될 수 없다.

비확률 표본추출은 표본오차를 계산해야 하거나 기타 후속 통계적 분석이 예정되어 있을 때에는 거의 쓰일 수 없지만, 몇몇 상황과 조건이 맞을 경우에는 충분히 활용될 수 있다. 특히 '자신이 서민이라고 생각하는 인구집단' 처럼 모집단 전체의 규모를 정확히 파악할 수 없는 경우에는 비확률 표본추출법이 쓰일 수밖에 없다. 또한 이미 조사자가 충분한 전문적 지식을 갖고 있거나 적어도 전문가들을 충분히 확보한 상태일 경우에 편의를 위해 사용될 수 있으며, 예산의 제약으로 인하여 확률 표본추출법을 준비할 여지가 없을 때, 모집단에 대한 아이디어나 가설이 아직 구체화되지 않았을 때에도 쓰인다.

비확률 표본추출법을 확률 표본추출법의 하위호환처럼 이해해서는 곤란하며, 확률 표본추출법을 쓸 수 없을 때에는 당연히 비확률 표본추출법을 쓰게 된다는 논리로 이해해야 한다. 문제가 되는 것은 확률 표본추출법을 쓸 수 있는데다 추후 조사결과의 일반화가 필요한 상황에서조차 비확률 표본추출법을 쓰는 경우이다. 이런 경우에는 분명히 하위호환이 된다.

흔히 저렴한 비용을 장점으로 꼽기는 하는데, 언제나 간편하고 빠르게 추출이 가능하다고까지는 보장할 수 없다. 편의 추출법은 그 이름대로 가장 빠르고 저렴하게 자료를 모을 수 있는 추출법인 것이 맞으나, 눈덩이 추출법은 상황에 따라 엄청난 시간과 비용이 소요될 수도 있다.

비확률 표본추출법으로는 편의 추출법, 판단 추출법(유의 추출법), 할당 추출법, 눈덩이 추출법이 있다.

4.2.1. 편의 추출법

convenience sampling

우연적 추출법(accidental sampling)이라고도 한다. 가장 쉽고 품 안 드는 표본추출법으로, 연구자가 그냥 알아서 내키는 대로 표본을 모으는 것을 의미한다. 물론 편의 추출법이 그만큼 위험하다는 것은 두말하면 잔소리지만, 경우에 따라서는 덜 위험한 경우도 있다. 누가 봐도 모집단 구성단위들 사이에 거의 이질성이 없음이 명명백백할 때가 그 사례. 또한 연구자가 모집단에 대한 정보 자체가 아예 희박하거나, 탐색 연구가 필요하거나, 질문지법의 사전조사(pretest)를 해 줄 사람이 일부 필요하거나 할 때는 괜찮다. 물론 이것 하나만 가지고 연구 끝! 을 외치기에는 심히 문제가 많다.

편의 추출법은 의외로 흔히 접해볼 수 있는데, 언론사에서 어떤 주제에 대해 길거리 행인들에게 생각을 묻거나,[6] 학부생들이 과제를 한답시고 자기 동아리방이나 아는 후배들에게 설문 응답을 부탁하는 경우가 전부 편의 추출법에 해당한다. 물론 길거리 행인들이나 학부생들의 의견은 단지 그들의 의견일 뿐이고, 조사대상 전체를 합당하게 대표하는 표본이 될 수는 없다. 학계에서도 편의상 수업을 듣는 학부생들을 대상으로 설문을 시키는 경우가 적지 않아, 이를 비판하는 개념도 생겨났다.

4.2.2. 판단 추출법 (유의 추출법)

judgemental sampling

의도적 추출법(purposive sampling)이라고도 한다. 복잡하고 골치아픈 통계적 처리 같은 거 다 치우고, 연구자가 해당 분야에 대한 자신의 전문성을 근거로 하여 직접 표본을 고르는 방법이다. 이때 연구자는 표본추출을 할 때 연구목적에 가장 부합하는 표본을 어떻게 구성하면 좋을지 매의 눈으로 살피게 된다. 이렇듯 자신이 전문성을 갖고 있는 분야라면 아무래도 일반인보다는 나은 추출을 할 수 있겠지만, 물론 통계적 처리를 통해 얻어지는 신뢰성에 비할 바는 아니겠다.

위의 편의 추출법과 자주 비교되는 방법이다. 둘 다 '닥치는 대로' 추출한다는 공통점은 있으나, 이쪽은 연구자의 전문성에 추출근거를 기댄다. 연구자가 그 분야에 빠삭한 배경지식을 갖고 있어서 무엇을 어떻게 추출하고 처리해야 할지 훤히 보일 때는 대충 골라잡아도 나쁘지 않겠다는 논리로, 이는 위의 편의 추출법이 쓰이는 상황과는 정반대의 상황이라 할 수 있다. 편의 추출법은 연구자가 연구주제에 대해 배경지식이 충분치 않아서 탐색적인 조사를 위해 실시한다는 성격이 강한 반면, 판단 추출법은 연구자가 이미 손바닥 들여다보듯 훤히 알고 있는 상황이라 통계적 처리를 할 때 득보다 실이 크다고 여겨지는 상황에서 실시되곤 한다.

상기했던 '자신이 서민이라고 생각하는 인구집단' 에 대한 연구를 한다고 가정할 때 판단 추출법은 좋은 선택이 될 수 있다. 편의 추출법은 그냥 길거리에서 닥치는 대로 붙잡고 그 사람들이 서민에 해당될 거라고 기대하는 반면, 판단 추출법은 달동네나 슬럼가로 직접 들어가서 그곳에서 사람들을 붙잡고 물어보게 된다. 따라서 표본추출 과정에서의 설득력은 편의 추출법보다는 판단 추출법이 확연히 더 크다고 할 수 있다. 남은 문제는 어떻게 달동네나 슬럼가가 서민층을 대표한다고 판단했냐는 의문에 답하는 것인데, 사실 이런 부분에서 정당화를 하기 위해 연구자의 배경지식이 요구되는 것이다.

흔한 정치인들이 자기 지역구 민심을 듣기 위해서 전통시장으로 가는 경우도 판단 추출법의 좋은 사례이다. 전통시장 상인들이야말로 지역 민심을 대변하는 데 있어서는 대한민국에서 가장 상징적이고 전형적인 존재로 받아들여지기 때문이다. 이에 대해서도 왜 대형마트 점원들의 의견은 듣지 않느냐는 의문이 나올 수 있으며, 이는 판단 추출법이 직감적으로는 적절하지만 공격받기도 쉬운 표본조사 방법임을 보여준다. 그 밖에도 일부 정치인들이 2030 젊은층의 여론을 경청하겠다며 인터넷 커뮤니티에 가입인증을 하는 것도 판단 추출법의 사례로 볼 수 있다.

4.2.3. 할당 추출법

quota sampling

비확률 표본 추출법들 중에서 가장 정교한 방법. 연구자가 모집단의 구성단위에 대한 파악이 끝난 상태에서, 전체 모집단을 성별, 연령, 소득수준 등 몇 개의 상호배타적 하위 집단(범주)로 분할한 후, "범주별 할당표" 를 작성해서 비율에 맞게 표본의 크기를 정하는 방법이다. 할당표 상에서의 각각의 비율은 연구자가 임의로 판단하여 결정하게 된다.

이렇게 보면 위의 층화 추출법과 유사해 보이지만, 이것도 비확률 표본추출법에 속하므로 결정적인 차이가 있다. 할당 추출법에서 연구자는 자기 재량으로 표본 구성단위를 선정하게 되며, 통계적 처리가 포함되지 않는다는 것. 층화 추출법과의 유사점이라면 단지 모집단을 일정한 기준에 따라서 상호배타적 하위 집단으로 분류한다는 점밖에는 없다. 다시 정리하면, 층화 추출법과는 달리, 할당 추출법은 표본집단 구성단위를 추출함에 있어서 통계적 처리가 아닌 연구자의 직관과 전문성에 의지하는 방법이다.

할당 추출법은 위의 '서민' 예시에서처럼 모집단의 정체가 애매모호하지만, 그럼에도 불구하고 그 모집단이 최소한 여러 이질적인 하위 집단들로 구성되어 있음은 알려져 있을 때 쓰인다. 예컨대 페미니스트들을 대상으로 표본을 추출해야 할 경우, 대한민국에 존재하는 모든 페미니스트들의 수를 정확하게 명단으로 만드는 것은 불가능하다. 이 경우 연구자는 적당히 트위터에서도 표본을 모아 보고, 여초 커뮤니티에도 연구 광고를 게시할 것이며, 대학 내 페미니즘 동아리의 협조도 구하고, 여성학과 대학원생들에게도 접촉할 것이며, YWCA 관계자나 여성가족부 공무원들까지도 빠짐없이 의견을 받으려 할 것이다. 각각의 비율을 어떻게 결정하든 간에, 여러 하위 집단들에서 표본을 추출하여 모집단을 가늠하려 했기 때문에 이것은 할당 추출법이라고 볼 수 있다.

4.2.4. 눈덩이 추출법

snowball sampling

상당히 드물게 쓰이는 방법이다. 비탈길에서 작은 눈덩이를 굴리면 점점 구르면서 커져 가게 되는데, 이에 비유한 표본추출법. 표본추출을 할 모집단 자체가 비공식적이고 비공개된 특성을 갖고 있어서 연구자의 힘으로는 접촉하기 힘들거나, 사회적으로 남부끄러운 특성을 갖고 있어서 쉽게 나서려 하지 않는 경우에 쓰인다.

일부 폐쇄적인 집단이나 컬트, 불법체류자, 범죄자, 소수자 집단, 대외비 집단 등에 소속되어 있는 개인들은 연구자 입장에서 신원이나 연락처를 구하는 것이 결코 쉽지 않을뿐더러 자기네들도 충분한 네트워크가 형성되어 있지 못한 경우가 많다. 이런 사례를 연구할 때, 연구자는 우선 사전에 연락처를 확보하고 연구협조 의사를 타진해 온 극소수의 구성원을 대상으로 표본을 추출하게 된다. 그 이후, 해당 표본으로부터 인접해 있거나 친한 다른 표본을 소개받아서 연구를 진행하는 기법이다. 한 사람이 다른 한 사람을 소개하고, 그 사람이 두어 사람을 소개하고, 소개받은 사람이 다시 누군가를 소개함으로써 표본은 점점 늘어나게 된다. 물론, 그 사람들이 계속해서 소개를 해 줄 만큼 협조적이라는 전제 하에.

꼭 폐쇄적인 인구집단이 아니더라도 눈덩이 추출법은 상황이 여의치 않다면 얼마든지 쓰일 수 있다. 예컨대 응급실 간호사들처럼 현실적으로 응답자들이 한자리에 모아서 설문을 진행할 시간을 내기가 힘든 직종인 경우를 들 수 있다. 그 외에도 조사원 본인이 그 분야에 외부인이어서 따로 인맥이 없거나 기관 차원에서 충분한 협조를 받지 못하는 상황에서도 어쩔 수 없이 쓸 수밖에 없다. 예컨대 군인 현역 부사관들을 대상으로 설문조사를 진행해야 하는데 주위에 군인인 사람이 한두 명밖에는 없을 경우, 어쩔 수 없이 알음알음 소개받으면서 응답자 수를 채울 수밖에 없다. 군인들은 비공식적인 집단이 결코 아니지만, 조사원이 민간인인 이상 군부대에 허가 없이는 함부로 들어갈 수 없기 때문에 벌어지는 일이다.

4.3. 표집틀

sampling frame

표집틀은 표본조사를 원하는 연구자가 표본을 추출하기 위해서 먼저 준비해야 하는 모집단 구성원 목록이다. 만일 여러분이 표본조사에 착수했는데 손에 쥐어진 것이 다름아닌 전화번호부라면, 이때는 그 전화번호부가 바로 표집틀이 된다. 표집틀을 굳이 알아야 하나 싶을 수 있지만, 표집틀에서 제공하는 목록이 연구대상이 되는 모집단과 미묘하게 달라지는 상황이 발생할 수 있으므로 조사를 하기 이전에 한번 신경을 써야 한다. 그리고 표집틀이 아예 없는 상황에서라면 표본추출 방법이 무조건 비확률 표본추출법(정말로 표집틀 비슷한 그 무엇조차도 없다면 눈덩이 추출법)으로 제한된다.

표집틀이 모집단과 달라지는 상황은 크게 세 가지로 나누어 볼 수 있다.

불포함오차: 모집단이 표집틀보다 더 큰 집합인 경우이다. 다시 말해, 연구자의 손에 들린 리스트로는 접촉할 수 없는 모집단 구성원들이 존재한다. 이를 무시하고 그냥 연구를 진행했다가는 표집틀에 포함되지 못한 구성원들이 추출되지 못하는 오차가 발생하는데, 이를 불포함오차라고도 한다. 예를 들어, 연구자는 어떤 회사의 근로자들의 여론을 조사하고 싶은데 막상 가용한 자료는 그 회사의 노조원 명부뿐이라면, 노조 미가입자들이 자기 목소리를 제대로 내지 못하는 문제가 발생할 것이다.

포함오차: 이번엔 거꾸로, 표집틀이 모집단보다 더 큰 집합인 경우이다. 다시 말해, 연구자의 손에 들린 리스트에 모집단 전체 구성원들은 확보됐지만, 모집단과 무관하게 오만가지 쓸데없는 사람들이 끼어 있어서 문제가 되는 상황이다. 이런 '외부인' 들까지 조사에 포함시켜서 연구하다 보면 결과적으로 그 사람들의 응답이 조사결과를 왜곡시키는 오차가 발생하며, 이를 포함오차라고도 한다. 예를 들어, 연구자는 어떤 회사의 노조원들의 여론을 조사하고 싶은데 막상 가용한 자료는 그 회사의 전체 직원 명부라면, 누가 노조 가입자인지 모르는 상황에서는 미가입자들의 응답까지 함께 받게 될 것이다.

대표성 없는 표집틀: 위의 두 가지의 파이널 퓨전. 표집틀에 포함되지 못한 모집단 구성원들도 존재하고, 표집틀에서 걸러내야 할 외부인들도 존재하는 상황이다. 이 경우 불포함오차와 포함오차 모두가 조사 결과를 왜곡시키게 되며, 가능하다면 다른 표집틀을 확보할 필요성이 있다. 흔히 표집틀의 가장 일반적인 예로 전화번호부를 꼽긴 해도, 엄밀히 말하면 전화번호부도 이쪽에 속할 수 있다. (한국에는 해당사항이 별로 없지만) 유선전화를 설치하지 않은 가구원들은 응답에서 누락되고, 전화번호부의 일부는 사업체나 법인처럼 조사와 무관한 연락처 리스트도 담고 있기 때문.

4.4. 표본크기의 결정

[math(N= (\dfrac {Z_{α/2} \times s}{r})^2)]
표준편차 [math(s)], 오차 [math(r)], 유의수준 [math(Z_{α/2})]를 갖는 표본의 크기 [math(N)]

[math(N= \dfrac {Z_{α/2}^2 \times p(1-p)}{r^2})]
응답률 [math(p)], 오차 [math(r)], 유의수준 [math(Z_{α/2})]를 갖는 표본의 크기 [math(N)]

신뢰도 90%일 때 z-값은 1.645, 신뢰도 95%일 때 z-값은 1.96, 신뢰도 99%일 때 z-값은 2.58로 신뢰수준이 높을수록 필요한 표본크기가 커지게 된다.

표본추출에서 일반적으로 중요한 것은 그 표본이 얼마나 모집단을 잘 대표할 수 있는가(대표성), 그리고 그 표본을 수집하는 데 있어서 경제성과 정확성 사이에서의 줄타기를 얼마나 잘 하는가(적절성)의 두 가지다. 후자를 부연하자면 즉 가능한 적은 비용으로 가능한 높은 정확성을 담보해야 한다는 것인데, 표본의 크기가 커질수록 조사자의 부담도 커진다는 점을 생각해 보면, 결국 조사자는 조사결과를 위협하지 않는 선에서 가장 작은 표본을 선호하게 된다고 할 수 있다. 이때 조사자는 자신의 조사에 필요한 표본의 크기를 키우게 되는 요인들을 찾으려 하게 된다.

표본의 크기가 커지게 만드는 요인들은 다음의 몇 종류가 있다.

조사목적: 탐색적이고 예비적인 목적으로 시행되는 표본조사라면 굳이 크게 표집할 필요가 없다. 거꾸로 말하면, 그렇지 않은 '본 게임' 의 표본조사일 경우에는 표본의 크기를 키워야 한다.
모집단 규모: 추론통계량에 대해서 흔히 "대한민국 국민이 5천만인데 그 정도 숫자로 되겠느냐" 는 불평이 나오곤 한다. 그런데 통계학적으로 보더라도, 모집단의 크기가 크면 클수록 같은 신뢰수준을 보장하기 위한 표본의 크기도 함께 증가한다. 단지, 표본이 작을수록 조사가 효율적이게 되기 때문에 통계학자들이 그만큼 갈려나가면서 주어진 신뢰수준 하에서의 최소한의 표본크기를 찾아놓은 것뿐. 그 덕분에 모집단이 5천만이라 할지라도 '그 정도 숫자로 충분한' 것이다.
모집단 동질성: 모집단의 구성원들이 각양각색이라면 그 모든 다양성을 포괄하기 위해서 더 많은 표본이 필요할 것이다. 하지만 각 구성원들이 다 거기서 거기라면 굳이 많이 추출할 필요가 없다. 바로 이 논리에 입각하는 추출법이 층화 추출법이며, 상기되었듯 층화 추출법은 SRS에 비해 표본의 크기를 더 작게 할 수 있다.
분석변인의 수: 성별, 민족성, 연령, 종교, 소득수준, 교육년수, 거주지 등 변인을 많이 넣으면 넣을수록 그만큼 더 큰 표본을 필요로 하게 된다.
분석범주의 수: 똑같은 변인일지라도 종교를 기불릭으로 나누는 것과 개신교, 가톨릭, 불교, 이슬람교, 힌두교, 무속종교, 무교, 무신론 등으로 세분화하는 것은 다르다. 범주를 세분화할수록 당연히 각각의 셀(cell)들을 채워야 할 부담도 증가하게 된다.
통계적 기준: 조사 이전에 이미 특정 신뢰수준과 허용되는 표본오차의 크기가 정해져 있다면 그것에 맞춰서 표본의 크기가 결정되어야 한다. 통계적인 허들이 높을수록 조사자도 그 빡빡한 기준에 맞추려면 더 큰 표본을 동원할 수밖에 없다.
분석 구체성: 후속 통계적 분석에서 각 세부집단별로 개별적인 분석결과를 보여주어야 할 것이 예상된다면 표본의 크기를 추가로 늘려야 한다. 괜히 표본을 조금 모았다가 일부 세부집단이 열 명 남짓으로 표집된다면 분석결과를 제시하기도 난감해지게 된다.

이런 요인들로 인해 요구되는 표본의 크기가 대충 정해진다면, 돈이 남아돌지 않는 한(…) 그때부터는 최대한 저비용으로 조사를 수행하는 데 초점이 맞춰진다. 예컨대 최소한 800명은 모아야 좋은 표본추출이 성립되는 상황에서 1,000명이나 2,000명을 모을 수 있다면 물론 두 손 들어 반길 일이지만, 그만큼의 응답자들이 하늘에서 뚝 떨어지는 것이 아니며 그들을 모으는 데 시간과 비용이 또 들어가게 되므로 딱 800명만 간신히 맞춰서 표본을 만들게 되는 것이다.

게다가 (학술적인 의의는 대개 크지 않지만) 조사의 규모가 커지면 커질수록 대규모 조사를 시행함으로 인해 발생하는 비표집오차(non-sampling error)의 가능성도 있다. 비표집오차는 표본추출 이외의 조사과정에서 발생하는 오차를 말한다. 쉬운 예를 들자면 조사원의 훈련 부족으로 인한 조사자 태도변인의 개입, 대규모 데이터를 코딩하는 과정에서 발생하는 실수 등의 소소한 오차 가능성이 여기에 포함된다. 모집단 대비 표본의 크기가 커질수록 표집오차는 감소하겠지만, 오차의 감소량 중 일부는 비표집오차로 인해 상쇄된다고 볼 수 있다.

5. 부록: 부족한 표본 수 추가하기

조사를 하거나 사회과학 연구를 하다 보면 당초 모았던 표본의 수가 부족하다는 피드백이 뒤늦게 나와서 조사책임자를 당혹스럽게 만들기도 한다. 물론 이런 상황에 대비하려면 선험적 검정력 분석(a priori power analysis)을 미리 진행해서 최적의 표본 크기를 구하는 것이 정석이고, 학술세계에서는 대체로 그렇게 한다. 하지만 실무에서는 클라이언트의 변심이나 상황의 급변으로 인해 정확히 똑같은 조사문항의 표본을 추가로 모아야 하는 상황도 발생할 수 있다. 석사과정 대학원생들도 자기 학위논문을 저널에 똑같이 발표하려다가 N수가 부족하다는 동료평가 결과를 받고 당황할 때가 많다. 그렇다면 이 경우 기존에 모았던 표본과 새로 모으는 표본을 어떻게 관리해야 조사결과의 설득력을 담보할 수 있을까?

가장 정석적인 방법은 두 표본을 서로 구분해서 관리하는 것이다. 그리고 첫 표본조사의 한계점으로 표본의 크기가 작다는 점을 솔직하게 적시하고, 이를 보완하기 위한 대규모의 표본조사를 한번 더 진행했다고 설명하면서 둘째 표본조사 결과를 보여주는 것이 좋다. 그런데 어떤 이유에서든 두 표본을 한데 합쳐서 통계분석을 돌려야 하는 상황도 있을 수 있다. 이런 경우, 합치는 것 자체는 문제가 되지는 않지만, 두 번의 표본조사가 진행되었다는 사실을 숨긴다면 이는 연구윤리 상 연구투명성을 저해하는 행위가 된다. 따라서 두 표본을 합치고자 한다면 그냥 솔직하게 인정하는 것이 바람직하다. 이 경우에는 통계적 방법을 활용하여 합치는 것이 문제가 되지 않음을 보여주기만 하면 된다.

두 표본조사 결과를 합칠 경우, 조사문항에 있어 빠지거나 더해지거나 변형된 부분이 없음을 우선 확인해야 한다. 이후 각각의 표본조사는 웨이브(wave)에 따라서 구분하게 되는데,[7] 처음 진행한 표본조사로 얻어진 데이터에는 전부 '1' 이라는 값을 부여하고, 뒤늦게 진행한 표본조사로 얻어진 데이터에는 전부 '2' 라는 값을 부여한다. 마찬가지로, 계속해서 추가 표본수집을 진행하는 경우에는 3회차 웨이브, 4회차 웨이브 같은 방식으로 교통정리를 할 수 있다. 이후 웨이브 자체를 하나의 의미 있는 변인으로 취급, 웨이브의 회차에 따라 통계적 검정값 및 분석값이 달라지는 상호작용(interaction) 효과가 없음을 입증해야만 표본조사 결과를 서로 합치는 것이 정당화된다. 만일 웨이브 간에 서로 응답의 차이가 발생했다면 그때는 합치면 안 되며, 왜 다른지에 대해 최대한 설명해야 한다.

6. 관련 문서

선택편향

7. 외부 링크

Statistics 101: Population vs Sample Data (유튜브)

8. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px"		<colbgcolor=#C1F3FF>📝 서론	<colbgcolor=#F7FFFF,#191919> 사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론( 이론적 조망) · 연구윤리
🔍 조사방법론 I	변인 · 정의 · 상관관계와 인과관계 · 실험( 실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
🔍 조사방법론 I	자료 · 자료수집( 면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II	표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계	통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법( 분산분석 · 회귀분석)

👔 공인 자격증	사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서	연구방법론 관련 정보
^{상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨}

}}}}}}}}} ||

[1] MTurk 활용 연구 시 표본대표성을 주장하기 위한 근거로는 다음의 문헌들을 활용할 것. Paolacci, Chandler, & Ipeirotis, 2010; Buhrmester, Kwang, & Gosling, 2011; Berinsky, Huber, & Lenz, 2012; Buhrmeister, Kwang, & Gosling, 2011; Mason & Suri, 2012; Chandler, Mueller, & Paolacci, 2014. [2] Antin & Shaw, 2012; Williamson, 2016; Pittman & Sheehan, 2016. 한편 Liu & Sundar(2018)에 따르면 이렇게 열정페이를 겪는 MTurk 응답자들은 인지부조화를 일으켜서 자신들이 학술발전에 엄청나게 크게 기여한다고 믿는다고 한다. [3] 표현을 바꾼다면 명확한 표집틀이 사전에 확보되어 있다는 의미이다. 표집틀에 대해서는 하술한다. [4] 단, 여기서 부여된 번호는 응답자 각각에게 전산 처리 목적으로 부여된 번호라고 가정한다. [5] 단, 여기서 표집간격은 임의로 설정한 것이다. 실제로는 전체 모집단의 크기와 표본의 크기의 비율을 고려하여 결정하게 된다. [6] 이 경우는 따로 "보행자 조사법" 이라고도 한다. [7] 조사연구 분야에서의 비유적 표현으로, 조사원들이 한 차례 사람들 사이를 파도처럼 휩쓸고 지나가면서(?) 자료를 얻어오는 것을 웨이브라고 한다. 종단적 연구에서 자주 볼 수 있는 표현이다.