본문 바로가기

통계학/기초통계학

12차시 - 표본크기 결정 및 가설검정 기초

1. 허용오차에 따른 표본크기 결정

 표본통계량을 점추정량으로 하여 모수를 추정할 경우에는 표본오차가 발생함. 표본오차는 일반적으로 표본의 크기가 증가하면 감소되는 경향이 있음. 그러나 표본의 크기를 증가시키면 시간과 비용이 증가하므로 통계적 분석을 위해 어느 정도의 추정오차를 감안하는가에 따라 적절한 크기의 표본을 선택해야 함.

 

 

1-1. 모평균 추정에서 표본의 크기 결정

 표본평균을 점추정량으로 하여 모평균에 대한 신뢰구간을 계산했을 때 오차가 d 이하일 확률이 신뢰수준과 같기를 원한다면 표본의 크기 n은 다음과 같이 구해짐. 모표준편차 σ는 알려져 있지 않은 경우가 많으므로 예비 표본의 표준편차 S'나 R/4(R은 자료의 범위)로 대체하기도 함. 표본의 크기는 반드시 올림하여 구함.

 

<예제>

 (주)상준 산업은 종업원의 연간수입에 대한 표본평균이 실제 모평균의 50이내에 있을 확 률이 0.95이기를 원한다. 예외적인 경우를 제외하고 자료의 분포가 연간 1,600만원에서 3,200만원이라고 한다면 표본의 크기를 얼마로 하여 추정하는 것이 좋은가?

 

<해설>

 

 

1-2. 모비율 추정에서 표본의 크기 결정

 표본비율을 점추정량으로하여 모비율에 대한 신뢰구간을 계산했을 때 오차가 d 이하일 확률이 신뢰수준과 같기를 원한다면 다음과 같은 수식을 유도할 수 있음.

 

 

2. 가설 및 가설검정 방법의 유형

 가설 검정(hypothesis testing)은 임의의 값을 취할 것으로 가정된 모수에 대해 진위 여부를 통계적으로 의사 결정하는 것.

 

 

2-1. 가설(hypothesis)

 가설(hypothesis)이란 과거의 경험, 지식, 연구의 결과 등으로 모수가 취할 것으로 알려진 값. 가설은 몇 가지 기준에 의해 구분.

 

1. 귀무가설(null hypothesis: H0) : 다르지 않다라는 의미를 갖는 가설로 가설에 항상 〓이 포함되어야 함. 귀무가설은 모수에 대해 특정한 값을 가정하고 있고 가설검정은 일단 귀무가설이 사실이라는 전제하에서 수행. 검정의 결과는 귀무가설을 기각(reject)하는가 기각하지 못하는가(fail to reject)의 두 가지로 구분됨. 검정의 목적은 귀무가설을 기각 하는 것이며 기각하지 못할 경우 “채택한다(accept)”가 아니라 “기각하지 못한다”라는 결론을 내려야 함.

 

2. 대립가설

 대립가설(alternative hypothesis: HA)은 연구가설이라고도 부르며 귀무가설을 기각할 때 지지되는 가설, 즉 대립가설은 귀무가설과 여집합의 관계에 있는 가설. 대립가설은 문제에 따라 세 가지 형태로 나타나게 되며 대립가설의 형태는 가설검정의 유형을 결정.

 

 

2-2. 가설검정 방법의 유형

 가설검정의 유형은 “같지 않다”의 여부를 검정하는 양측검정(two -tailed test) 과 “크다”, “작다”의 여부를 검정하는 우측검정, 좌측검정으로 구분. 우측검정과 좌측검정은 단측검정(one-tailed test)이라고 함.

 

 

3. 가설검정의 일반적인 절차

3-1. 가설검정 과정

 

 

3-2. 검정통계량

 검정통계량(test statistic)은 귀무가설의 기각 여부를 결정하는데 사용되는 표본통계량을 의미. 모평균에 대한 가설검정에서는 표본평균, 모비율의 경우에는 표본비율, 모분산의 경우 표본분산이 검정통계량이 되는 것.

 

1. 임계치(critical value)

 가설검정의 유형이 양측검정인가, 단측검정인가의 여부와 유의수준 α에 따라 귀무가설의 기각여부를 결정하는 기준치가 되는 검정통계량. 표본통계량의 분포에 따라 적합한 확률 분포가 선택되면 확률분포에서 제시하는 임계치를 구할 수 있음.

 

2. 계산된 검정통계량(computed statistic)

 표본정보를 이용하여 실제로 계산된 검정통계량을 의미. 계산된 검정통계량과 임계치를 비교하여 귀무가설의 기각 여부를 판단할 수 있음.

 

 

3-3. 기각역(rejection region)과 유의수준(level of significance)

1. 기각역(rejection region)

 귀무가설을 기각할 수 있는 영역으로 검정통계량 값의 범위. 기각영역과 채택영역을 분리시켜주는 값이 임계치가 됨. 기각역은 양측검정, 단측검정의 경우 다음과 같이 나타남.

 

2. 유의수준(level of significance)

 귀무가설을 기각할 확률은 기각역의 확률분포 곡선상의 면적으로 나타나며 유의수준(level of significance : α)이라고 함. 유의수준은 일반적으로 1%, 5%, 10% 중의 한 값이 사용됨.

 

3. 가설검정의 결과

 검정통계량의 확률분포가 결정되고 유의수준이 주어지면 양측검정인가 단측검정인가의 여부에 따라 임계치가 구해짐. 표본의 정보로 계산된 검정통계량 값과 임계치를 비교하여 계산된 검정통계량 값이 임계치보다 더 멀리 나타나는 경우(기각역에 속하는 경우) 귀무가설을 기각.

 

4. 신뢰구간 추정과의 관계

 신뢰구간을 도출하면 양측검정을 기준으로 하는 가설검정의 결과를 파악할 수 있음. 귀무가설에서 가정한 모수가 1-α의 신뢰구간에 포함되지 않으면 유의수준 α에서 귀무가설은 기각되며 포함되면 귀무가설은 기각되지 않음.

 

 

4. 가설검정의 오류

 통계적 추론은 표본에 의해 전체 모집단의 모수에 대한 의사결정을 하는 것이므로 표본오차로 인한 오류의 발생가능성을 배제할 수 없음. 가설검정을 통해 귀무가설을 기각하거나 기각하지 못한다는 결론을 내리게 되지만 이러한 의사결정은 잘못된 것일 수 있음. 가설검정에서 발생하게 되는 오류는 제1종 오류와 제2종 오류로 구분.

 

4-1. 제1종 오류(type I error)와 제2종 오류(type II error)

1. 제1종 오류(type I error)

 제1종 오류(type I error)는 귀무가설이 옳은데도 불구하고 가설검정의 결과로 귀무가설을 기각하게 되는 경우를 말함. 제1종 오류를 범할 확률은 유의수준 α와 동일. 유의수준 α는 기각역의 확률을 나타내지만 바꾸어 말하면 귀무가설이 사실인데도 기각할 수 있는 확률을 의미.

 사실인 귀무가설을 기각하지 않을 확률은 1-α, 이것은 신뢰수준이 되며 표본정보를 통해 구해지는 모수의 신뢰구간의 확률을 나타냄.

 

2. 제2종 오류(type II error)

 제2종 오류(type II error)는 귀무가설이 사실이 아닌데도 가설검정 결과 기각하지 못하는 경우를 말함. 제1종 오류와는 상반된 개념의 오류라고 할 수 있으며 제 2종 오류가 발생할 확률을 β라고도 함.

 

3. 검정력(power of the test)

 사실이 아닌 귀무가설을 기각할 수 있는 확률은 1-β로 표현되며 검정력(power of the test)라고 함. 가설검정의 목적은 거짓인 귀무가설을 기각해내는 것이므로 검정력이 높다는 것은 가설검정 결과에 대한 신뢰성이 높다는 것을 의미.

 

 

4-2. 1종 오류와 2종 오류의 관계

1. 가설검정 결과 요약

 

 

2. 오류간의 관계

 1종 오류를 감소시키면 2종 오류는 증가하게 됨.

 1종 오류와 2종 오류를 동시에 감소시키거나 어느 한쪽의 오류를 고정한 상태에서 다른 한쪽의 오류를 감소시킬 수 있는 방법은 표본의 크기를 증가시키면 됨.

 

3. 가설검정 결과의 해석

 가설검정의 결과를 해석할 때 귀무가설이 기각되면 주어진 유의수준 하에서 “귀무가설을 기각한다”라는 결론을 내리게 됨. 그러나 귀무가설이 기각되지 못하면 “귀무가설을 채택한다” 라는 결론을 내리지 않고 “귀무가설을 기각하지 못한다”라는 결론을 내림. 이러한 이유는 귀무가설을 기각할 때는 1종 오류가 발생할 수 있고 귀무가설을 기각하지 못할 때에는 2종 오류가 발생할 수 있기 때문.

 

 

 

참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion