본문 바로가기

통계학/기초통계학

14차시 - 두 모집단 차이에 대한 추론

1. 독립표본에 대한 모평균 차이 검정

 

 단일 모집단에서 추출한 단일 표본을 통해 모수를 추론하는 개념을 확장하면 모집단이 두 개 일 경우에 이를 비교분석하는 통계적 추론을 적용할 수 있음.

 

 

1-1. 독립표본(independent sample)에 대한 개념

 모집단이 서로 다르다면 각각의 모집단에서 추출한 표본은 서로 독립표본(independent sample)이 됨. 모집단 1과 2에서 표본을 각각 n1개, n2개 추출하는 경우 모수와 표본통계량은 다음의 그림처럼 표현할 수 있음.

 

 

1-2. 모평균 차이에 대한 추론을 위한 통계량

 

독립표본에서는 모평균의 차이(μ1-μ2)에 대한 추론을 위해 표본평균의 차이에 대한 평균과 분산을 다음과 같이 구할 수 있음.

 

 

1-3. 표준정규분포를 가설검정

1. μ1-μ2에 대한 가설

 Z검정을 통해 모평균의 차이를 검정하는 경우는 단일 모수에 대한 검정과 마찬가지로 양측검정, 단측검정의 형태로 가설을 세울 수 있음. 특별히 제시되는 값이 없을 때 귀무가설에서는 μ1-μ2의 값을 0으로 가정. 즉, 귀무가설의 의미는 두 모집단의 모평균의 차이가 없다고 가정하는 것이 일반적임. 그러나 μ1-μ2 〓50 이라는 특정한 값이 주어지는 경우도 있음. 모평균의 차이에 대한 가설은 다음과 같이 구분.

 

2. 검정통계량 계산

 본 정보가 주어지면 이를 통해 검정통계량 z값을 계산, 주어진 유의수준에 따른 임계치와 비교한 후 귀무가설의 기각여부를 결정하는 절차도 단일 모수인 경우와 동일. Z검정을 위한 검정통계량은 다음과 같이 계산 가능.

 

 

1-4. t분포를 이용한 모평균의 차이 검정

1. t분포의 적용 상황 : 모집단이 정규분포이며 소표본인 경우

 두 모집단의 모평균에 대한 차이를 비교하는 경우 모분산이 알려져 있지 않고 표본이 소표본이라면 정규분포를 이용할 수 없음. 이러한 경우는 t분포를 이용한 추론을 할 수 있는데 단일 모평균에 대한 추정과 마찬가지로 각각의 모집단이 정규분포라는 가정이 필요.

 

2. 등분산의 가정

 t분포를 이용하여 두 모집단의 모평균을 비교하는 경우 일반적으로 등분산을 가정. 등분산은, 두 모집단의 모분산은 알려져 있지 않지만 동일한 값을 갖는다는 가정을 의미. 즉, (σ1)^2=(σ2)^2=σ^2 을 가정. 이 경우 가중평균된 분산(pooled variance: s^2)을 도출하고 자유도는 n1-1+n2-1=n1 + n2 - 2가 됨.
 표본 정보가 주어지면 이를 통해 검정통계량 t 값을 계산하고 주어진 유의수준과 자유도에 따른 임계치와 비교한 후 귀무가설의 기각 여부를 결정. 자유도 n1 + n2 - 2인 t검정을 위한 검정통계량은 다음과 같이 계산.

 

 

2. 독립표본에 대한 모비율 차이 검정

2-1. p1 - p2에 대한 가설

p1 - p2에 대해서도 특별히 제시되는 값이 없을 때는 귀무가설에서 0으로 가정. 즉, 귀무가설의 의미는 두 모집단의 모비율의 차이가 없다고 가정하는 것. 모평균의 경우와 마찬가지로 p1 - p2 〓 0.1 등과 같이 특정한 값이 주어지는 경우도 있음. 모비율의 차이에 대한 가설은 다음과 같이 구분.

 

 

2-2. 검정통계량

 표본 정보가 주어지면 이를 통해 검정통계량 z값을 계산하고 주어진 유의수준에 따른 임계치와 비교한 후 귀무가설의 기각 여부를 결정하는 절차도 모평균의 차이를 검정하는 경우와 동일. Z검정을 위한 검정통계량은 다음과 같이 계산.

 

 

3. F분포를 이용한 모분산 차이 검정

3-1. 모분산 차이에 대한 추론

 

 두 모집단에서 각각 독립적으로 표본을 추출할 때 표본분산을 구할 수 있으며, 표본분산의 확률분포에 따라 모분산의 차이를 추론할 수 있음. 이때 모집단은 정규분포를 따르는 것으로 가정. 두 개의 독립표본에서 추출된 두 개의 표본분산이 결합하여 이루는 확률분포는 F 분포를 따름.

 

 

3-2. (σ1)^2/(σ2)^2의 가설검정

 

 

 

3-3. 검정통계량

 F검정을 위한 검정통계량은 매우 간단함. 검정은 항상 귀무가설이 사실이라는 전제 하에서 실시하게 되므로 F검정의 귀무가설
H0 : (σ1)^2/(σ2)^2
= 1을 F분포의 확률변수를 유도하는 식에 대입하면 F검정의 검정통계량은 두 독립표본의 표본분산의 비율로 정의됨.

 

 

 

3-4. F검정의 특성

 모분산을 비교하는 F검정은 이론적으로 양측검정, 좌측검정이 가능하지만 사실상의 F검정은 우측검정만을 수행. F검정의 검정통계량은 두 개의 독립표본에서 표본분산을 구하여 두 표본분산의 비율로 정의되기 때문에 분자를 항상 표본분산이 큰 것으로 설정한다면 우측검정 만으로도 모분산의 차이를 검정할 수 있음.

 

 

 

4. 대응표본에 의한 차이 검정

4-1. 대응표본(matched samples)이란?

 대응표본(matched samples)은 독립이 아닌 모집단에서 무작위로 표본을 추출하거나, 동일한 모집단에서 특정한 상황에 따라 표본의 값이 어떻게 변화하였는가를 비교하는 것. 대응 표본을 이용한 평균의 차이를 분석하는 것을 쌍체비교(paired comparison test)라고 함.

 

 

4-3. t분포를 이용한 대응표본의 모평균 차이 검정

  - 귀무가설 : 모평균의 차이가 없음

  - 대립가설 : 모평균에 차이가 발생함

 

<예제>

 새로운 증권거래법의 시행으로 인해 포트폴리오 베타값이 변화했는지의 여부를 검정하고자 한다. 법령의 시행 전후에 39개의 포트폴리오에 대한 베타값의 변화를 측정한 결과(시 행 전 - 시행 후) 평균 0.23으로 나타났으며 표준편차는 0.14였다. 베타값이 변화했는지의 여부를 5% 유의수준으로 검정하라.

 

<해설>

 

 

 

 

참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion