1. 표본비율의 확률분포
표본비율의 확률변수는 경험적 연구결과에 따르면 np≥5, nq≥5일 때 정규분포에 근사하는 것으로 알려져 있음. 따라서 표준정규분포로 전환하여 확률을 계산 가능. 표준정규분포 변수로 전환하는 과정은 다음과 같음.
표본비율의 표준오차는 √pq/n이며 표준정규분포로 바꾸는 과정은 다음과 같음.
<예제> K은행과 L정보통신은 휴대폰으로 은행 업무를 볼 수 있는 서비스를 제공하고 있다. 고객 확보를 위해 무상으로 단말기를 지급한다고 할 때 L정보통신으로 이동 가입하려는 고객 은 잠정적으로 25%일 것으로 추정된다. 다른 정보통신 가입자 중에 K은행 고객인 100명을 대상으로 30명 이상이 L정보통신으로 이동할 확률은?
<해설>
2. 표본분산의 확률분포
2-1. 카이제곱(x^2) 분포의 개념
모분산에 대한 추정 및 가설검정을 위한 유일한 통계적 도구인 카이제곱 분포. 카이제곱 분포는 변수간의 독립성 검정 통계적 분석을 위한 여러 가지 가정에 대한 적합성 검정에도 이용됨. 상호 독립인 n개의 표준정규변수가 있을 때 변수들의 제곱의 합으로 유도.
1. 카이제곱 분포는 자유도에 따라 상이하며 오른쪽으로 꼬리를 갖는 비대칭 분포.
2. 카이제곱 분포의 확률변수는 항상 0.
2-2. 표본분산과 카이제곱 분포
표본분산의 확률분포는 유일하게 카이제곱(x^2) 분포로 설명됨. 자유도 n-1인 카이제곱 분포와 표본분산과는 선형관계가 성립.
3. 추정(estimation)의 개념
3-1. 추정이란?
추정은 표본을 추출하여 표본통계량의 확률분포에 의해 모수를 추론하는 과정을 의미. 추정을 위해 사용되는 표본통계량을 추정량(estimator)이라고 함. 대표적인 추정량으로는 모평균을 추정하는 표본평균, 모분산을 추정하는 표본분산 등이 있음.
추정의 방법은 단일 추정치에 의해 모수를 추정하는 점추정과 모수가 속할 것으로 기대되는 실수구간을 제시하는 구간추정이 있음.
3-2. 점추정
1. 점추정(point estimation)이란?
점추정(point estimation)은 선정된 추정량을 추출된 표본자료에 대입하여 얻은 단일 추정치에 의하여 모수를 추정하는 방법을 의미.
2. 바람직한 추정량의 성질
- 불편성 : 추정량의 기대값이 추정하고자 하는 모수와 일치하는 성질
- 효율성 : 불편 추정량 중에 분산이 가장 적은 추정량
- 일치성(일관성) : 표본의 크기가 커짐에 따라 추정량이 모수의 참값에 근사하게 되는 성질
3-3. 구간추정(interval estimation)
1. 구간추정(interval estimation)이란?
미지의 모수가 속할 실수구간을 구하는 것. 모수가 속할 실수구간을 신뢰구간이라고 함.
2. 신뢰구간(confidence interval)
모수가 속할 구간은 신뢰구간(confidence interval)이라고 부르며 상한치와 하한치가 주어짐. 신뢰구간은 추정된 신뢰구간이 모수를 포함할 확률에 따라 도출되는데 이러한 확률을 신뢰수준(level of confidence)이라고 함. 신뢰수준은 일반적으로 1- α로 나타나며, 여기서 α는 유의수준(level of significance)이라고 함. 신뢰수준은 90%, 95%, 99%를 주로 적용.
4. 모평균의 추정
4-1. 모평균의 구간추정
1. 모평균의 구간추정을 위한 요소
모평균의 구간추정은 점추정량인 표본평균을 중심으로 수행됨. 따라서 표본평균의 확률분포가 중요한 역할. 모평균의 신뢰구간은
점추정량±신뢰계수×표준오차의 형식으로 구해짐.
2. 모평균의 추론을 위해 사용되는 분포
4-2. 표준정규분포의 활용
1. 모평균 신뢰구간의 분포
표준정규분포를 사용하여 100(1- α)%의 신뢰구간을 설정하는 경우라면 다음과 같은 그림으로 신뢰구간을 나타낼 수 있음.
2. 표준정규분포의 신뢰계수
모평균의 추정으로 정규분포를 사용하는 경우에는 일반적으로 사용하는 100(1- α)%의 신뢰 구간에 대한 신뢰계수 Z(a/2)값을 기억해 두면 편리. 유의수준 α가 10%, 5%, 1%일 때 각각 90%, 95%, 99% 신뢰구간에 해당하는 Z(a/2)값은 다음과 같음.
4-3. 표준정규분포를 적용할 수 있는 상황
1. 모분산이 알려져 있고 정규모집단인 경우
2. 대표본의 경우
4-4. 신뢰구간의 길이
모평균의 신뢰구간의 폭은 신뢰수준에 영향을 받음. 신뢰수준은 신뢰구간이 나타내는 확률 분포 곡선상의 면적이므로 신뢰수준 100(1- α)%가 증가하면 신뢰구간의 길이도 넓어짐. 또한 모집단의 신뢰구간은 표준오차에 의해서도 영향을 받게 됨. 모집단의 표준편차나 표본의 표준편차가 커지면 표준오차가 증가하므로 신뢰구간의 폭은 넓어짐. 그러나 표본의 크기가 증가하면 표준오차인 σ나 s가 감소하게 됨. 만약 신뢰구간의 폭을 2배로 줄이고 싶다면 표본의 크기를 4배로 증가시키면 됨. 표준오차를 구할 때 표본의 크기는 분모에 √n의 형태로 들어가기 때문.
4-5. t분포를 이용한 모평균의 추정
모분산이 알려져 있지 않고 소표본이며 정규모집단인 경우 표본평균의 확률분포는 자유도 n-1 인 t분포를 따르게 됨. 또한 t분포를 사용하는 경우에는 반드시 모집단의 확률분포가 정규분포이어야 함.
<예제>
(주)광우 직원들의 연평균수입은 정규분포를 따른다고 한다. 25명의 직원들을 추출하여 연평균수입을 조사한 결과 표본평균은 3,500만원으로 나타났다. 모표준편차가 800만원이라고 할 때 모평균에 대한 95% 신뢰구간을 구하라.
5. 모비율의 추정
5-1. 정규분포 적용
표본비율의 확률분포는 np≥5, nq≥5일 때 근사적으로 평균 p, 분산 pq/n인 정규분포를 따르는 것으로 알려져 있음. 즉, ^p~N(p,pq/n)이므로 표준정규분포로 전환할 수 있음. 따라서 모비율의 신뢰구간은 다음과 같이 설정.
5-2. 표본비율 신뢰구간 추정 사례
참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion
'통계학 > 기초통계학' 카테고리의 다른 글
13차시 - 주요 모수에 대한 가설검정 (0) | 2020.02.19 |
---|---|
12차시 - 표본크기 결정 및 가설검정 기초 (0) | 2020.02.18 |
10차시 - 연속확률분포 및 표본평균의 확률분포 (0) | 2020.02.16 |
9차시 - 확률변수의 특성 및 이산확률분포 (0) | 2020.02.14 |
8차시 - 확률변수의 다양한 특성 (0) | 2020.02.12 |