본문 바로가기

통계학/기초통계학

9차시 - 확률변수의 특성 및 이산확률분포

1. 기댓값과 분산의 특성

1-1. 기댓값의 특성

 확률변수의 기댓값은 1차식으로 도출되기 때문에 다음과 같은 특성을 가짐. 확률변수를 선형적으로 변화시킬 경우 기댓값 또한 선형적으로 변화.

 

1-2. 분산의 특성

 확률변수의 분산은 편차의 제곱이기 때문에 상수만 추가될 경우는 분산의 변화에 영향 X. 분산은 2차식으로 도출되며 기댓값과의 편차 제곱에 대한 기댓값이므로 기댓값의 변화와 차이가 발생.
 상수가 확률변수에 곱해져서 식의 밖으로 나올 경우 제곱으로 표현. 또한 확률 변수간의 합에 대한 분산을 구할 경우는 독립인가의 여부에 따라 공분산의 값을 고려해야함.

 

 

2. 공분산의 정의 및 의미

2-.1 공분산(covariance)의 의미

 공분산은 두 확률변수 X, Y 사이의 선형관계가 어떤 방향으로 이루어지는지를 표현하는 수치. 두 확률변수 각각의 기댓값, 편차를 곱한 값에 대한 기댓값으로 정의.

 공분산은 분산의 개념이기 때문에 X와 X의 공분산은 곧 분산이 됨.

2-2. 공분산(covariance)의 의미

 공분산이 양수이면 X가 증가할 때 Y도 증가하는 + 선형관계, 음수이면 X가 증가할 때 Y는 감소하는 - 선형관계, 0이면 선형관계가 없다는 것을 의미. 또한 공분산은 확률변수가 취하는 값의 범위에 따라 다양한 값을 갖기 때문에 공분산의 범위는 -∞에서 +∞ 사이로 다양하다. 공분산은 수치 자체를 해석하지 않고 부호만 해석.
 공분산의 해석에서 주의할 점은 공분산이 0라고 해서 두 확률변수가 아무 관계가 없다(상호 독립이다)는 의미가 아니라는 것. 공분산이 0인 것은 변수간에 선형의 관계만 없다는 것을 의미. 다시 말하면 두 변수가 상호 독립이면 공분산은 0이 되지만 공분산이 0이라고 해서 두 변수가 상호 독립인 것은 X.

 

 

3. 상관계수(correlation coefficient)의 정의 및 의미

3-1. 상관계수(correlation coefficient)의 도출

 자료의 크기에 따라 다양한 값을 가질 수 있는 공분산의 값으로는 두 변수간의 선형관계의 강도 해석 X. 만약 두 변수 간에 선형관계가 있다면 그 강도가 얼마나 큰지를 알아야 하며 상관계수(correlation coefficient)는 선형관계의 방향 및 강도까지 나타내는 수치가 됨.

 

 상관계수는 공분산을 두 변수의 표준편차로 나눈 값이며 -1에서 1까지의 범위를 가짐. 상관계수는 단위가 없고 표준화된 값. 그러나 상관계수를 통해 두 변수간의 인과관계까지는 파악하지 못함.

 

 

 

3-2. 상관계수(correlation coefficient)의 해석

 공분산과 상관계수의 부호는 같으므로 상관계수가 양수일 때 선형관계는 양의 방향, 상관 계수가 음수일 때 선형관계는 음의 방향. 상관계수의 값이 절대값 1에 가까워질 수록 선형관계의 강도는 크다.

 

<예제>

 주식 시장 환경을 호황, 정상, 불황으로 나눌 때 각각의 경우에서 두 주식 X, Y의 수익률 이 다음과 같을 때 공분산과 상관계수를 구하고 의미를 해석하라.

 

<해설>

X, Y에 대한 기댓값과 표준편차를 각각 구해 보면 다음과 같다.
E(X) 〓 0.08, E(Y) 〓 0.2, σ(X) 〓 0.263, σ(Y) 〓 0.166
Cov(X,Y) 〓 (-0.1-0.08)
×(0.5-0.2)×0.4 + (0.1-0.08)×(0-0.2)×0.3 + (0.3-0.08)×(0-0.2)×0.3 〓 -0.036(음의 선형관계가 있음)

 

4. 이산확률분포

4-1. 이산확률분포(discrete probability distribution)의 개념

 이산확률분포(discrete probability distribution)는 이산확률변수를 갖는 분포이므로 개별 변수에 대한 확률을 계산할 수 있음. 확률함수의 형태는 P(X=x)로 나타나며 확률분포표의 작성이 가능함.

 

 

4-2. 대표적인 이산확률분포

1. 베르누이 시행과 이항분포

 

  (1) 베르누이 시행의 정의

 확률실험의 결과로 나타나는 표본공간이 상호배타적인 두 개의 원소로 구성된 실험의 시행을 의미. 상호배타적인 두 개의 표본공간은 성공(sucess)과 실패(failure)로 구분.

 

  (2) 이항분포(binomial distribution)의 개념

 반복 시행을 했을 때 매번의 시행마다 성공의 확률이 일정한 베르누이 시행을 n번 독립적으로 시행하여 얻은 분포로 정의. 이항분포는 베르누이 시행을 독립적으로 n번 시행해서 나오는 확률변수에 대한 확률분포.
 분포 형태를 결정하는 두 가지 모수는 시행 횟수 n, 매번 시행에서 나오게 되는 성공의 확률 p.
 이항분포의 형태는 p가 0.5에 가까울수록 좌우대칭인 종모양이 되며, 만약 n 이 커지면 p의 값에 관계없이 좌우대칭인 종모양을 이루게 됨.

 

<이항변수의 예>
동전을 5회 던졌을 때 앞면이 나오는 횟수
금융상품 가입 상담건수 10회 중 실제 가입이 이루어진 회수

 

  (3) 이항분포의 확률

 

  (4) 이항분포의 기댓값과 분산

 

<예제>

강남구 O동에 위치한 외제 자동차 대리점에는 하루에 평균 세 사람이 방문하고 방문한 고객이 실제로 자동차를 구매할 확률은 60%라고 한다. 이 대리점에서 하루에 판매한 자동차의 수가 1대일 확률은? 또한 하루에 판매한 자동차 대수의 기대치와 분산을 구하라.

 

<해설>

 

 

2. 포아송분포(Poisson distribution)

 

  (1) 포아송 분포의 정의

 포아송분포는 단위구간, 단위시간, 단위면적 등의 특정한 시간이나 공간에서 발생한 사건 발생수의 분석에 이용. 이 때 단위구간은 무수히 많은 소구간으로 나눠질 수 있어야 함. 소구간이란 사건 발생 확률이 0에 가까울만큼 매우 짧은 구간을 의미. 각 단위구간은 독립적이어야 함. 이러한 조건이 만족되면 포아송분포의 각 구간에서 사건이 발생할 확률은 구간의 길이에 비례.

 

  (2) 포아송변수의 예

 

  (3) 포아송분포의 확률함수

 x를 단위시간당 사건발생 수라 할 때 포아송분포의 확률함수는 평균 사건발생수( λ)에 의해 유도됨. 포아송분포의 확률은 대부분의 통계교재에서 부록으로 제시하는 포아송분포표를 이용하여 계산 가능.

 

<예제>

(주)태기의 직원이 한 달 동안에 지각하는 평균횟수는 0.3회로 나타났다. 임의의 한 직원 이 한 달간 전혀 지각하지 않을 확률은 얼마인가?

 

<해설>

 

  (4) 포아송분포의 기댓값과 분산

 포아송분포의 기댓값과 분산은 동일하게 λ로 정의.

 

  (5) 포아송분포를 이용한 이항분포의 근사

 이항분포는 n과 p라는 두 개의 모수에 의해 유도되지만 포아송분포는 λ라는 하나의 모수에 의해 유도되므로 이항분포를 포아송분포로 근사시켜 확률을 구하는 경우도 있음.
 경험적 연구에 의하면 이항확률변수 X는 n이 무한히 커지고 성공의 확률 p가 매우 작다면 (근사적으로 n ≥30 or p ≤.05)
λ 인 포아송분포를 따르는 것으로 알려져 있음.

 

 

 

 

참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion