본문 바로가기

통계학/기초통계학

8차시 - 확률변수의 다양한 특성

1. 결합확률분포

1-1. 결합확률분포(joint probability distribution)의 개념

 결합확률(joint probability)은 교집합의 확률, 즉 두 개 이상의 사상이 동시에 발생할 확률을 의미. 따라서 결합확률분포(joint probability distribution)는 두 개 이상의 확률변수에 대한 결합적 관계에 대해 확률분포를 구하는 것.

 

 

1-2. 결합확률함수(joint probability function)

 이변량 확률분포에서 결합확률함수(joint probability function)는 임의의 두 확률변수 X, Y 가 동시에 발생할 확률을 의미. 예를 들어 기업의 매출 성과를 설명하는 변수 중에 하나로 광고효과를 분석한다면 두 변수간의 결합적 관계에 따른 확률을 구해야 함. 이변량 결합확률함수를 표기하는 방법은 f(x,y) = P(X=x,Y=y) 등이다. 또한 결합확률함수는 교집합의 확률을 구하는 것이기 때문에 f(x,y) = P(X=x∩Y=y) 라고 표현 가능.

 

결합확률함수도 마찬가지로 확률을 구하는 함수이기 때문에 일반적인 확률함수와 동일한 개념의 조건이 필요.

1. 모든 실수값 x, y에 대하여

2. 변수 X와 Y가 취할 수 있는 모든 가능한 값에 대한 확률의 합은 1

 

 

1-3. 주변확률의 정의 및 도출

 주변확률 또는 한계확률(marginal probability)은 다른 확률변수와 관계없이 발생하는 개별변수의 확률. 조건부확률과 대비되는 개념으로 비조건부 확률(unconditional probability) 이라고도 함. 총확률정리를 통해 정의되는 단일 사건에 대한 확률 또한 주변확률의 개념이라고 할 수 있음.

 

 

1-4. 결합확률분포를 통한 변수간의 독립성 검정

(1) 결합확률과 독립성

 결합확률은 교집합의 확률이므로 확률의 곱셈법칙을 이용하여 변수간의 독립성 여부를 파악 가능. 만약 두 변수가 상호 독립이라면 확률의 곱셈법칙의 예외적인 경우가 되며 결합확률은 각 변수의 주변확률을 곱한 식으로 표현 가능. 두 확률변수가 상호 종속이라면 결합확률은 각 변수간의 주변확률을 곱한 수치와 다르다. 두 확률변수가 상호 독립이라는 것은 서로 발생 확률에 영향을 주지 않는다는 의미이며 동시에 발생하지 않는 것은 아니다.

(2) 결합확률과 조건부확률

 결합확률과 주변확률을 이용하면 조건부확률을 구할 수 있음. 조건부확률은 하나의 변수의 값이 주어졌다는 조건하에서 다른 변수가 특정한 값을 가질 확률로 정의됨. 개별 변수 Y가 특정한 값 y로 값이 주어졌을 때 변수 X가 특정한 값 x를 취할 확률은 다음과 같은 식으로 계산.

<예제>

S 증권회사에서는 학력과 주식투자 성과간의 관계를 알아보기 위해 결합확률분포표를 작성하였다. 변수 X는 투자성과, 변수 Y는 학력이라고 할 때 두 변수간의 독립성 여부를 조사하라. 또한 투자성과가 우수할 확률 및 학력이 고졸인 투자자가 우수한 성적을 냈을 확률을 구하라.

<해설>

 두 변수간의 독립성을 파악하기 위하여 전문대졸의 투자자가 보통의 성과를 낸 경우에서 f(x,y) = f(x)f(y) 인지를 검사하기로 한다. 결합확률에 해당하는 f(보통, 전문대졸) = 0.14 이며 각각의 주변확률을 곱한 값은 0.35×0.32 〓 0.11 이므로 f(x,y) ≠ f(x)f(y)이다. 따라서 학력과 투자성과는 독립이 아니며 연관이 있는 변수라고 할 수 있다.
 투자성과가 우수할 확률은 학력에 상관없는 개별변수 X의 주변확률을 말한다. P(X〓보통)일 확률은 주변확률인 0.35이다. 학력이 고졸이라는 조건에서 투자자가 우수한 성적을 냈을 확률은 결합확률과 주변확률을 이용한 조건부확률로 계산한다.

 

 

2. 확률변수의 기댓값 도출

 확률변수는 수치자료이기 때문에 확률변수의 특성을 설명하기 위해 중심경향도와 산포도의 개념을 적용할 필요가 있음. 확률변수의 중심경향도는 평균의 개념인 기댓값으로 표현. 산포도는 분산과 표준편차로 설명 가능. 자료가 확률변수인 경우에는 일반 자료에서와 달리 기댓값과 분산을 구할 때 확률을 가중치로 계산.

 

 

2-1. 기댓값(expected value)의 정의 및 특성

 기댓값(expected value)은 확률변수의 중심 경향을 나타내 주는 수치적 척도로서 확률변수가 취할 수 있는 모든 값의 평균을 의미. 확률변수의 평균은 도수분포표로 정리된 자료의 평균을 구하는 공식에서 상대도수를 가중치로 계산한 것을 확률로 대체하여 계산하게 되는 개념. 즉, 각 변수가 발생할 확률은 상대도수의 개념이며 이 확률을 가중치로 하여 가중 평균을 계산한 것이 확률변수의 기댓값.

 

 기댓값은 확률실험을 장기적으로 실행하여 나타나는 확률변수들의 평균을 계산했을 때 얻어 질 것으로 기대되는 수치이며 실험을 무수히 반복했을 때 확률변수 평균의 극한값 또는 장기 적 평균의 개념으로 이해할 수 있음. 기댓값의 도출식은 확률 가중평균식이라고도 할 수 있음.

 

 

2-2. 기댓값(expected value)의 응용

 기댓값은 확률변수에 대한 확률가중평균을 구한 것이며 확률이론을 적용하여 개념을 확장시킬 수 있음. 기댓값의 응용 사례로 대표적인 것은 확률변수에 대한 함수적 변화가 있을 때의 기댓값과 조건부 확률의 이론을 적용한 조건부 기댓값의 개념.

 

1. g(X)의 기댓값

 확률변수는 수치자료이므로 확률변수 X에 대한 일반적인 함수형태의 기댓값도 동일한 개념을 적용하여 구할 수 있음. 확률변수는 주어진 함수에 따라 값이 변하지만 확률은 항상 일정하게 가중치의 역할을 함.

 확률변수 X가 새로운 형태의 함수로 정의되는 경우를 g(X)라고 하면 g(X)의 기댓값은 확률 변수의 형태만 변화하고 동일한 확률을 가중치로 적용하는 것.

 

2. 조건부 기댓값(conditional expected value)

 조건부 기댓값(conditional expected value)은 조건부 확률의 개념을 기댓값에 적용하여 특정한 사건이 발생됐다는 조건하에서 확률변수 X의 기댓값을 구하는 것. 기댓값은 확률을 가중치로 평균을 구한 값인데 조건부 기댓값에서는 확률이 조건부 확률로 주어지게 됨. 또 한 조건부 기댓값이 계산되면 총확률 법칙을 적용하여 확률변수의 기댓값을 도출 가능.

 

 

3. 확률변수의 분산 및 표준편차 도출

3-1. 분산(variance)의 도출

 확률변수의 분산(variance)은 확률변수의 산포도를 측정하는 도구. 확률변수의 기댓값이 구해지면 개별 확률변수와 기댓값과의 편차를 제곱하여 확률 가중치를 부여한 평균값이 분산. 확률변수의 분산 기호는 Var(X), V(X), σ ^2(X) 등을 사용.

 

 

3-2. 표준편차(standard deviation)의 도출

 분산은 원래의 단위에서 제곱이 되기 때문에 해석상의 어려움이 있으므로 분산의 양의 제곱 근으로 표준편차(standard deviation)를 도출.

 

<예제> 다음의 확률분포를 갖는 이산확률변수 X의 기댓값과 분산을 구하라.

 

<해설>

E(X) 〓 1 × 0.2 + 2 × 0.3 + 3 × 0.3 + 4 ×0.2 〓 2.5

Var(X) 〓 1^2 ×0.2 + 2^2 ×0.3 + 3^2 ×0.3 + 4^2 ×0.2 - 2.5^2 〓 1.05

 

 

 

참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion