1. 중심경향도
1-1. 평균, 산술평균(arithmetic mean)
산술평균은 항상 유일한(unique) 수치로 계산되며 모든 자료의 값이 다 반영되어서 계산된 수치. 가장 대표적인 중심경향도로 사용되는 것.
- 모평균(population mean)
모집단 전체의 자료를 합하여 자료의 총 관측수로 나눈 값. 모집단의 크기를 N, 개별 관측치를 Xi라 하면 모평균은 다음과 같음.

2. 표본평균(sample mean)
표본전체의 자료를 합하여 자료의 총 관측수로 나눈 값. 표본의 크기 n, 개별 관측치를 Xi.

1-2. 가중평균(weighted mean)
가중평균은 각 관측치에 대한 가충치가 다를 때 평균을 구하는 방법. 가중치의 총합이 1이 되는 경우 가중평균은 단순히 개별 관측치와 가중치를 곱한 값을 모두 더해서 구해짐. 가중치의 합이 1이 아닌 경우 개별 관측치와 가중치를 곱한 값을 모두 더한 후 가중치의 총합으로 나누면 가중평균을 구할 수 있음.

1-3. 중위수(median)
중위수는 자료를 크기 순서로 배열했을 때 중앙에 위치하게 되는 수치로 중위수라고도 부름. 중위수를 기준으로 전체 자료의 50%는 중위수 하부에, 나머지 50%는 중위수 상부에 분포. 자료의 수가 짝수인 경우 중앙의 두 개 수치를 산술평균한 값이 중위수. 평균과 마찬가지로 항상 유일한 값을 지님.
1-4. 최빈수(mode)
최빈수는 가장 빈도가 높은 자료로 정의. 유일한 값으로 계산되지 않을 수 있음. 명목자료는 자료의 대표치로 최빈수만 적용할 수 있음.
1-5. 중심경향도 수치간의 관계
대표치로 가장 많이 사용되는 수치는 모든 자료의 정보가 포함되는 산술평균이지만 상황에 따라 부적절 할 때가 있음. 이런 경우 중위수나 최빈수가 자료의 대표치로 더 적합. 부적절한 경우는 다음과 같음.
- 자료에 극단적인 값이 포함된 경우
- 명목자료나 서열자료와 같은 질적 자료의 경우
- 개방구간을 가진 도수분포 자료
- 자료의 수가 매우 적은 경우
2. 분산도(산포도, dispersion)
2-1. 분산(variance)
분산은 평균과 개별 관측치 간의 차이를 제곱한 후 그 평균값을 계산하여 구함. 분산의 값은 0보다 크거나 같으며 분산이 0이라는 것은 모든 관측치가 동일하다는 것을 의미.
1. 모분산(population variance)
모집단의 개별 자료와 모평균의 차이를 제곱하여 평균을 구한 값. 모집단 자료의 산포도를 나타냄.

2. 표본분산(sample variance)
표본의 개별 자료와 표본평균과의 차이를 제곱하여 평균을 구한 값. 표본 자료의 산포도를 나타냄. 모분산과 달리 분모를 표본의 크기-1인
n-1로 나눠야 함. n으로 나누어 표본분산을 구할 경우 모분산을 과소추정하게 됨.

2-2. 표준편차(standard deviation)
분산은 산포도를 직접적으로 해석하는 데에 어려움이 있음. 분산에 양의 제곱근을 구하여 원래의 측정단위와 같도록 구한 수치.
1. 모표준편차(population standard deviation)
모집단의 개별 자료가 모평균과 얼마나 떨어져 있는가를 나타내는 수치. 모분산의 양의 제곱근.

2. 표본표준편차(sample standard deviation)
표본의 개별 자료가 표본평균과 얼마나 떨어져 있는가를 나타내는 수치. 표본분산의 양의 제곱근.

2-3. 범위(range)
자료의 최대값과 최소값의 차이로 정의. 산포도 중에 가장 간단히 도출되는 수치.
2-4. 평균절대편차(MAD)
평균절대편차(Mean Absolute Deviation)는 개별 자료와 평균과의 편차의 절대값을 평균한 값.

2-5. 변동계수(CV)
대표치가 서로 다른 자료간의 산포도를 비교할 수 있는 수치가 필요한데 이것을 변동계수(coefficient of variation)또는 분산계수라고 함. 상대적 표준편차라고 불리며 산술평균에 대한 표준편차의 비율로 계산. 변동계수가 크면 자료는 대표치에 대한 개별 자료의 변동성이 더 심하다고 할 수 있음.

3. 왜도 및 첨도
3-1. 왜도의 도출
왜도(skewness)는 분포의 비대칭 정도를 나타내는 수치이며 비대칭도라고 함.

3-2. 왜도의 해석
왜도는 대칭인 분포(symmetrical distribution)인가 비대칭적인 분포(asymmetrical distribution)인가를 나타내는 수치.
- 좌우가 대칭인 분포는 왜도의 값이 0. 대표적으로 정규분포를 들 수 있으며 평균을 중심으로 종모양의 곡선을 이룸. 좌우대칭인 분포의 경우 평균=중앙치=최빈치라는 식이 성립.
- 자료의 분포가 오른쪽으로 치우쳐져 있고 자료에 극단적으로 작은 값이 존재해서 왼쪽으로 꼬리가 생기는 분포(negatively skewed, skewed to the left). 이 경우 왜도의 수치는 음수, 음의 값이 클수록 왼쪽으로 긴 꼬리를 갖는다는 의미. 평균은 극단적인 값에 영향을 받게 되므로 가장 적은 값을 갖게 됨. 자료의 대표치 사이에는 평균 < 중앙치 < 최빈치의 식이 성립.
- 자료의 분포가 왼쪽으로 치우쳐져 있고 자료에 극단적으로 큰 값이 존재해서 오른쪽으로 꼬리가 생기는 분포(positively skewed, skewed to the right). 이 경우에 왜도의 수치는 양수, 양의 값이 클수록 오른쪽으로 긴 꼬리를 갖는다는 의미. 평균은 극단적인 값에 영향을 받게 되므로 가장 큰 값을 갖게 됨. 자료의 대표치 사이에는 평균 > 중앙치 > 최빈치의 식이 성립.
4. 첨도의 도출 및 의미 해석
4-1. 첨도의 도출
첨도(kurtosis)란 자료의 분포가 얼마나 중심에 집중되어 있는가를 나타내는 수치. 첨도의 수치를 통해 자료의 분포가 얼마나 뾰족한 가를 측정할 수 있음. 자료의 뾰족한 정도는 정규분포를 기준으로 하여 상대적으로 나타내는 경우가 일반적. 첨도는 개별 자료와 평균과의 편차를 네제곱하여 구함. 공식에 의해 첨도를 계산하면 기준이 되는 정규분포의 경우 3.
정규분포를 기준으로 하는 상대적 첨도를 초과첨도(excess kurtosis)라고 하는데 첨도의 식에 서 3을 빼서 구함. 따라서 정규분포일 경우 초과 첨도는 0이며 정규분포보다 뾰족한 경우 초과첨도는 양수, 반대의 경우에는 음수.

4-2. 첨도의 해석
일반적으로 많은 자료의 분포는 정규분포라는 가정을 하고 자료에 대한 분석을 수행하는 경우가 많음. 그러나 왜도와 첨도의 수치를 통해 분포의 모양이 정규분포와 다르게 나타나게 된다면 정규분포를 가정한 후 적용할 수 있는 통계적 분석방법에 대하여 재검토해야 함.
- leptokurtic 분포
초과첨도가 양의 값이 나오는 경우로 정규분포에 비해 많은 자료가 평균 근처에 분포. 반면 또 다른 많은 자료들은 평균과의 편차가 크게 나타나서 정규분포에 비해 상대적으로 두꺼운 꼬리를 갖게 됨. - platykurtic 분포
초과첨도가 음의 값이 나오는 정규분포에 비해 높이가 낮은 분포를 말함.
참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion
'통계학 > 기초통계학' 카테고리의 다른 글
6차시 - 다양하게 활용되는 조사방법2 (0) | 2020.02.09 |
---|---|
5차시 - 다양하게 활용되는 조사방법1 (0) | 2020.02.09 |
4차시 - 다양하게 활용되는 자료측정방법 (0) | 2020.02.09 |
2차시 - 자료수집방법 및 정리 (0) | 2020.02.07 |
1차시 - 통계의 기초 및 자료수집척도 (0) | 2020.02.06 |