본문 바로가기

통계학/기초통계학

2차시 - 자료수집방법 및 정리

1. 자료의 확보

1-1. 전수조사와 표본조사

  • 전수조사 : 대상모집단의 모든 구성원소를 전부 조사하는 것
  • 표본조사 : 시간 및 비용 등의 제약으로 대상모집단의 일부를 조사하는 것

1-2. 시계열 자료와 횡단면 자료

  • 시계열 자료(time-series data) : 일정 기간 동안 동일한 시간간격에 따라 수집된 자료
    (ex : A사의 월별 매출액, 일별 주가변동현황, 분기별 영업 실적 등)
  • 횡단면 자료(cross-sectional data) : 특정한 단일 시점에서 여러 대상을 통해 수집된 자료
    (ex : 201X년 12월 X일 코스닥 등록업체의 주가 자료)

1-3. 2차 자료와 1차 자료

  • 2차 자료(secondary data) : 출판물, 정부통계, 신문기사 등 다른 사람이 만들어 놓은 자료
  • 1차 자료(primary data) : 실험(experiment), 관찰(observation) 또는 서베이(survey)등을 통해 직접 수집한 자료

 

2. 확률표본추출을 통한 자료의 수집

 확률표본추출을 통한 자료의 수집은 사전에 모집단의 개체가 표본으로 선택될 확률이 알려진 것

 

2-1. 단순 무작위 추출법(simple random sampling)

 모집단의 개체가 표본으로 선택될 확률이 모두 동일하도록 표본을 추출하는 방법으로 가장 기본적인 표본추출법. 전체 모집단의 개체에 일련번호를 부여한 후 난수표(random number table)를 이용하거나 컴퓨터를 이용하여 난수를 발생시켜 표본을 추출하는 것이 일반적.

 모집단 개체의 수가 N, 표본의 크기가 n일 때 단순 무작위 표본을 추출하는 경우의 수는 NCn 가지가 된다. 예로 모집단의 개체가 10이고 표본의 크기가 2인 표본을 뽑을 수 있는 총 경우의 수는 10C2가지로 45개의 서로 다른 표본을 추출할 수 있음.

 

2-2. 층화추출법(stratified sampling)

 단순 무작위 추출의 경우 모집단 전체에서 한꺼번에 표본을 추출, 표본이 전체 모집단의 층을 골고루 반영하지 못할 경우가 있음. 이러한 단점을 보완하기 위해 모집단을 일정한 기준에 따라 층(strate)별로 구분한 후 각 층에서 표본을 추출하는 방법이 층화추출법.

 예를 들어 모집단을 지역, 교육, 소득, 연령, 성 등의 기준으로 층을 나눈 후 각 층에서 모집단 대비 층별 비율에 따라 일정수를 표본으로 무작위 추출하는 것. 주식 시장의 예로 수익률의 분포에 따라 적절한 층으로 나누고 각 층에서 표본을 뽑는다면 표본은 모집단의 특성을 비교적 고르게 반영할 수 있음.

 

2-3. 계통추출법(systematic sampling)

 모집단에 일련의 번호를 부여, 매번 추출할 때마다 k번째 원소를 추출하는 방법. 표본의 크기를 n으로 할 경우 모집단을 k=N/n개로 그룹화. 처음 k개 원소 중 하나를 임의로 추출(i번째), 다음은 i+k, i+2k, i+3k, ... 순서로 추출하는 방법.

 예로 100개의 모집단 원소에서 20개의 표본을 추출하고자 할 때 k=100/20=5가 됨. 일련번호를 붙인 모집단 원소의 처음 5개에서 임의로 추출했을 때 3번의 원소가 선택되면 다음은 8번(3+5), 13번(3+5*2), 18번(3+5*3), ...의 순서로 20개의 표본을 추출. 이러한 방법은 대규모의 가구 조사, 여론조사 등에서 많이 활용, 번지나 전화번호 등에 일련번로를 부여하여 계통 추출을 함.

 

2-4. 집단(군집)추출법(cluster sampling)

 모집단을 집락(cluster)이라는 소집단으로 구분한 후 무작위추출법으로 집락들을 선택. 선택된 집락 내에서 무작위로 표본을 추출하는 방법.

이 방법을 적용하는 대표적인 예로 지역적으로 넓게 분포되어 있는 모집단에서 표본을 추출하는 경우가 있음. 서울시내 가구당 월평균 소득을 조사한다고 할 때 구별 혹은 동별로 집락을 구분, 각 집락에 대해 무작위로 표본을 추출하거나 일차적으로 집락(구나 동)을 무작위로 추출한 후 추출된 집락에서 다시 무작위로 표본을 추출하는 방법을 적용할 수 있음.

 

 

3. 비확률표본추출을 통한 자료의 수집

  1. 편의표본추출법
     표본선정에 따르는 여러 가지 편의성을 기준으로 표본을 추출하는 방법. 사전조사 등 간단한 조사에 적용하는 경우가 일반적.
  2. 판단표본추출법
     조사자의 판단을 통해 최적표본이라고 판단되는 표본을 선정, 조사하는 방법. 전문가 조사 등에 많이 활용.
  3. 할당표본추출법
     소비자조사에서 가장 일반적으로 사용되는 방법. 층화추출법과 마찬가지로 계층화의 원리에 따라 계층별 집단을 설정, 각 집단별로 정해진 크기의 표본을 조사하는 방법. 계층을 나누는 절차는 층화추출법과 동일하되 최종적으로 표본을 선택할 때 무작위의 원칙을 지키는가의 차이만 발생. 계층으로 구분된 집단의 모집단 크기에 따라 표본크기를 비례할당하는 경우와 모집단 크기와 무관하게 표본크기를 할당하는 방법이 있음.
  4. 비확률표본추출법의 특수형태
    (1) 집단 면접 표본 : 5~10명으로 구성되는 집단을 하나의 표본으로 간주, 동시적으로 자유로운 조사를 진행하는 방법. FGI(Focus Group Interview)에서 사용됨.
    (2) 상점가 차단표본 : 여러 개의 도시로부터 다양한 사회경제적 지위를 갖는 인구집단을 포함하기 위해 상점가내의 특정 위치에서 응답자를 모집하는 방법
    (3) 눈덩이 표본 : 조사자가 적절하다고 판단하는 조사대상자들을 선정, 그들로 하여금 또 다른 조사대상자들을 추천하도록 하는 방법
  5. 통제패널표본 : 대규모 패널 중 여과 질문(스크리닝)을 통해 해당 조사의 목적에 부합하는 응답자를 조하는 방법. 온라인 조사에서 널리 사용

 

4. 도수분포표를 활용한 자료의 정리

 

4-1. 도수분포표

 수집된 자료를 제한된 수의 구간 혹은 계급(class)으로 나누고 각 구간에 속한 자료의 빈도를 헤아려 기록한 표

 

4-2. 상대도수, 누적도수, 누적상대도수

  일반적으로 표를 이용한 자료의 요약에서는 도수뿐만 아니라 상대도수, 누적도수, 누적상대도수를 한꺼번에 동일한 표에 표현하기도 함.

 

  1. 상대도수(relative distribution)
     각 계급의 도수와 전체 도수와의 비율을 나타내는 것으로 전체에서 해당 계급구간의 자료가 몇 %를 차지하는가를 파악할 수 있음.
  2. 누적도수(cumulative distribution)
     해당 계급 이전까지의 도수에 대한 누적값을 나타냄.
  3. 누적상대도수(cumulative relative distribution)
     전체 자료의 수에서 해당 계급의 누적도수에 대한 비율을 말함.

 

 

5. 그래프를 활용한 자료의 요약

 그래프를 이용할 경우 자료를 보다 시각적으로 표현. 그래프는 자료의 특성을 적절히 반영할 수 있는 형태를 다양하게 활용함.

 

5-1. 막대그림표(histogram)

 도수분포표에 의해 구분된 자료들은 자료의 분포를 시각적으로 보여주는 막대그림표를 이용하여 보다 쉽게 표현될 수 있음. 막대그림표의 가로축은 계급간격, 세로축은 도수를 나타냄. 계급구간의 크기는 일정해야 하므로 막대그림표의 가로축은 그 폭이 항상 같음.
상대도수, 누적도수, 누적상대도수에 대해서도 막대 그림표를 작성할 수 있음. 

 

5-2. 도수다각형(polygon)

  막대그림표와 더불어 자주 이용되는 것은 꺾은선그래프라고 불리는 도수다각형(polygon)임. 도수다각형은 막대그림표를 연속적인 그래프의 형태로 나타낸 것으로 막대그림표의 중간값을 연결한 그래프. 도수다각형은 계급 구간안의 개별 자료들이 각각 서로 다른 값을 취한다는 것을 동적으로 표현한 것이라 할 수 있음.

 

5-3. 파이차트(Pie Chart)

각 구성요소가 전체 중에서 차지하는 비율을 표현, 주로 질적 자료의 시각적 표현을 위해 사용. 도수분포표로 자료가 정리되는 경우는 백분율로 표현되는 자료의 상대도수를 파이차트로 많이 정리함. 비교적 소수의 범주로 구분이 되는 경우에 적합.

 

5-4. 줄기-잎 그림(stem-and-leaf diagram)

원자료에 대한 정보까지 한꺼번에 파악 가능. 줄기는 도수분포표에서의 계급 구간과 같은 역할, 잎은 개별 원자료의 정보를 나타냄.

 

 

참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion