본문 바로가기

통계학/기초통계학

1차시 - 통계의 기초 및 자료수집척도

1. 통계의 유형과 목표

1-1. 통계의 유형

  1. 기술통계(descriptive statistics)
     분석의 대상이 되는 집단으로부터 자료를 수집, 정리, 요약하기 위한 방법론. 실질적인 데이터를 수집하여 요약, 요약된 데이터를 바탕으로 사실을 기술하는 통계
  2. 추론통계(inferential statistics)
     표본을 추출하고 표본 정보를 통하여 그 표본이 추출된 모집단의 특성을 추론, 그 추론을 토대로 의사결정대안을 제시하기 위한 방법론. 추측통계는 표본을 조사하여 발생하는 현상을 일반화하는 과정과 관련한 통계이론이며 부분을 통하여 전체를 추론하므로 불확실성을 내포. 추론통계는 기술통계 다음으로 이루어지는 것이 일반적.

1-2. 통계분석의 목표

  1. 수집된 자료의 요약
  2. 전체 집단의 일부분인 표본조사를 통해 전체 집단의 특성 분석
  3. 관심의 대상이 되는 변수들 간의 다양한 인과관계 파악
  4. 과거 자료를 바탕으로 미래 수준 예측

2. 통계분석을 위한 기초 개념

2-1. 모집단과 표본 

  1. 모집단(population)
     통계분석의 대상이 되는 모든 개체들의 집합. 통계분석을 수행하는 첫 단계, 모집단을 명확히 설정하는 것이 중요. 모집단을 모두 조사하는 것을 전수조사라고 함.
  2. 표본(sample)
     모집단으로부터 임의로 추출된 모집단의 부분집합. 현실에서는 시간과 비용상의 제약으로 전수조사보다는 표본을 조사하는 표본조사가 일반적으로 수행됨.

2-2. 모수와 통계량

  1. 모수(parameter)
     모집단의 특성(characteristics)을 나타내 주는 수치. 대표적인 모수로는 모집단의 중심경향을 나타내는 모평균, 모비율 등과 모집단의 산포도를 나타내는 모분산, 모표준편차 등이 있음.
  2. 표본통계량(sample statistic) 또는 통계량(statistic)
     표본의 특성을 나타내는 척도, 모집단에서의 모수와 마찬가지 역할. 대표적인 표본 통계량으로는 표본의 중심경향을 나타내는 표본평균, 표본비율 등과 표본의 산포도를 나타내는 표본분산, 표본표준편차 등이 있음.



     모집단과 표본, 모수와 통계량은 다음과 같은 관계를 갖음. 
    기술통계는 자료를 직접 수집하고 관찰 특질인 통계량을 도출.
    추측통계는 모집단의 모수를 추론하기 위해 표본이 관찰되면 통계량으로부터 미지의 모수를 측정하게 되는 부분과 기존에 알려진 모수에 대한 가설을 검정하는 부분으로 나누어짐.

 

 

3. 통계분석의 한계

 통계분석은 대부분 표본조사로 수행, 이 경우 모집단의 일부분인 표본에 의해서 전체의 특성을 파악하게 되어 오차가 발생할 수 밖에 없음. 또한 표본을 추출하고 조사를 수행하는 과정에서도 오차가 발생. 통계분석의 오차는 크게 표본오차와 비표본오차로 구분.

 

  1. 표본오차(sampling error)
     모집단 전체의 특성을 나타내는 모수, 이와 연관된 표본통계량 사이에서 발생하는 오차.
    (ex : 표본평균과 모평균의 차이)
  2. 비표본오차(non-sampling error)
     표본추출 및 조사 수행 과정에서의 발생하는 모든 오류로서 누락, 오기, 모집단의 비합리적 설정 등으로 인하여 발생하는 오차.


    표본의 크기가 증가하게 되면 표본오차는 감소하게 되지만 표본의 크기를 증가시킬 경우 시간과 비용이 같이 증가하므로 적절한 표본오차 수준과 표본의 크기를 선정하는 것이 중요. 일반적으로 표본의 크기가 증가하면 처리해야 하는 자료가 많아지므로 비표본오차는 오히려 증가하는 경향이 있음. 철저한 관리 감독을 통해 비표본오차는 감소시킬 수 있는 부분이므로 적절한 규모의 표본 크기를 고려해야 함.

4. 척도에 따른 자료의 형태

4-1. 단변량 자료와 다변량 자료

  1. 단변량 자료(univariate data)
     단변량 자료는 특정변수가 하나인 자료. 분석 대상이 되는 단일 모집단에 대하여 중심경향을 나타내는 대표값이나 산포도를 표현하는 수치 등을 계산, 알려져 있는 하나의 모수에 대한 동질성을 검정, 모집단 전체에 특별히 차별되는 관측대상의 존재 유무 등을 파악하고자 할 때 사용되는 자료.
  2. 다변량 자료(multivariate data)
     다변량 자료는 특정변수가 둘 이상인 자료. 두 개 이상의 모집단이나 표본에서 단변량 자료와 같은 목적으로 자료를 추출하는 것 이외에 변수간의 관련성을 측정, 관련성의 강도를 파악하기 위한 목적을 가짐. 몇 개의 변수를 이용하여 다른 관심변수의 미래 활동수준을 예측할 수도 있음.

4-2. 질적 자료와 수치 자료

  1. 질적 자료(정성적 자료, qualitative data)
     자료를 특정 범주로 구분하여 숫자를 할당한 자료를 말함. 질적 자료에 해당하는 자료는 모두 셀 수 있는 이산 자료(discrete data). 질적 자료의 자료를 나누는 범주는 수치의 개념이 아니어서 변수의 값이 의미가 없는 명목자료와 순서나 순위의 의미를 가지는 서열자료로 구분됨.
  2. 수치 자료(정량적 자료, quantitative data)
     크기를 가진 수치로 표현되는 자료. 자료는 셀 수 있는 이산 자료일 수도 있고 경우에 따라 무한히 작은 단위로 측정이 가능하여 실수값을 취하는 연속자료로 나타낼 수도 있음. 자료의 특성에 따라 구간자료와 비율자료로 구분.

4-3. 척도에 따른 자료의 구분

  1. 명목 척도(normal scale)
     측정대상이 특정한 범주나 종류에 따라 분류될 수 있도록 측정대상에 수치나부호를 부여하는 방법으로 측정된 자료. 가장 단순한 척도이며 자료 분류의 편의상 측정대상에 부여한 수치로서 산술적 연산의 의미는 없음. 명목자료에서 가능한 수학적 연산은 '=, ≠' 밖에 없음. (ex : 학년, 주민등록번호, 사원번호, 운동선수의 등번호, 전화번호, 우편번호 등)
  2. 서열 척도(ordinal scale)
     서열 자료의 수치도 명목 자료와 마찬가지로 자료를 구분하기 위한 것이지만 순위나 서열의 의마가 포함된 척도를 말함. 서열척도들은 숫자 크기에 따른 서열만 의미 있으며 숫자간의 거리, 간격은 무의미. 서열 자료에서의 수학적인 연산은 ‘=, ≠, ≤, ≥’이 사용 가능.
    (ex : 국가간의 GNP순위, 판매원의 영업실적 순위, 올림픽 금메달 순위 등)
  3. 구간 척도(interval scale)
     명목 척도와 서열 척도의 의미를 포함, 숫자간의 간격이 산술적 의미를 가지는 수치 자료. 단점으로 의미 있는 절대 원점이 존재하지 않으므로 비율의 개념이 적용되지 않음. 구간 자료의 수학적 연산은 ‘=, ≠, ≤, ≥, +, -’이 사용 가능.
    (ex : 온도계, 지수 등)
  4. 비율 척도(ratio scale)
     명목 자료, 서열 자료, 구간 자료의 특성을 모두 포괄하는 가장 정확한 척도로 측정된 자료. 의미 있는(절대적인) 원점이 있어 숫자간의 비율이 산술적 의미를 가지게 됨. 즉, 원점의 의미는 아무것도 없다는 것. 비율 자료의 수학적 연산은 ‘=, ≠, ≤, ≥, +, -, ×, ÷’이 사용 가능.
    (ex : 키, 무게, 압력 등)

 

참고자료 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion