1. 상관분석
1-1. 산점도(scatter plot)의 파악
변수간의 선형관계는 산점도(scatter plot)를 그려서 대략적으로 파악 가능. 산점도에 따라 상관계수의 수치는 다음의 몇 가지 예로 나타남.
1-2. 표본상관계수의 해석
표본상관계수(r(xy))는 표본자료에 의해 계산된 상관계수이며 모집단 상관계수와 마찬가지로 -1에서 1까지의 값을 가짐. 표본자료의 산점도와 상관계수의 관계를 보면 r(xy)>0일 때 양의선형관계에 있으며 r(xy)<0일 때 음의 선형관계가 있음.r(xy) 〓1일 경우 완전한 양의 선형관계가 되며 r(xy)〓-1일 경우 완전한 음의 선형관계를 보임. r(xy)=±1에 가까워지질수록 선형관계의 강도는 더 커짐.
1-3. 모집단 상관계수에 대한 해석
표본의 자료를 통해 표본상관계수 r(xy)가 0이 아닌 값으로 계산되었다고 해도 모집단의 상관계수 또한 0이 아니라고 할 수 있는지는 통계적 검정을 통해 분석함. 모집단 상관계수에 대한 가설검정은 귀무가설을 H0:ρ(xy)=0으로 하며 대립가설은 H0:ρ(xy)=0이 됨. 검정은 자유도 n-2의 t검정으로 수행하며 기각되어야 유의미한 상관관계(선형관계)가 있다고 해석.
2. 단순회귀분석(simple linear regression)
2-1. 단순선형회귀분석을 위한 모형
단순선형회귀분석(simple linear regression)은 하나의 독립변수와 하나의 종속변수의 관계를 설명하는 선형의 방정식을 찾아내는 것이 목적.
1. 단순회귀선형회귀모형
단순선형회귀모형은 회귀분석에서 독립변수 X는 외생적으로 주어질 때 개별값 X(i)에 대해 종속변수 Y(i)의 값을 관계식을 통하여 찾아냄. 두 변수 X와 Y의 관계를 설명하는 선형의 방정식은 다음과 같은 구조를 가짐.
2. 회귀계수(correlation coefficient)
단순선형회귀모형에는 두 개의 회귀계수(correlation coefficient) α, β가 있음. α는 절편 (intercept)이라고 부르며 β는 기울기(slope)라고 함.
3. 오차항(error term)
ε(i)는 오차항 혹은 잔차항(error term)이라고 부르며 두 변수 X와 Y의 선형관계를 절편과 기 울기의 식으로 설명하지 못하는 부분을 의미.
2-2. 회귀분석의 가정
2-3. 표본회귀식
1. 표본회귀식의 도출
단순회귀모형의 회귀계수 α, β는 표본의 자료를 통해 추정치 α^, β^를 구해야 함. 추정된 회귀계수로 표현된 회귀방정식을 표본회귀식이라고 함.
2. 회귀계수의 해석
회귀계수 α^은 독립변수 X가 0일 때 종속변수의 값을 나타내는 수치. 회귀계수 β^은 독립변수에 대한 종속변수의 민감도를 나타내는 수치로서 독립변수가 1단위 변할 때 종속변수가 몇 단위 변하는가를 나타내는 수치. β^이 클수록 독립변수의 변화에 민감하다는 의미.
2-4. 기울기 β의 추정 및 검정 : 자유도 n-2의 t분포 이용
- 가설검정 시 귀무가설 H0:β=0, 대립가설 H0:β=0
- 귀무가설이 기각될 경우 회귀식은 적합한 것으로 판단
3. 다중회귀분석
3-1. 다중선형회귀모형
다중선형회귀분석(multiple linear regression)은 하나의 종속변수를 설명하는 독립변수가 여러 개인 회귀모형을 의미. 예를 들어 주식의 수익률이라는 하나의 종속변수는 시장 수익률, 물가 상승률, 환율 등의 여러 독립변수에 의해 영향을 받을 수 있음.
3-2. 다중선형회귀모형의 가정
다중회귀모형의 가정은 기본적으로 단순회귀모형의 가정과 일치함. 다만 독립변수가 k개이므로 독립변수와 종속변수 간에 선형관계가 있어야 한다는 가정은 k개의 독립변수가 미치는 전체의 영향이 종속변수와 선형관계에 있다는 가정으로 확대되어야 함. 여기서 주의할 점은 개별 독립변수 하나하나와 종속변수 간에 통계적으로 유의한 선형관계가 있다는 의미가 아니라는 것 (가정이 지켜지지 않는 현상을 다중공선성이라고 함).
3-3. 다중회귀분석에서 표본회귀식의 도출 : k개의 독립변수와 절편 1개가 있으므로 자유도는 n-k-1이 됨
3-4. 기울기에 대한 가설 검정
각 회귀계수에 대해서는 기본적으로 0인가의 여부를 검정. 기울기의 경우 β(i)에 대해서 귀무가설 H0:β(i)=0의 기각 여부는 자유도 n-k-1의 t 검정을 수행함.
4. 회귀식의 적합성 검정
4-1. F분포 활용
<예시>
- 단순회귀분석의 적합성은 기울기에 대하여 자유도 n-2의 t검정을 수행하는 것과 F검정을 수행한 결과가 같음
- 다중회귀분석의 적합성 검정을 위한 가설
4-2. 결정계수와 조정결정계수
1. 결정계수의 도출
표본회귀식이 적합하다는 것은 회귀식의 설명력이 높다는 것. 회귀식의 설명력을 수치로 표현한 것을 결정계수(coefficient of determination: )라고 함. 결정계수는 총변동 중에서 회귀식이 설명하는 변동의 비율로 나타남. 결정계수의 범위는 0≤R^2≤1이며 R^2〓0 이면 회귀식은 종속변수의 변동을 하나도 설명하지 못하며 R^2〓1이면 회귀식으로 모든 종속변수의 변동을 설명할 수 있음을 의미.
R^2 〓0.8이 나왔다면 종속변수의 변동 80%를 회귀식이 설명하고 있다는 의미. (상관계수의 제곱으로 도출)
2. 조정결정계수
조정결정계수((avg)R^2)는 (독립변수의 수≥1)일 경우 항상 결정계수 R^2보다 적은 값을 가지게 됨. 새로운 독립변수가 추가될 때 항상 증가하는 R^2와는 다르게 증가할 수도 있고 감소할 수도 있으며 음의 값을 가질 수도 있음. 새로운 독립변수를 추가하여 (avg)R^2가 증가한다는 것은 추가되는 변수가 회귀식의 적합성을 높인다는 의미. 따라서 회귀모형을 작성할 때 독립변수를 무엇으로 정할 것인가를 결정하는 기준으로 (avg)R^2를 사용하기도 함.
참고문헌 : Big Data 시대에 반드시 알아야 할 기초 통계지식/Ubion
'통계학 > 기초통계학' 카테고리의 다른 글
16차시 - 그 외 통계분석 (0) | 2020.02.23 |
---|---|
14차시 - 두 모집단 차이에 대한 추론 (0) | 2020.02.20 |
13차시 - 주요 모수에 대한 가설검정 (0) | 2020.02.19 |
12차시 - 표본크기 결정 및 가설검정 기초 (0) | 2020.02.18 |
11차시 - 표본비율 및 표본분산의 확률분포 (0) | 2020.02.17 |