본문 바로가기

통계학

(16)
16차시 - 그 외 통계분석 1. 빈도로 수집된 자료의 분석을 위한 카이제곱 검정 1-1. 변수간의 독립성 검정 1. 가설설정 귀무가설 H0 : 두 변수는 독립이다. 대립가설 Ha : 두 변수는 독립이 아니다. 2. 검정통계량의 설정 카이제곱 분석을 위한 검정통계량은 기대빈도와 실제 관측빈도와의 차이를 제곱한 값을 기대 빈도를 기준으로 계산한 것. 다음의 식과 같이 도출. 두 변수가 독립이 아닐 경우 관 측빈도와 기대빈도는 큰 차이를 보이게 됨. 따라서 카이제곱 검정은 우측검정을 실시함. 1-2. 독립성 검정을 위한 예시 1. 가설 설정 가구소득과 냉장고 크기의 관계가 독립적인가를 파악하고자 함. - 귀무가설 : 가구소득과 냉장고 크기는 독립이다. (무관하다) - 대립가설 : 가구소득과 냉장고 크기는 독립이 아니다. (무관하지않다)..
15차시 - 상관분석과 회귀분석 1. 상관분석 1-1. 산점도(scatter plot)의 파악 변수간의 선형관계는 산점도(scatter plot)를 그려서 대략적으로 파악 가능. 산점도에 따라 상관계수의 수치는 다음의 몇 가지 예로 나타남. 1-2. 표본상관계수의 해석 표본상관계수(r(xy))는 표본자료에 의해 계산된 상관계수이며 모집단 상관계수와 마찬가지로 -1에서 1까지의 값을 가짐. 표본자료의 산점도와 상관계수의 관계를 보면 r(xy)>0일 때 양의선형관계에 있으며 r(xy)
14차시 - 두 모집단 차이에 대한 추론 1. 독립표본에 대한 모평균 차이 검정 단일 모집단에서 추출한 단일 표본을 통해 모수를 추론하는 개념을 확장하면 모집단이 두 개 일 경우에 이를 비교분석하는 통계적 추론을 적용할 수 있음. 1-1. 독립표본(independent sample)에 대한 개념 모집단이 서로 다르다면 각각의 모집단에서 추출한 표본은 서로 독립표본(independent sample)이 됨. 모집단 1과 2에서 표본을 각각 n1개, n2개 추출하는 경우 모수와 표본통계량은 다음의 그림처럼 표현할 수 있음. 1-2. 모평균 차이에 대한 추론을 위한 통계량 독립표본에서는 모평균의 차이(μ1-μ2)에 대한 추론을 위해 표본평균의 차이에 대한 평균과 분산을 다음과 같이 구할 수 있음. 1-3. 표준정규분포를 가설검정 1. μ1-μ2에 대..
13차시 - 주요 모수에 대한 가설검정 1. 표본평균에 대한 가설검정 1-1. Z검정 1. Z검정을 위한 임계치 Z검정은 표준정규분포를 이용하여 모수를 검정하는 것. 표본통계량의 확률분포가 정규분포를 따르는 경우에 Z검정을 실시할 수 있음. Z검정을 수행할 수 있는 경우는 크게 모평균에 대한 가설검정과 모비율에 대한 가설검정. 일반적으로 유의수준은 1%, 5%, 10%를 많이 사용하므로 Z검정을 실시하는 경우에는 해당 유의수준에 대한 임계치를 기억하고 있는 것이 유리. 2. Z검정을 통한 모평균의 가설검정 (1) 모분산이 알려져 있고 정규모집단인 경우 유의수준이 주어지면 양측검정, 단측검정의 여부에 따라 임계치를 계산하고 표본정보에 따라 검정통계량을 계산. 검정통계량은 Z값으로 계산되며 임계치보다 검정통계량의 값이 더 멀리 발생, 기각역에 속..
12차시 - 표본크기 결정 및 가설검정 기초 1. 허용오차에 따른 표본크기 결정 표본통계량을 점추정량으로 하여 모수를 추정할 경우에는 표본오차가 발생함. 표본오차는 일반적으로 표본의 크기가 증가하면 감소되는 경향이 있음. 그러나 표본의 크기를 증가시키면 시간과 비용이 증가하므로 통계적 분석을 위해 어느 정도의 추정오차를 감안하는가에 따라 적절한 크기의 표본을 선택해야 함. 1-1. 모평균 추정에서 표본의 크기 결정 표본평균을 점추정량으로 하여 모평균에 대한 신뢰구간을 계산했을 때 오차가 d 이하일 확률이 신뢰수준과 같기를 원한다면 표본의 크기 n은 다음과 같이 구해짐. 모표준편차 σ는 알려져 있지 않은 경우가 많으므로 예비 표본의 표준편차 S'나 R/4(R은 자료의 범위)로 대체하기도 함. 표본의 크기는 반드시 올림하여 구함. (주)상준 산업은 종..
11차시 - 표본비율 및 표본분산의 확률분포 1. 표본비율의 확률분포 표본비율의 확률변수는 경험적 연구결과에 따르면 np≥5, nq≥5일 때 정규분포에 근사하는 것으로 알려져 있음. 따라서 표준정규분포로 전환하여 확률을 계산 가능. 표준정규분포 변수로 전환하는 과정은 다음과 같음. 표본비율의 표준오차는 √pq/n이며 표준정규분포로 바꾸는 과정은 다음과 같음. K은행과 L정보통신은 휴대폰으로 은행 업무를 볼 수 있는 서비스를 제공하고 있다. 고객 확보를 위해 무상으로 단말기를 지급한다고 할 때 L정보통신으로 이동 가입하려는 고객 은 잠정적으로 25%일 것으로 추정된다. 다른 정보통신 가입자 중에 K은행 고객인 100명을 대상으로 30명 이상이 L정보통신으로 이동할 확률은? 2. 표본분산의 확률분포 2-1. 카이제곱(x^2) 분포의 개념 모분산에 대한..
10차시 - 연속확률분포 및 표본평균의 확률분포 1. 연속확률분포 1-1. 연속확률분포(continuous probability distribution)의 개념 연속확률분포는 연속확률변수를 갖는 분포이므로 확률변수가 특정 구간에 속할 확률을 계산함. 특정한 값에 대한 확률은 항상 0이라고 설정. 가장 활용도가 높은 연속확률분포는 정규분포. 또한 가장 단순한 형태로 유도할 수 있는 연속확률분포로는 균등분포가 있음. 1-2. 대표적인 연속확률분포 1. 균등분포(uniform distribution) 모든 확률분포 중에서 가장 단순한 형태의 분포. 이산확률분포의 형태로도 정의할 수 있지만 많은 경우 연속확률분포로서의 균등분포를 다루게 됨. 균등분포(uniform distribution)는 이산이든 연속이든 상관없이 표본공간의 원소발생확률이 균등한 분포. 연..
9차시 - 확률변수의 특성 및 이산확률분포 1. 기댓값과 분산의 특성 1-1. 기댓값의 특성 확률변수의 기댓값은 1차식으로 도출되기 때문에 다음과 같은 특성을 가짐. 확률변수를 선형적으로 변화시킬 경우 기댓값 또한 선형적으로 변화. 1-2. 분산의 특성 확률변수의 분산은 편차의 제곱이기 때문에 상수만 추가될 경우는 분산의 변화에 영향 X. 분산은 2차식으로 도출되며 기댓값과의 편차 제곱에 대한 기댓값이므로 기댓값의 변화와 차이가 발생. 상수가 확률변수에 곱해져서 식의 밖으로 나올 경우 제곱으로 표현. 또한 확률 변수간의 합에 대한 분산을 구할 경우는 독립인가의 여부에 따라 공분산의 값을 고려해야함. 2. 공분산의 정의 및 의미 2-.1 공분산(covariance)의 의미 공분산은 두 확률변수 X, Y 사이의 선형관계가 어떤 방향으로 이루어지는지를..