표본 분포
- 임의 현상에 대한 추론을 위해 모집단 population을 설정하는것은 통계분석에서 중요
-> 구성 원소 sampling unit 전체를 조사 census 하는것은 불가능
확률 분포 random sample
- 모집단의 각 구성원이 고르개 추출한 표본
- 특정한 확률 분포를 따르는모집단으로부터 독립적으로 관측(추출)된 표본
통계량 statistics
- 관측 가능한 확률 표본에 댛나 함수
- 확률 변수들을 대입하는 함수로, 통계량 또한 확률 변수가 된다.
-> 통계량의 확률 분포 : 표본 분포 sample distribution
- 모수는 관측하지 못하므로 모수는 통계량은 아님
- 표본의 함수인 통계량을 이용하여 통계적 추론을 수행
ex. 표본평균과 표본 표준 편차
검정 통계량 test statistic, T0 T(X)
- 모수에 대한 가설 검정에서 사용하는 통계량
중심극한정리 central limit theorem
- 평균이 mu, 분산 sigma2인 모집단으로부터 n개의 확률표본 추출시 n이 충분히 큰 경우
-> 표본 평균은 모집단 분포에 상관없이 평균mu, 분산 sigma2/n인 정규분포에 근사
통계적 검정 오류
- alpha 가 더 중요 하므로 1종 오류를 어느정도 줄인뒤 2종오류를 최소화함
예시
- H0 : 약품에 효과가 없다
=> 1종 오류 : 약품에 효과가 없지만 있다고 결론
- H1 : 약품의 효과가 있다.
=> 2종 오류 : 약품의 효과가 있지만 없다고 결론
위 경우 1종 오류가 더 크게 위험
유의 수준 significance level : alpha
- H0이 사실일떄, 이를 기각하는 제1종오류를 범할 확률
- 유의수준은 연구자가 상황에맞게 설정. 0.1, 0.05(흔하게), 0.01 등 주로 사용
기각역 ciritical region, reject region : C, Calpha
- 유의수준 alpha 하에서 귀무가설 H0을 기각하는 검정통계량의 값의 범위
=> 귀무가설을 기각하는 영역
유의 확률 p value
- 귀무가설을 기각할수 있는 최소 유의수준 = 귀무가설의 타당성정도
- 유의 확율이 크다면 타당성도 크다 =-> 채택
- 유의확률이 작다면 타당성이 낮아서 귀무가설 기각
가설검정의 의사걸졍방법
1. 검정통계량과 기각역 비교
-> 귀무가설하에서 검정통계량의 값이 기각역에 속하는가?
: T0 가 C_alpha에 속하면 H0를 기각
2. 유의수준과 유의확률 비교
: p-value < alpha이면 H0 기각
가설 검정 절차
1. 가설 설정 : H0, H1
2. 유의수준 설정 : alpha
3. 표본 관측 : X1, ..., Xn
4. 검정 통계량 선정 및 귀무가설 하에서 계산 : T0
5. 유의수준 alpha인 기각역 설정 : C_alpha
6. 의사결정 : T0가 C_alpha에 속하면 귀무가설을 기각, 아니면 채택
가설 검정하기 - 평균 검정
- X1, ..., Xn이 N(mu, sigma2)를 따를때
* iid : 독립, 동일 분포 independently identicaly distributed (즉, 표본을 의미)
- 귀무가설 H0 : mu = mu0 vs
- 대립가설 H1 : mu > mu0(우측단측가설/검정)
H1 : mu < mu0(좌측단척가설/검정)
H1: mu != mu(양측 가설/검정)
- 분산 sigma2가 알려진 경우
H0하에서 검정통계량
- 기각역
1) H1 : mu > mu0, Calpha = {T0 > Z_alpha} => T0 > z_alpha 이면 H0 기각
=> 대립가설 mu > m0이면 기각역은 T0> Z_alpha. 검정통계량 T0가 z_alpha이면 기각역에속함 귀무가설 H0기각
2) H1 : mu < mu0, Calpha = {T0 < Z_alpha} => T0 < z_alpha 이면 H0 기각
3) H1 : mu != mu0, Calpha = {T0 > z_alpha/2 or T0 < z_alpha/2}
=> T0 > z_alpha/2 or T0 < z_alpha/2 이면 H0를 기각
가설 검정 -평균 검정 2
- 분산 sigma2가 알려지지 않는 경우
- H0하에서 검정 통계량은
- 기각역
1. H1 : mu > mu0, T0 > t(alpha, n - 1)이면 H0 기각
2. H1 : mu < mu0, T0 < t(alpha, n - 1)이면 H0 기각
3. H1 : mu != mu0, |T0| > t(a/2, n-1)이면 H0를 기각.
상관 분석
- 분석에 사용될 변수들이 연속적인 값이며, 이들 간 관련성 확인하는 분석
ex. 키와 몸무게 관련성, 상품 광고액과 매출액 관계
- 두 변수의 산점도 이용(2차원 평면상 관측값 표기)
- 상관계수 사용(두 변수간 관계에 대한 수학적 정의)
분석의 종류
- 상관 분석 : 상관 관계 를 다룸-> 두변수간에 상관관계가 있는가
- 회귀 분석 : 인과 관계를 다름 -> x가 y에 영향을 미치는가...
- 범주형 분석
상관계수 correlation coefficient, rho
- 두 변수사이 선형 관계가 얼마나 강한지 나타냄
- 상관 계수의 정의
corr(x,y) = cov(x,y)/sqrt(var(x)) sqrt(var(y))
- -1 ~ 1의 값.
=> 1일 수록 양의 선형, -1일수록 음의 선형 관계, 0인 경우 무상관관계
회귀분석
- 독립 변수 : 조절할 수 있는 변수로, 원인이자 입력
- 종속 변수 : 독립변수에 영향을 받음, 결과이자 출력
- 종속 변수와 독립 변수 사이 (선형) 함수 관계를 회귀모형으로 구하고, 이에 대한 통계적 분석
=> 회귀분석 : 회귀 모형에대한 통계적 분석
회귀 분석에서 변수 설정의 중요성
- 회귀분석에서 가장 중요한것은 독립변수와 종속변수가 바뀌어선 안됨!!
=> 결과가 완전히 달라지므로 변수를 잘 설정해야함
- 범죄율과 경찰관의 수
- 경찰관(독립변수), 범죄율(종속변수)로 설정
-> 경찰관이 늘어날수록 범죄율이 늘어났다..로 잘못 해석
회귀 분석의 종류
- 선형 linear, 비선형 nonlinear : 함수 관계 형태
- 단순 simple, 중 multiple 회귀분석 : 독립변수(설명 변수)의 갯수
- 일변량 univariate, 다변량 multivariate 회귀변수 : 종속변수(반응 변수)의 개수
회귀 모형 regression model
- 종속변수 Y와 독립변수 X1, ..., Xp 사이의 관괴를 (비)선형 함수로 표헌하는것
- 변수로 독립변수와 종속변수
- 아래와 같은 형태
회귀 분석의 4가지 가정
1. 선형성
2. 독립성
3. 등분산성
4. 정규성
회귀 모형 추정하기 - LSM Least Squared Method 최소제곱법
- hat{y_i}와 yi에 최대한 가까운 b_k*를 찾음
- 잔차 residual를 최소화 하는 b_k* 찾아야함.
- 잔차들의 제곱합 sum of the squared residuals, SSE
=> SSE를 최소로 하는 b_k들을 구함.
회귀 모형의 적합도
- 독립변수가 종속변수를 얼마나 잘 나타내는가. 관측값의 평균에 대한 변동성 이용
- 총 제곱합 : 관측값들의 총 변동성(SST)
- 잔차 제곱합 : 적합된 값들의 총 변동성(SSR; residual sum of squares). 설명 안된 변동 residual ss
- 오차 제곱합 : 적합안된 값들의 총 변동성(SSE; explained sum of sqaured) 설명된 변동 model ss
자유도 df degree of freedom
- 정해지지않은 데이터 수.
결정 계수 coefficient of determinant
- 총 변동 SST 중에서 회귀 모형에서 설명되는 변동 SSR의 비율을 나타낸 것
- 0 ~ 1사이 값을 가짐
- 1에 가까울수록 관측값이 회귀선 주위에 밀집되며, 추정된 회귀모형이 관측값을 잘 설명
분산 분석
- 총 변동을 분해하여 모형에 의한 변동과 모형 이외의 변동 비를 확인하는것
- 각 변동을 각각의 자유도로 나누어주면 분산형태가 됨
- 이를 토대로 회귀모형 적합도에 대한 가설검정 수행
=> 회귀 분석의 적합도 기준이 됨