728x90

표본 분포

- 임의 현상에 대한 추론을 위해 모집단 population을 설정하는것은 통계분석에서 중요

 -> 구성 원소 sampling unit 전체를 조사 census 하는것은 불가능

 

확률 분포 random sample

- 모집단의 각 구성원이 고르개 추출한 표본

- 특정한 확률 분포를 따르는모집단으로부터 독립적으로 관측(추출)된 표본

 

 

 

 

통계량 statistics

- 관측 가능한 확률 표본에 댛나 함수

- 확률 변수들을 대입하는 함수로, 통계량 또한 확률 변수가 된다.

 -> 통계량의 확률 분포 : 표본 분포 sample distribution

- 모수는 관측하지 못하므로 모수는 통계량은 아님

- 표본의 함수인 통계량을 이용하여 통계적 추론을 수행

 ex. 표본평균과 표본 표준 편차

 

 

검정 통계량 test statistic, T0 T(X)

- 모수에 대한 가설 검정에서 사용하는 통계량

 

 

 

중심극한정리 central limit theorem

- 평균이 mu, 분산 sigma2인 모집단으로부터 n개의 확률표본 추출시 n이 충분히 큰 경우

-> 표본 평균은 모집단 분포에 상관없이 평균mu, 분산 sigma2/n인 정규분포에 근사

 

통계적 검정 오류

- alpha 가 더 중요 하므로 1종 오류를 어느정도 줄인뒤 2종오류를 최소화함

 

 

예시

- H0 : 약품에 효과가 없다

  => 1종 오류 : 약품에 효과가 없지만 있다고 결론

- H1 : 약품의 효과가 있다.

 => 2종 오류 : 약품의 효과가 있지만 없다고 결론

위 경우 1종 오류가 더 크게 위험

 

 

유의 수준 significance level : alpha

- H0이 사실일떄, 이를 기각하는  제1종오류를 범할 확률

- 유의수준은 연구자가 상황에맞게 설정. 0.1, 0.05(흔하게), 0.01 등 주로 사용

 

 

기각역 ciritical region, reject region : C, Calpha

- 유의수준 alpha 하에서 귀무가설 H0을 기각하는 검정통계량의 값의 범위

 => 귀무가설을 기각하는 영역

 

 

유의 확률 p value

- 귀무가설을 기각할수 있는 최소 유의수준 = 귀무가설의 타당성정도

- 유의 확율이 크다면 타당성도 크다 =-> 채택

- 유의확률이 작다면 타당성이 낮아서 귀무가설 기각

 

 

 

 

가설검정의 의사걸졍방법

1. 검정통계량과 기각역 비교

 -> 귀무가설하에서 검정통계량의 값이 기각역에 속하는가?

 : T0 가 C_alpha에 속하면 H0를 기각

 

2. 유의수준과 유의확률 비교

 : p-value < alpha이면 H0 기각

 

 

 

가설 검정 절차

1. 가설 설정 : H0, H1 

2. 유의수준 설정 : alpha

3. 표본 관측 : X1, ..., Xn

4. 검정 통계량 선정 및 귀무가설 하에서 계산 : T0

5. 유의수준 alpha인 기각역 설정 : C_alpha

6. 의사결정 : T0가 C_alpha에 속하면 귀무가설을 기각, 아니면 채택

 

 

 

 

가설 검정하기 - 평균 검정

- X1, ..., Xn이 N(mu, sigma2)를 따를때

   * iid : 독립, 동일 분포 independently identicaly distributed (즉, 표본을 의미)

- 귀무가설 H0 : mu = mu0 vs

- 대립가설 H1 : mu > mu0(우측단측가설/검정)

               H1 : mu < mu0(좌측단척가설/검정)

              H1: mu != mu(양측 가설/검정)

 

- 분산 sigma2가 알려진 경우

  H0하에서 검정통계량

- 기각역

 1) H1 : mu > mu0, Calpha = {T0 > Z_alpha} => T0 > z_alpha 이면 H0 기각 

   => 대립가설 mu > m0이면  기각역은 T0> Z_alpha.   검정통계량 T0가 z_alpha이면 기각역에속함 귀무가설 H0기각

 2) H1 : mu < mu0, Calpha = {T0 < Z_alpha} => T0 < z_alpha 이면 H0 기각

 3) H1 : mu != mu0, Calpha = {T0 > z_alpha/2 or T0 < z_alpha/2}

               => T0 > z_alpha/2 or T0 <  z_alpha/2 이면 H0를 기각

 

 

 

 

 

가설 검정 -평균 검정 2

- 분산 sigma2가 알려지지 않는 경우

 - H0하에서 검정 통계량은

- 기각역

 1. H1 : mu > mu0, T0 > t(alpha, n - 1)이면 H0 기각

 2. H1 : mu < mu0, T0 < t(alpha, n - 1)이면 H0 기각

 3. H1 : mu != mu0, |T0| > t(a/2, n-1)이면 H0를 기각.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

상관 분석

- 분석에 사용될 변수들이 연속적인 값이며, 이들 간 관련성 확인하는 분석

 ex. 키와 몸무게 관련성, 상품 광고액과 매출액 관계

- 두 변수의 산점도 이용(2차원 평면상 관측값 표기)

- 상관계수 사용(두 변수간 관계에 대한 수학적 정의)

 

 

 

 

 

 

분석의 종류

- 상관 분석 : 상관 관계 를 다룸-> 두변수간에 상관관계가 있는가

- 회귀 분석 : 인과 관계를 다름 -> x가 y에 영향을 미치는가...

- 범주형 분석

 

 

 

상관계수 correlation coefficient, rho

- 두 변수사이 선형 관계가 얼마나 강한지 나타냄

- 상관 계수의 정의

 corr(x,y) = cov(x,y)/sqrt(var(x)) sqrt(var(y))

- -1 ~ 1의 값.

 => 1일 수록 양의 선형, -1일수록 음의 선형 관계, 0인 경우 무상관관계

 

 

 

회귀분석

- 독립 변수 : 조절할 수 있는 변수로, 원인이자 입력

- 종속 변수 : 독립변수에 영향을 받음, 결과이자 출력

- 종속 변수와 독립 변수 사이 (선형) 함수 관계를 회귀모형으로 구하고, 이에 대한 통계적 분석

 => 회귀분석 : 회귀 모형에대한 통계적 분석

 

 

 

회귀 분석에서 변수 설정의 중요성

- 회귀분석에서 가장 중요한것은 독립변수와 종속변수가 바뀌어선 안됨!!

=> 결과가 완전히 달라지므로 변수를 잘 설정해야함

- 범죄율과 경찰관의 수

- 경찰관(독립변수), 범죄율(종속변수)로 설정

 -> 경찰관이 늘어날수록 범죄율이 늘어났다..로 잘못 해석

 

 

 

회귀 분석의 종류

- 선형 linear, 비선형 nonlinear : 함수 관계 형태

- 단순 simple, 중 multiple 회귀분석 : 독립변수(설명 변수)의 갯수

- 일변량 univariate, 다변량 multivariate 회귀변수 : 종속변수(반응 변수)의 개수

 

 

 

 

회귀 모형 regression model

- 종속변수 Y와 독립변수 X1, ..., Xp 사이의 관괴를 (비)선형 함수로 표헌하는것

- 변수로 독립변수와 종속변수

- 아래와 같은 형태

회귀 분석의 4가지 가정

1. 선형성

2. 독립성

3. 등분산성

4. 정규성

 

 

 

회귀 모형 추정하기 - LSM Least Squared Method 최소제곱법

- hat{y_i}와 yi에 최대한 가까운 b_k*를 찾음

- 잔차 residual를  최소화 하는 b_k* 찾아야함.

- 잔차들의 제곱합 sum of the squared residuals, SSE

=> SSE를 최소로 하는 b_k들을 구함.

 

 

 

회귀 모형의 적합도

- 독립변수가 종속변수를 얼마나 잘 나타내는가. 관측값의 평균에 대한 변동성 이용

- 총 제곱합 : 관측값들의 총 변동성(SST)

- 잔차 제곱합 : 적합된 값들의 총 변동성(SSR; residual sum of squares). 설명 안된 변동  residual ss

- 오차 제곱합 : 적합안된 값들의 총 변동성(SSE; explained sum of sqaured) 설명된 변동 model ss

 

https://igija.tistory.com/256

 

 

 

 

 

자유도 df degree of freedom

- 정해지지않은 데이터 수. 

결정 계수 coefficient of determinant

- 총 변동 SST 중에서 회귀 모형에서 설명되는 변동 SSR의 비율을 나타낸 것

- 0 ~ 1사이 값을 가짐

- 1에 가까울수록 관측값이 회귀선 주위에 밀집되며, 추정된 회귀모형이 관측값을 잘 설명

 

 

 

 

 

 

 

 

분산 분석

- 총 변동을 분해하여 모형에 의한 변동과 모형 이외의 변동 비를 확인하는것

- 각 변동을 각각의 자유도로 나누어주면 분산형태가 됨

- 이를 토대로 회귀모형 적합도에 대한 가설검정 수행

 => 회귀 분석의 적합도 기준이 됨

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
통계 - 16. 실험계획법과 검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
통계 - 12. 통계적 추정 1  (0) 2020.10.26

+ Recent posts