728x90

기존의 회귀 모형 regression model

- 기본 가정 : 오차 등분산성, 모형의 선형성, 오차의 정규성

 

반응 변수 Y가 정규 분포가 아닌경우

- 오차의 등분산성 위배 -> 분산안정화변화로 해결

- 오차의 정규성이 위배(오차가 정규분포를 안따를떄) : 일반화 선형 모형

 

 

 

 

 

일반화 선형 모형를 사용하는 경우

- 반응변수 Y가 정규분포를 안따르는 경우

 ex. 반응변수가 비율을 나타내는 경우, 반응변수가 양의 개수를 나타내는 포아송 분포를 따르는 경우

 

 

일반화 선형 모형 generalized linear model

- 반응 분포가 정규 분포 뿐만아니라, 이항분포, 포아송분포,

  감마 분포와 같은 지수족 분포를 따를때 회귀 모형 형태로 확장된 모형

* 회귀모형의 한계를 극복함.

 

 

 

 

일반화 선형 모형의 구성성분 세가지

- 반응 변수의 분포

- 선형 예측자 eta = beta_0 + beta_1 X = g(mu)

- 연결 함수 g(mu) = log(mu)

 

예시 : 1983 ~ 1986년 동안 호주에서 에이즈로 인한 사망자수

x : 1983년 1월부터 3개월 단위 경과 기간

y : 사망자수

 

 

선형 모형의 일반화 선형 모형으로 확장

  선형 회귀 모형 일반화 선형 모형
반응변수의분포 정규분포를 가정 정규분포, 이항분포, 포아송 등 지수족 분포 등 하나를 가정
평균의 선형성 mu = E(Y) = X' beta eta = g(mu) (연결함수) = X' beta
모수 추정법 최소제곱추정(=최대가능도추정) 최대가능도추정

 

 

 

 

지수족 분포 the exponential family of distributon

- 반응변수 분포가 지수족 분포를 따를때 일반화 선형 모형 사용

- 확률 밀도함수 f(y;theta;phi)와 같이 표현되는 분포로 아래와 같음.

- theta : 평균 mu의 함수로 정준 모수 canonical parameter

- phi : y의 분산과 관련되고, 평균과는 독립인 산포모수 dispersion param

- w : y 분포 가정에 따라 사전에 알수있는값

 

 

 

선형 예측차 eta linear predictor 

- 설명변수들의 선형 결합

연결 함수 link function

- 선형 예측자와 반응변수의 평균 사이 관계를 eta가 되도록 만들어주는 함수 g()

 

 

 

지수족 분포의 정준 연결 canonical link

 

 

 

 

 

로지스틱 회귀모형

- 반응 변수가 이항 자료인 경우 사용

=> 로지스틱 회귀모형 : 로짓 함수가 선형 연측자가 되는 모형.

ex. 날다람쥐의 출현 자료( 독립 : con_metric ,  p_size_km, 종속: 1 또는 0)

 => y = occur, 1=yes, 0= no => 이항분포를 따름

 

- 로지스틱 회귀 모형

 -> -3.606 + 0.024 x1 + 1.632 x2

- deviance 이탈도 : 선형 회귀 모형의 잔차 제곱합을 일반화한 개념. 정규분포를 따른다고 한다면 카이제곱 분포를 따름.

 

 

 

 

 

로지스틱 회귀 모형의 유의성 검정

- H0 : log (pi/(1-pi) = beta0 vs  H1 : log(pi/(1-pi) = beta0 + beta1x1 + beta2x2

 => 정리하면 H0 : beta1 = 0, beta2 = 0 vs H1: 적어도 하나는 0이 아니다.

- 두 이탈도의 차이가 유의한지 보면됨.

 

 

 

 

 

300x250

+ Recent posts