728x90

기존의 회귀 모형 regression model

- 기본 가정 : 오차 등분산성, 모형의 선형성, 오차의 정규성

 

반응 변수 Y가 정규 분포가 아닌경우

- 오차의 등분산성 위배 -> 분산안정화변화로 해결

- 오차의 정규성이 위배(오차가 정규분포를 안따를떄) : 일반화 선형 모형

 

 

 

 

 

일반화 선형 모형를 사용하는 경우

- 반응변수 Y가 정규분포를 안따르는 경우

 ex. 반응변수가 비율을 나타내는 경우, 반응변수가 양의 개수를 나타내는 포아송 분포를 따르는 경우

 

 

일반화 선형 모형 generalized linear model

- 반응 분포가 정규 분포 뿐만아니라, 이항분포, 포아송분포,

  감마 분포와 같은 지수족 분포를 따를때 회귀 모형 형태로 확장된 모형

* 회귀모형의 한계를 극복함.

 

 

 

 

일반화 선형 모형의 구성성분 세가지

- 반응 변수의 분포

- 선형 예측자 eta = beta_0 + beta_1 X = g(mu)

- 연결 함수 g(mu) = log(mu)

 

예시 : 1983 ~ 1986년 동안 호주에서 에이즈로 인한 사망자수

x : 1983년 1월부터 3개월 단위 경과 기간

y : 사망자수

 

 

선형 모형의 일반화 선형 모형으로 확장

  선형 회귀 모형 일반화 선형 모형
반응변수의분포 정규분포를 가정 정규분포, 이항분포, 포아송 등 지수족 분포 등 하나를 가정
평균의 선형성 mu = E(Y) = X' beta eta = g(mu) (연결함수) = X' beta
모수 추정법 최소제곱추정(=최대가능도추정) 최대가능도추정

 

 

 

 

지수족 분포 the exponential family of distributon

- 반응변수 분포가 지수족 분포를 따를때 일반화 선형 모형 사용

- 확률 밀도함수 f(y;theta;phi)와 같이 표현되는 분포로 아래와 같음.

- theta : 평균 mu의 함수로 정준 모수 canonical parameter

- phi : y의 분산과 관련되고, 평균과는 독립인 산포모수 dispersion param

- w : y 분포 가정에 따라 사전에 알수있는값

 

 

 

선형 예측차 eta linear predictor 

- 설명변수들의 선형 결합

연결 함수 link function

- 선형 예측자와 반응변수의 평균 사이 관계를 eta가 되도록 만들어주는 함수 g()

 

 

 

지수족 분포의 정준 연결 canonical link

 

 

 

 

 

로지스틱 회귀모형

- 반응 변수가 이항 자료인 경우 사용

=> 로지스틱 회귀모형 : 로짓 함수가 선형 연측자가 되는 모형.

ex. 날다람쥐의 출현 자료( 독립 : con_metric ,  p_size_km, 종속: 1 또는 0)

 => y = occur, 1=yes, 0= no => 이항분포를 따름

 

- 로지스틱 회귀 모형

 -> -3.606 + 0.024 x1 + 1.632 x2

- deviance 이탈도 : 선형 회귀 모형의 잔차 제곱합을 일반화한 개념. 정규분포를 따른다고 한다면 카이제곱 분포를 따름.

 

 

 

 

 

로지스틱 회귀 모형의 유의성 검정

- H0 : log (pi/(1-pi) = beta0 vs  H1 : log(pi/(1-pi) = beta0 + beta1x1 + beta2x2

 => 정리하면 H0 : beta1 = 0, beta2 = 0 vs H1: 적어도 하나는 0이 아니다.

- 두 이탈도의 차이가 유의한지 보면됨.

 

 

 

 

 

300x250
728x90

회귀 모형 regression model

- 단순 회귀 모형 : 독립변수와 종속변수간에 선형적 관계를 갖는 경우 사용

- 다항 회귀 모형 : 독립변수와 종속변수간에 비선형적인 관계를 같는 경우

 

 

다항 회귀 모형 polynomial regression model

1. 독립변수가 하나인 경우 이차 다항 회귀 모형

2. 독립변수가 2개 인경우 이차다항회귀모형

 

 

 

다항회귀모형 예제 1

1. 데이터 로드, 플롯

- 연도별 교통범죄발생률과 승용차보급률

- 플롯시켰더니 약간 비선형적

 => 2차 다항 회귀모형으로 만들어보자.

* attach(데이터프레임). => plot시 데이터프레임$ 를 생략할수 있음

2. 모형 생성 

- 구한 이차다항회귀모형은 아래와 같다.

 

 

 

 

다항회귀모형 예제 2 : 1990~1992년까지 마라톤 대회 5km 구간별 평균속도

1. 데이터 로드, 플롯

- 데이터 형태를 보니 3차 다항회귀모형을 만들자

 

2. 모형 추정

- beta0 ~ 3까지 pvalue가 매우 작음 => 유의

 

 

 

가변수 회귀모형 dummy variable regression model

- 독립변수에 이산형 변수가 포함되어있는 경우에 사용

- 가변수 dummy variable, indicator variable ; 두가지 값을 갖는 변수

- 예시 : 비누 생산공장에서 부스러기양과 공정속도

=> 교호작용을 고려한 모형

=> 교호작용이 없는 모형

 

 

 

 

R에서 실습

1. 데이터 읽고 산점도 그리기

- line0와 line1은 기울기는 차이없고, 공정에 따라 차이가 있어보임

=> 교호작용이없는 모형을 고려

 

2. 모델 생성

- 교호작용이 없는 모형

- 두 생산 라인은 beta2만큼의 차이가 존재

 H0 : beta2 = 0을 기각한다면 => 두 생산공정에 차이가 존재

- p value가 매우 작으므로 두 생산 공정에 차이가 존재하며, 차이는 53정도.

- adjust R2는 0.9352로 유의

 

 

 

3. 모델 만들기

- 교호작용을 고려한 경우

 

- X:Dline1 의 경우 pval이 0.18로 유의수준보다 크므로 유의하지 않음.

 => 교호작용을 고려하지 않은 모형이 적합.

 

 

 

 

 

300x250
728x90

변수 선택과 기준/방법, 다중 공선성

 

다중 회귀 모형

- 여러개의 독립변수에 의해 종속변수 y에 주는 영향을 함수 식으로 표현한것

 

 

변수선택 variable selection problem

- 많은 설명 변수 중에서 모형에 포함시킬 변수를 결정하는 것

 

다중공선성 multicollinearity

- 모형에 포함되는 설명변수들 사이 연관성이 존재하는 경우 모형의 안정성과 신뢰성을 떨어트림

=> 공선성, 다중공선성

- 두 설명변수 X1, X2가 상수 c0, c1,c2에 대해 다음 관계를 가지는 경우

  -> 두 변수 사이에 완벽한 공선성(exact collinearity)가 있음

ex. X1 + X2 = 100인경우 X2는 X1으로 결정됨

 

 

다중공선성 multiconllinearity

- 설명변수가 2개가 넘는 경우 다음과 같은 관계가 성립하거나 근사적으로 성립할시

 => 설명변수들 사이에 다중 공선성 multiconllinearity이 존재

- 설명변수 Xh와 나머지 설명변수간의 결정계수(다중상관계수의제곱) Rh^2이 다중공선성의 정도를 나타냄.

 

 

 

다중 공선성에 대해 의심이 드는 경우

- 설명변수의 표본 상관행렬에서 상관계수가 크게 +-1에 가까울떄

- 설명변수를 모형에 추가/제거시 추정된 회귀계수의 크기나 부호에 큰 변화를 줄때

- 새 자료를 추가/제거시 추정된 회귀 계수의 크기나 부호에 큰 변화를 줄때

- 중요하다고 생각되는 설명변수의 검정 결과가 유의하지 않거나 신뢰구간이 넓을때

- 추정된 회귀 계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 상반될때

 

 

 

분산팽창인자 VIF; variance inflaction factor

- R_j^2 : Xj를 반응변수로 보고 나머지 설명변수에 대한 결정 계수

- k개의 VIF_j 중 가장 큰 값이 5~10이 넘으면 다중공선성 있다고 판단.

 

 

 

 

 

병원 데이터를 이용한 예제

1. 데이터

Y : 월간 의사 연 근무시간

X1 : 일평균 환자수

X2 : 월간 Xray 초라영 횟수

X3 : 월간 이용병석수

X4 : 해당지역 병원이용가능인구 / 1000

X5 : 평균입원일

 

 

2. 회귀모형 구하고 보기

- X1 일평균환자 : 늘어날수록, 근무시간 Y는 늘어날탠대 -15.85167이 나옴

- X4 병원가능인구가 늘어날수록, 근무시간 Y는 늘어나야하나 -4.219가 나옴.

- X5 평균입원일이 늘어날수록, 근무시가이 늘어야하나 -394...

=> 독립변수간에 다중공선성이 존재가 예상되며, 분산 팽창인자 등에 의한 진단이 필요.

 

 

 

3. 분산팽창인자 계산하기

- X1, X2, X3, X4의 분산팽창인자를 계산해보면 5이상으로 다중 공선성 문제가 존재

4. 독립변수간 상관관계 보기

- cor()함수 : 상관계수 행렬

- X5를 제외한 X1 ~ X4까지 강한 선형 상관관계가 존재. x5를 제외하고 대부분 1에 가까움.

 

 

 

 

설명변수 X1을 제외한 경우 모형을 보자

1. summary

- R2는 차이없음

- 추정된 회귀계수의 표준 오차는 조금 줄어듬

2. 분산팽창지수 보기

- x1이 포함되었을때보다 크게 줄어듬

 

 

 

 

 

 

 

 

 

모형 선택 기준 - 결졍 계수

-  R_p^2는 k개의 설명변수중에서 p개의 설명변수로 구성되는 모형에서 아래처럼 정의

- 결졍 계수는 설명 변수가 추가되어 p가 커질수록 증가

 =>모든 변수가 포함이 다된 모형(p=k)일때 최대되도록 증가

= 최대 결정계수 값인 모형을 선택은 의미 없음.

 

 

 

 

모형 선택의 기준 - 수정 결정계수 adjusted coefficient of determination

- 결정계수 R_p^2의 문제를 보완하기 위한 방법.

- SS를 그대로 쓰기보다 자유도로 나누어 조정과정을 거침

- bar R_p^2는 설명변수가 증가해도 항상증가하지않음

=> 모형 선택시 수정 결정계수가 큰것을 사용하자

 

모형 선택 기준 : mallows Cp 통계량, AIC

- k개의 독립변수 중에서 p개의 변수를 선택할때, C_p가 최소가되는 모형을 선택

- AIC : 작은값을 갖는 모형을 선택

 

 

 

 

변수 선택 방법

- 모든 가능한 회귀 all possible regression

- 앞에서부터 선택 forward selection

- 뒤에서부터 선택  backward elimination

- 단계별 회귀 stepwise regression

 

 

1. 모든 가능한 회귀

- 독립변수가 k개 있으면 2^k -1 개의 회귀모형을 다뤄보자

 => k가 커질수록 계산량이 급격히 늘어남

 

 

1.1 데이터 로드

- 독립변수 4개,

1.2 모든 가능한 회귀 수행

- leaps 패키지의 regsubsets()함수

- 선택 알고리즘 : exhaustive

- 독립변수가 1개인 경우 가장 좋은 모형은 X4

- 독립변수가 2개인경우 가장 좋은 모형은 X1, X2

- 독립변수가 3개인 경우는 X1, X2, X4

1.4 구체적인 통계량을 보기

- 아래의 통계량을 정리해보면 X1, X2, X4가 사용된경우 조정된 R2가 가장 크고

- X1, X2인 경우 Cp가 가장 작다

- Cp는 작을수록 좋고, 조정된 R2는 클수록 좋다.

=> X1X2 나 X1X2X4 선택

 

 

 

 

2. 앞에서부터 선택 forward selection method

- k개의 설명변수 중에서 가장 영향이 큰 변수부터 하나씩 선택

- 더이상 중요한 변수가 없다고 판단할때 선택 중단하는 방법

 

 

2.1 R에서 실습

- AIC기준으로 수행. AIC는 값이 작을 수록 좋음.

- X3은 없는게 나으므로 X4, X1, X2를 선택

 

 

뒤에서부터 제거 backward elimination method

- 모든 독립변수를 사용한 모델에서부터 기여도가 작은 변수를 제거해나가는 방법

 

단계별 회귀 stepwise selection

- 앞에서 선택법에 뒤에서 제거법을 가미

- 새 변수가 추가될떄마다 기존 변수가 제거 될 필요가 있는지 검토하여 선택

 

Y~1에서 

+X4하는 경우 AIC

~ +X3하는경우 AIC

=> X4를 추가하는것이 AIC가 가장작다 

 

Y~X4에서 

+X1하는경우 / +X3하는경우 /  추가 x/ +X2 경우 / -X4 경우

=> +X1일떄 AIC가 가장적다. => X1 추가

...

 

더하는 경우와 빼는 경우를 동시에 고려

 

 

300x250
728x90

데이터 분석 방법 복습

이산형

- 일원배치법

- 이원배치법

 

연속형

- 회귀모형

 

(다)중 회귀모형 multiple regression model

- 종속 변수의 변화를 설명하는데 두 개 이상의 독립 변수가 사용되는 회귀 모형

- 선형인 경우 다중 선형 회귀 모형

 

 

 

독립변수가 k개인 다중 회귀 모형

- beta0, ..., betak : 모집단 회귀 계수

- epsilion i : Yi를 측정시 오차

 

 

독립변수가 2개인 다중 회귀 모형

- 벡터로 나타내는 경우

 

 

 

다중 회귀 모형 - 행렬 + 독립변수 2개

 

 

 

상점의 총 판매액 자료를 이용한 다중 회귀 분석

- 독립변수 : 광고료 x1, 상점크기 x2

- 종속변수 : 총 판매액 y

 

 

다중 회귀 모델 - 최소제곱법

- 행렬을 이용하면 쉽게 추정치 beta를 구할 수 있다.

- 다중 회귀 모델

- 오차에 대한 식

- 오차 제곱 합에 대해서 정리하면

- beta에 대하여 미분하고, hat beta(estimate beta)를 구한다.

 

 

 

 

R로 다중 회귀 모델 구하기

- 결과

 

 

 

 

잔차 residual

- 관측값 Yi - 추정된 회귀값 hat Yi

- 추정값과 잔차 사이의 관계

 

 

 

햇 행렬 hat maixt

- 햇 행렬의 정의

- 다음 성질을 만족하는 멱등행렬 idempotent matrix

 

 

 

 

회귀 방정식의 신뢰성 보기

- 분산분석표에서 F 검정

- 결정계수

- 잔차 평균 제곱

 

 

총 제곱합 SST

잔차제곱합

 

회귀제곱합

 

변동 분해

 

 

 

중회귀 분산분석표

- 검정통계량 F0 : 회귀방정식이 유의한가를 검정하기 위한 검정 통계량

- H0 : beta1 = beta2 = ... = 0   vs H1 : 하나의 betai != 0

- 유의수준 alpha에서 F0 > F(k, n-k-1;alpha) 인 경우 귀무가설을 기각 => 회귀방정식이 유의

- R에서 F0에 대한 유의확률 Pvalue가 유의수준 alpha보다 작다면 귀무가설 기각함 

 

 

R로 회귀 식 구하기

 

- 분산분석표로 보기

 

 

 

결정계수 coefficient of determinantion

- 이 회귀 식이 얼마나 설명력이 있는지 나타내는 값 R^2

 

중 상관계수 mutiple correlation coefficient

- 단순 회귀에서 결정계수 R^2 = 두변수의 상관계수 제곱과 같다. corr ^2

- 중회귀 모델에서 결정계수 = 반응변수 Yi와 추정값 hat Yi의 상관게수의 제곱

=> 다중회귀모델에서 결정계수의 제곱근

 

300x250
728x90

예측방법론

- 예측에는 주관적 예측과 객관적 예측이 있음

- 데이터 기반 예측 -> 객관적 예측

- 시계열 특성과 예측 모형을 보고 R 구현

 

 

 

 

회귀 분석 regression analysis

- 독립변수와 종속변수 사이의 함수 관계(모형)을 구하는 통계적 분석 방법

- 독립 변수 independent variable, 설명변수 explanatory variable: 영향을 주는 변수 x

- 종속변수 dependent variable, 반응변수 response variable : 영향을 받는 변수 y

 

 

회귀 용어의 유래

- 영국의 우생할자 galton이, 부모콩의 무게를 x 자식콩이 무게를 y로 산점도를 그려 관계를 살펴봄

 => 자식의 무게는 평균 무게로 회귀(되돌아 가려는)하려는 경향을 발견 => 피어슨이 분석하여 발표

 

 

 

 

단순 회귀 모형 simple regression model

- 가장 간단한 회귀 모형

- 독립 변수와 종속 변수 사이에 선형적 관계를 표현함

- Yi : i번째 측정된 반응변수 Y의 값

- beta 0 : 절편 회귀계수

- beta 1 : 기울기 회귀계수

- Xi = i번쨰 상수 X값

- epsilon i = i번쨰 측정된 Y의 오차항

 

 

 

 

회귀선 regression line

- 표본으로 모형식을 추정하여 구한 직선. 추정된 회귀 직선, 회귀선이라 함.

-b0와 b1은 beta0와 beta1의 추정값

- hat{Y}는 E(Y)의 추정값

- b0는 회귀절편 intercept

- b1은 X가 한단계 증가할떄 hat Y의 증가량으로 기울기 slope

- 회귀 계수 b0, b1을 구하는 방법 => 최소제곱법

 

 

 

 

 

 

 

최소제곱법 method of least square LSM

- 회귀 모델이 다음과 같이 주어질떄

- 오차 항 제곱 합은 아래와 같다.

 

- > S를 beta0과 beta1에 대해 각각 편미분한 결과가 0이 되는 beta0와 beta1를 b0와 b1로 함.

-위 식을 정리하면 아래와 같으며, 이 식을 정규 방정식 normal equation

- b0와 b1에 대하여 정리

 

 

 

 

선형 회귀 모델 예제 - 광고료와 총판매액

- 기울기는 2.6087으로 추정 p value가 매우 작으므로, 귀무가설 기각 -> 유의한 결과를 보임

- 절편은 -2.2696으로 추정

 

 

 

 

잔차 residual

- Xi에서 관측된 값 Yi와 추정된 hat Yi사이 차이

- 잔차의 합은 0

- 잔차의 제곱합은 최소

- 관찰값 Yi의 합과 추정된 hat Yi는 같다.

- R에서 확인하기

 

 

 

회귀 모형의 정도

- 구한 회귀 모형이 얼마나 좋은가?

 

 

분산 분석표에 의한 F 검정

- 변동 분해하기

 회귀제곱합의 자유도는 독립변수가 1개이므로 

 총 데이터 수가 n개에서 평균에 대한것을 빼므로 n - 1

 => 잔차제곱합의 자유도는 n - 2

 

 

분산분석표를 이용한 F 검정

- 변동을 분해한 표

- 가설 검정

- F0 > F(1, n-2; alpha) 이면 유의수준 alpha에서 귀무가설을 기각 => 회귀 직선이 유의하다

- R에서 유의 확률 p value를 제공. pvalue < alpha이면 귀무가설 기각

 

R에서 분산분석

- p value가 0.001487로 매우 작으므로 귀무가설을 기각

 

 

 

결정계수 coefficient of determination

- 회귀선이 어느정도의 설명력을 가지고 있는가를 나타내는 지표

- R^2는 0 ~ 1

- X와 Y 사이 높은 상관관계를 가질수록 R^2 는 1에 가까워짐

-> 0에 가까우면 유용성이 떨어지는 회귀선

- 회귀선으로 설명되는 변동/총변동이므로 회귀선의 기여율이라고도함.

 

 

 

 

 

 

추정값의 표준 오차 Mean Squared Error

- 잔차 평균 제곱 MSE는 오차 분산 sigma2의 불편추정량.

- sqrt(MSE)로 표준 오차를 구함

 

 

 

 

300x250

+ Recent posts