728x90

변수 선택과 기준/방법, 다중 공선성

 

다중 회귀 모형

- 여러개의 독립변수에 의해 종속변수 y에 주는 영향을 함수 식으로 표현한것

 

 

변수선택 variable selection problem

- 많은 설명 변수 중에서 모형에 포함시킬 변수를 결정하는 것

 

다중공선성 multicollinearity

- 모형에 포함되는 설명변수들 사이 연관성이 존재하는 경우 모형의 안정성과 신뢰성을 떨어트림

=> 공선성, 다중공선성

- 두 설명변수 X1, X2가 상수 c0, c1,c2에 대해 다음 관계를 가지는 경우

  -> 두 변수 사이에 완벽한 공선성(exact collinearity)가 있음

ex. X1 + X2 = 100인경우 X2는 X1으로 결정됨

 

 

다중공선성 multiconllinearity

- 설명변수가 2개가 넘는 경우 다음과 같은 관계가 성립하거나 근사적으로 성립할시

 => 설명변수들 사이에 다중 공선성 multiconllinearity이 존재

- 설명변수 Xh와 나머지 설명변수간의 결정계수(다중상관계수의제곱) Rh^2이 다중공선성의 정도를 나타냄.

 

 

 

다중 공선성에 대해 의심이 드는 경우

- 설명변수의 표본 상관행렬에서 상관계수가 크게 +-1에 가까울떄

- 설명변수를 모형에 추가/제거시 추정된 회귀계수의 크기나 부호에 큰 변화를 줄때

- 새 자료를 추가/제거시 추정된 회귀 계수의 크기나 부호에 큰 변화를 줄때

- 중요하다고 생각되는 설명변수의 검정 결과가 유의하지 않거나 신뢰구간이 넓을때

- 추정된 회귀 계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 상반될때

 

 

 

분산팽창인자 VIF; variance inflaction factor

- R_j^2 : Xj를 반응변수로 보고 나머지 설명변수에 대한 결정 계수

- k개의 VIF_j 중 가장 큰 값이 5~10이 넘으면 다중공선성 있다고 판단.

 

 

 

 

 

병원 데이터를 이용한 예제

1. 데이터

Y : 월간 의사 연 근무시간

X1 : 일평균 환자수

X2 : 월간 Xray 초라영 횟수

X3 : 월간 이용병석수

X4 : 해당지역 병원이용가능인구 / 1000

X5 : 평균입원일

 

 

2. 회귀모형 구하고 보기

- X1 일평균환자 : 늘어날수록, 근무시간 Y는 늘어날탠대 -15.85167이 나옴

- X4 병원가능인구가 늘어날수록, 근무시간 Y는 늘어나야하나 -4.219가 나옴.

- X5 평균입원일이 늘어날수록, 근무시가이 늘어야하나 -394...

=> 독립변수간에 다중공선성이 존재가 예상되며, 분산 팽창인자 등에 의한 진단이 필요.

 

 

 

3. 분산팽창인자 계산하기

- X1, X2, X3, X4의 분산팽창인자를 계산해보면 5이상으로 다중 공선성 문제가 존재

4. 독립변수간 상관관계 보기

- cor()함수 : 상관계수 행렬

- X5를 제외한 X1 ~ X4까지 강한 선형 상관관계가 존재. x5를 제외하고 대부분 1에 가까움.

 

 

 

 

설명변수 X1을 제외한 경우 모형을 보자

1. summary

- R2는 차이없음

- 추정된 회귀계수의 표준 오차는 조금 줄어듬

2. 분산팽창지수 보기

- x1이 포함되었을때보다 크게 줄어듬

 

 

 

 

 

 

 

 

 

모형 선택 기준 - 결졍 계수

-  R_p^2는 k개의 설명변수중에서 p개의 설명변수로 구성되는 모형에서 아래처럼 정의

- 결졍 계수는 설명 변수가 추가되어 p가 커질수록 증가

 =>모든 변수가 포함이 다된 모형(p=k)일때 최대되도록 증가

= 최대 결정계수 값인 모형을 선택은 의미 없음.

 

 

 

 

모형 선택의 기준 - 수정 결정계수 adjusted coefficient of determination

- 결정계수 R_p^2의 문제를 보완하기 위한 방법.

- SS를 그대로 쓰기보다 자유도로 나누어 조정과정을 거침

- bar R_p^2는 설명변수가 증가해도 항상증가하지않음

=> 모형 선택시 수정 결정계수가 큰것을 사용하자

 

모형 선택 기준 : mallows Cp 통계량, AIC

- k개의 독립변수 중에서 p개의 변수를 선택할때, C_p가 최소가되는 모형을 선택

- AIC : 작은값을 갖는 모형을 선택

 

 

 

 

변수 선택 방법

- 모든 가능한 회귀 all possible regression

- 앞에서부터 선택 forward selection

- 뒤에서부터 선택  backward elimination

- 단계별 회귀 stepwise regression

 

 

1. 모든 가능한 회귀

- 독립변수가 k개 있으면 2^k -1 개의 회귀모형을 다뤄보자

 => k가 커질수록 계산량이 급격히 늘어남

 

 

1.1 데이터 로드

- 독립변수 4개,

1.2 모든 가능한 회귀 수행

- leaps 패키지의 regsubsets()함수

- 선택 알고리즘 : exhaustive

- 독립변수가 1개인 경우 가장 좋은 모형은 X4

- 독립변수가 2개인경우 가장 좋은 모형은 X1, X2

- 독립변수가 3개인 경우는 X1, X2, X4

1.4 구체적인 통계량을 보기

- 아래의 통계량을 정리해보면 X1, X2, X4가 사용된경우 조정된 R2가 가장 크고

- X1, X2인 경우 Cp가 가장 작다

- Cp는 작을수록 좋고, 조정된 R2는 클수록 좋다.

=> X1X2 나 X1X2X4 선택

 

 

 

 

2. 앞에서부터 선택 forward selection method

- k개의 설명변수 중에서 가장 영향이 큰 변수부터 하나씩 선택

- 더이상 중요한 변수가 없다고 판단할때 선택 중단하는 방법

 

 

2.1 R에서 실습

- AIC기준으로 수행. AIC는 값이 작을 수록 좋음.

- X3은 없는게 나으므로 X4, X1, X2를 선택

 

 

뒤에서부터 제거 backward elimination method

- 모든 독립변수를 사용한 모델에서부터 기여도가 작은 변수를 제거해나가는 방법

 

단계별 회귀 stepwise selection

- 앞에서 선택법에 뒤에서 제거법을 가미

- 새 변수가 추가될떄마다 기존 변수가 제거 될 필요가 있는지 검토하여 선택

 

Y~1에서 

+X4하는 경우 AIC

~ +X3하는경우 AIC

=> X4를 추가하는것이 AIC가 가장작다 

 

Y~X4에서 

+X1하는경우 / +X3하는경우 /  추가 x/ +X2 경우 / -X4 경우

=> +X1일떄 AIC가 가장적다. => X1 추가

...

 

더하는 경우와 빼는 경우를 동시에 고려

 

 

300x250
728x90

데이터 분석 방법 복습

이산형

- 일원배치법

- 이원배치법

 

연속형

- 회귀모형

 

(다)중 회귀모형 multiple regression model

- 종속 변수의 변화를 설명하는데 두 개 이상의 독립 변수가 사용되는 회귀 모형

- 선형인 경우 다중 선형 회귀 모형

 

 

 

독립변수가 k개인 다중 회귀 모형

- beta0, ..., betak : 모집단 회귀 계수

- epsilion i : Yi를 측정시 오차

 

 

독립변수가 2개인 다중 회귀 모형

- 벡터로 나타내는 경우

 

 

 

다중 회귀 모형 - 행렬 + 독립변수 2개

 

 

 

상점의 총 판매액 자료를 이용한 다중 회귀 분석

- 독립변수 : 광고료 x1, 상점크기 x2

- 종속변수 : 총 판매액 y

 

 

다중 회귀 모델 - 최소제곱법

- 행렬을 이용하면 쉽게 추정치 beta를 구할 수 있다.

- 다중 회귀 모델

- 오차에 대한 식

- 오차 제곱 합에 대해서 정리하면

- beta에 대하여 미분하고, hat beta(estimate beta)를 구한다.

 

 

 

 

R로 다중 회귀 모델 구하기

- 결과

 

 

 

 

잔차 residual

- 관측값 Yi - 추정된 회귀값 hat Yi

- 추정값과 잔차 사이의 관계

 

 

 

햇 행렬 hat maixt

- 햇 행렬의 정의

- 다음 성질을 만족하는 멱등행렬 idempotent matrix

 

 

 

 

회귀 방정식의 신뢰성 보기

- 분산분석표에서 F 검정

- 결정계수

- 잔차 평균 제곱

 

 

총 제곱합 SST

잔차제곱합

 

회귀제곱합

 

변동 분해

 

 

 

중회귀 분산분석표

- 검정통계량 F0 : 회귀방정식이 유의한가를 검정하기 위한 검정 통계량

- H0 : beta1 = beta2 = ... = 0   vs H1 : 하나의 betai != 0

- 유의수준 alpha에서 F0 > F(k, n-k-1;alpha) 인 경우 귀무가설을 기각 => 회귀방정식이 유의

- R에서 F0에 대한 유의확률 Pvalue가 유의수준 alpha보다 작다면 귀무가설 기각함 

 

 

R로 회귀 식 구하기

 

- 분산분석표로 보기

 

 

 

결정계수 coefficient of determinantion

- 이 회귀 식이 얼마나 설명력이 있는지 나타내는 값 R^2

 

중 상관계수 mutiple correlation coefficient

- 단순 회귀에서 결정계수 R^2 = 두변수의 상관계수 제곱과 같다. corr ^2

- 중회귀 모델에서 결정계수 = 반응변수 Yi와 추정값 hat Yi의 상관게수의 제곱

=> 다중회귀모델에서 결정계수의 제곱근

 

300x250
728x90

예측방법론

- 예측에는 주관적 예측과 객관적 예측이 있음

- 데이터 기반 예측 -> 객관적 예측

- 시계열 특성과 예측 모형을 보고 R 구현

 

 

 

 

회귀 분석 regression analysis

- 독립변수와 종속변수 사이의 함수 관계(모형)을 구하는 통계적 분석 방법

- 독립 변수 independent variable, 설명변수 explanatory variable: 영향을 주는 변수 x

- 종속변수 dependent variable, 반응변수 response variable : 영향을 받는 변수 y

 

 

회귀 용어의 유래

- 영국의 우생할자 galton이, 부모콩의 무게를 x 자식콩이 무게를 y로 산점도를 그려 관계를 살펴봄

 => 자식의 무게는 평균 무게로 회귀(되돌아 가려는)하려는 경향을 발견 => 피어슨이 분석하여 발표

 

 

 

 

단순 회귀 모형 simple regression model

- 가장 간단한 회귀 모형

- 독립 변수와 종속 변수 사이에 선형적 관계를 표현함

- Yi : i번째 측정된 반응변수 Y의 값

- beta 0 : 절편 회귀계수

- beta 1 : 기울기 회귀계수

- Xi = i번쨰 상수 X값

- epsilon i = i번쨰 측정된 Y의 오차항

 

 

 

 

회귀선 regression line

- 표본으로 모형식을 추정하여 구한 직선. 추정된 회귀 직선, 회귀선이라 함.

-b0와 b1은 beta0와 beta1의 추정값

- hat{Y}는 E(Y)의 추정값

- b0는 회귀절편 intercept

- b1은 X가 한단계 증가할떄 hat Y의 증가량으로 기울기 slope

- 회귀 계수 b0, b1을 구하는 방법 => 최소제곱법

 

 

 

 

 

 

 

최소제곱법 method of least square LSM

- 회귀 모델이 다음과 같이 주어질떄

- 오차 항 제곱 합은 아래와 같다.

 

- > S를 beta0과 beta1에 대해 각각 편미분한 결과가 0이 되는 beta0와 beta1를 b0와 b1로 함.

-위 식을 정리하면 아래와 같으며, 이 식을 정규 방정식 normal equation

- b0와 b1에 대하여 정리

 

 

 

 

선형 회귀 모델 예제 - 광고료와 총판매액

- 기울기는 2.6087으로 추정 p value가 매우 작으므로, 귀무가설 기각 -> 유의한 결과를 보임

- 절편은 -2.2696으로 추정

 

 

 

 

잔차 residual

- Xi에서 관측된 값 Yi와 추정된 hat Yi사이 차이

- 잔차의 합은 0

- 잔차의 제곱합은 최소

- 관찰값 Yi의 합과 추정된 hat Yi는 같다.

- R에서 확인하기

 

 

 

회귀 모형의 정도

- 구한 회귀 모형이 얼마나 좋은가?

 

 

분산 분석표에 의한 F 검정

- 변동 분해하기

 회귀제곱합의 자유도는 독립변수가 1개이므로 

 총 데이터 수가 n개에서 평균에 대한것을 빼므로 n - 1

 => 잔차제곱합의 자유도는 n - 2

 

 

분산분석표를 이용한 F 검정

- 변동을 분해한 표

- 가설 검정

- F0 > F(1, n-2; alpha) 이면 유의수준 alpha에서 귀무가설을 기각 => 회귀 직선이 유의하다

- R에서 유의 확률 p value를 제공. pvalue < alpha이면 귀무가설 기각

 

R에서 분산분석

- p value가 0.001487로 매우 작으므로 귀무가설을 기각

 

 

 

결정계수 coefficient of determination

- 회귀선이 어느정도의 설명력을 가지고 있는가를 나타내는 지표

- R^2는 0 ~ 1

- X와 Y 사이 높은 상관관계를 가질수록 R^2 는 1에 가까워짐

-> 0에 가까우면 유용성이 떨어지는 회귀선

- 회귀선으로 설명되는 변동/총변동이므로 회귀선의 기여율이라고도함.

 

 

 

 

 

 

추정값의 표준 오차 Mean Squared Error

- 잔차 평균 제곱 MSE는 오차 분산 sigma2의 불편추정량.

- sqrt(MSE)로 표준 오차를 구함

 

 

 

 

300x250
728x90

분산분석 -> 요인의 수준이 이산형(100, 120)에 따른 종속변수의 영향

회귀분석 : x가 이산이 아닌 연속인경우 분석 방법

공분산분석 : x가 이산형인것도 있고 연속형인것도 두개다 있는 경우

 

 

 

 

 

회귀분석 regression analysis

- 독립변수들과 종속변수 간에 관계를 함수식으로 정리하여 분석하는 방법

- 독립/종속변수는 연속값

- 단순 회귀 simple regression : 독립변수가 하나

- 다중 회귀 multiple regression  :독립변수가 여러개

 

 

 

 

다중 선형 회귀 multiple linear regression

다항 회귀 모형 polynomial regression model

 

 

 

상관계수 correation coefficient

- 두 변수간에 선형적 상관관계에 대해서 나타냄

- 1에 가까우면 양의 상관관계

- -1에 가까우면 음의 상관관계

- 0에 가까우면 선형적 상관관계가 존재하지 않음

 

 

 

단순 선형 회귀 분석 simple linear regresion analysis

- 모형 model

- 관측치 measurements

- 추정식 estimator

- 잔차 residual

 

 

 

최소제곱법 least squared method LSM

 

 

다음 데이터가 주어질떄 단순선형회귀를 수행하라

 

 

 

 

 

 

 

R로 테스트

- 추정량 -0.28928

- 기울기 0.45664 -> pvalue = 3.21e-07로 매우작다 =>유의하다.

- R-squared : 0.9338로 유의함

 

회귀선의 유의성 검정

- 두 변수 사이에 회귀 관계가 없다면 beta1는 0이되어 다음의 식이 성립합.

- 총제곱합과 잔차제곱합, 회귀제곱합 사이의 관계

결정계수 coefficient of determination R^2

- 회귀식이 얼마나 의미있는지

- R square가 크면 클수록 유의하다.

- 회귀 계수 beta1의 유의성

 -> H0: 회귀관계가 없다. vs H1 : 회귀관계가 있다.

     H0: beta1 = 0 vs H0: beta1 !=0

 

 

 

분석분석표

- 회귀분석의 유의성 검정

 

 

분산분석표 분석

유의확률 pvale가 매우 작으므로 h0 기각. 매우 유의

 

 

 

공분산 분석

- 분산분석 + 회귀분석

- 일원 배치 분산분석 : 기계(3대) -> 섬유 제품 강도

- 이원 배치 분산분석 : 기계(3대), 원사두께(얇음,두꺼움) -> 섬유제품 강도

- 공분산 분석 : 기계(3대), 원사 두께(연속적인값, 공변수 covariate) -> 섬유제품 강도

 

 

공분산 분석 예시

- 일원배치 예시 : 두개의 사료 (A,B) => 섭취후 체중 y

- 공분산 분석 예시 : 두 사료(A,B), 초기체중 x(연속적인값) => 섭취후 체중 y

 

 

 

 

 

 

 

 

 

 

 

 

300x250
728x90

이원배치법

- 2개의 요인(독립변수 A, B)와 반응 변수(종속변수) 사이의 관계를 알아보기위한 실험계획

- 독립 변수는 불연속, 종속 변수는 연속적인 값

- 반복이 없는 경우와 있는 경우가 존재

- 반복하는 경우 두 요인간 상호 작용 효과를 검출 가능

 

 

이원배치법에서 효과

- 주 효과 main effect : 요인 A의 수준간 차이가 존재하는가

- 상호 작용 효과 interection effect(교호 작용효과) : 요인 A의 서로 다른 수준에서 요인 B의 주효과가 다른가

 

 

 

 

실험의 랜덤화

- 완전 확률화 계획법 : 두 요인 수준 조건에 순서를 주고, 랜덤한 순서대로 실험

 

 

이원 배치법 고정모형(A, B 고정요인- 모수인자)

- 반복의 장점

  인자 조합의 효과를 실험 오차와 분리하여 구할수 있음

  교호작용을 분리하여 검출할수 있어 주효과에 대한 검출이 개선됨

  실험 오차를 구할 수 있음

- 이원배치법의 자료구조

 

 

반복이 있는 이원배치 모수모형 (A, B 두인자 모두 고정, 모수인자인경우)

 

 

 

 

검정 가설

1. 인자 A에 대한 가설

 H0 : alpha1 = alpha2 = ... = 0 ->인자 A의 수준간 효과 차이 없다.

 vs H1 : 적어도 하나의 alphai는 != 0 -> 인자 A의 수준관 효과 차이 있다.

2. 인자 B에 대한 가설

 H0 : beta1 = beta2 = ... = 0 -> 인자 B의 수준간 효과에 차이가 없다

 vs H1 : 적어도 하나의 betai는 != 0 -> 인자 B의 수준간 효과 차이 존재

3. 인자 A와 B의 교호작용에 대한 가설

 H0 : 모든 (alpha beta)ij = 0 -> 교호작용 없다

 vs H1 : 적어도 (alpha beta)ij 중 하나는 0이 아니다 -> 교호작용이 존재

 

 

 

 

이원배치 분산 분석

 

 

이원배치 분산 분석표

 

 

이원배치 분산 분석에서 가설검정

1. 인자 A에 대한 가설검정

- 검통 통계량 F0 = MSA / MSE > F(a -1, ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

 즉, 인자 A가 반응치에 유의한 영향을 준다.

2. 인자 B에 대한 가설검정

- 검통 통계량 F0 = MSB / MSE > F(b -1, ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

 즉, 인자 B가 반응치에 유의한 영향을 준다.

3. 교호작용 AxB에 대한 가설검정

- 검통 통계량 F0 = MSAxB / MSE > F( (a-1)(b-1), ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

 즉, 인자 A와 B 사이에 교호작용이 존재한다.

 

 

 

 

 

이원배치 분산분석 예제

- 4종류의 사료와 3종류의 돼지 품종이 체중 증가에 미치는 영향

 

 

 

R에서 예제 실습

- 사료와 품종별 boxplot

 

 

- 품종별 boxplot 상에서

품종간에 큰 차이는 없어보임

 

 

사료별 boxplot

- 사료별 큰 무게 분포를 보인다.

 

 

 

분산분석

- 사료에 대한 유의확률 p val 0.00223로 매우 작음. 귀무가설 기각

 => 사료가 몸무게 증가에 유의한 영향을 준다.

- 나머지의 경우 유의확률이 크므로 귀무가설 채택.

 

 

 

 

 

 

 

300x250
728x90

유의확률 = 한계유의수준 = p value

유의수준 = alpha

 

 

 

 

일원 배치의 구조 모형

- 독립 변수(중요한 요인, 인자)가 하나. 이 변수가 종속 변수(반응치)에 어떤 영향을 미치는가?

1. 모수 인자(고정 인자)

- 관심 대상이 되는 반응온도에서 80도, 100도, 120도를 고정된 인자.

- 최적 조건

- 인자의 수준에 따라 반응치의 모평균이 바뀌는가

 

2.변량인자 (랜담인자)

- 80~120도사이 같은 구간 반응 온도는 변량 인자

 

 

일원 배치법의 구조 모형

 

오차 epsilon_ij에 대한 가정

- 정규성, 독립성, 불편성, 등분산성

 

 

 

 

 

 

분산분석

귀무가설 H0 : alpha1 = . . . = alpha_a = 0 

   => 수준 효과간 차이가 없다

   ex. 100도 = 120도 = 130도 .. 에서 차이가 없다.

대립가설 H1 : alpha_i 모두 0은 아니다

  => 어떤 수준에서 효과 간 차이가 있다.

 

변동에 대하여

 

 

분산 분석표와 가설 검정 방법

- 검정 통계량 F0 > F(a - 1, a(r-1) ; alpha)이면 유의수준 alpha에서 귀무가설 기각

- 유의확률 p val < 유의수준 alpha이면 대립가설 채택

 

 

 

일원배치 분산분석 예제 - 납품업체간 직물의 마모도에 유의한 차이여부

- 분산분석표

- 일원 배치 분산분석 결과

 검정 통계량 F0 8.78 > F(3, 12; 0.01) = 5.95

 => 귀무가설 기각

납품업체들 간에 직물 마모도 차이가 존재한다.

 

 

 

 

R로 일원배치 분산분석 실습

- 한계유의수준(유의확률, p val)이 0.00227로 유의수준 0.05보다 작다 => 귀무가설 기각

 업체들간 직물 마모도에 차이가 존재한다.(대립가설 채택)

 

 

 

 

 

 

300x250
728x90

관련 용어

- 모집단 population : 알고자 하는 대상 집합

- 랜덤 추출 random sampling : 임의의 표본 추출

- 랜덤 표본 random sample : 모집단에서 추출한 표본

- 모수 parameter : 모집단의 특징을 나타내는 값 ex. 모평균, 모분산

- 통계량 statistics : 표본을 이용하여 추정하고자 하는 값에 대한 함수 ex. 표본 평균, 표본 분산

- 추정 estimation : 표본을 이용하여 모집단에 대한 값을 추정하는 과정

- 점추정 point estimation : 모수에 대한 추정

- 구간 추정 interval estimation : 모수에 대한 추정과 추정의 정확률 

- 신뢰 수준 confidence level : 모수가 참이라 속할것으로 기대되는 구간에 못가 포함될 확률 

- 통계적 가설 statistical hypothesis

- 검정 통계량 test statistic 

- 귀무 가설 H0 null hypothesis : 일어날 가능성이 적다고 판단하는 가설. 참인지 판단하고자하는 가설

- 대립가설 H1 : alternative hypothesis : 귀무가설에 대립되는 가설

- 기각역 rejection region : 검정 통계량이 기각역에 들어가는지를 보고 귀무가설 기각여부 판단

- 유의 수준 significant level : 제1 종 오류를 범하는 최대 허용 확률

- 유의 확률 significant probability : 귀무가설이 맞다고 할때 주어진 데이터가 우연히 대립가설을 지지할 확률

 

 

 

 

t 검정

 - 모집단의 분산을 모를떄, 모집단을 대표하는 표본으로 부터 추정된 분산을 이용하여 t분포에 의존해 검정하는 방법

 

 

두 모집단 비교

- 가정

- 공통 분산 sigma2는 합동표본분산 S_p^2(pooled sample variance)로 추정

 

 

 

 

두 모집단 비교 예제 1

- 약의 생산 후와 1년 후 약효 측정 결과

- mu1, mu2가 생산 직후와 1년후 약의 평균 약효

 => 1년이 지나도 약효가 보존되는지 가설 검정

 

1) 가설 설정

 

2) 검정 통계량 구하기

3) 의사결정

- 검정 통계량 3.85가 자유도가 18인 t분포에서 alpha가 0.025인 경우 2.101으로 보다 크다

 => 귀무 가설은 기각

 유의수준 0.05에서 약을 오래 보존하면 달라진다.

 

 

 

4) 신뢰 구간

 

 

t 검정 결과

- 유의수준 0.05일떄, 자유도 18, 검정 통계량 t0 = 3.8511

- 유의확률 p value = 0.00117로 0.05보다 훨씬 작으므로 귀무가설 기각

 

 

 

300x250
728x90

실험 계획을 하는 이유

- 특정 프로세스와 시스템을 이해 -> 최적화 등 의사결정 목적

1. 중요 요인 찾기 : 정화하는데 소요되는 시간에 영향을 미치는 정화수 종류, 온도, 필터 종류 등의 유의성 파악

2. 입력 변수와 출력변수간 관계 파악 : 염색할때 염색 온도가 명암에 미치는 영향 파악

3. 최적 조건 찾기 : 독립변수가 종속 변수에 영향을 미칠때(통계적 유의성이 존재시) 최적 조건을 위함

4. 비교 실험 : 여러 가지 약물의 효과 비교를 위하여 실시

 

 

 

  

프로세스 모형

 

 

 

 

연구의 종류

- 관측 연구와 실험 연구

1. 관측 연구

 - 기존의 자료, 관측 등

2. 실험 연구

 - 실험 대상에 대해 처리를 하는 연구

 - 모든 연구는 관측 연구에서 시작하여 실험을 통해 확인

 

 

 

 

 

실험 계획 기본 원리

1. 랜덤화 randomization

 - 실험 단위 배정/순서를 임의로 결정

2. 블록화

 - 실험 대상끼리 묶기. 블록화 후 블록 내에서 랜덤화

 ex. 젋은 사람과 나이든 사람에게 약 효과에 차이가 있다.

 -> 젋은 사람/젋지 않은 사람 두 그룹으로 나누어야 한다.

3. 교락 confounding

 - 고차의 교호작용효과와 블록효과 간 분간이 안되는것

  => 실험 계획을 잘못 할 경우 교락이 되어 분리가 안됨. 

4. 직교화 orthogonalization

 - 주효과와 부호의 곱으로 표현되는 열(교효작용)이 균형 (각 요인의 효과가 독립이라고 추정)

 

 

 

 

 

실험 계획 예시 1 - 감기에 대한 비타민 C 효과 실험

- 감기 환자들을 임의로 두 그룹으로 나눔

- 한 그룹(실험 집단)에는 비타민 C를 주고, 다른 그룹(대조 집단)에게는 위약을 준다.

- 이중 눈가림 실험 실시(맹검법 double blind test) 실시

=> 맹검법 : 실험자와 피실험자 둘다 정보를 주지않는것.

ref : ko.wikipedia.org/wiki/%EB%A7%B9%EA%B2%80%EB%B2%95

 

 

 

실험 계획 예시 2 - 동물 전염병에 대한 치료제 효과 파악

1. 실험 1 

- 작년에 태어난 동물에게 기존 치료제 투여시 발병률

- 올해에 태어난 동물에게 새 치료제 투여시 발병률

=> 동물 성장 시 환경적 요인이 다르므로 약효도 다를 수 있어 좋지 않음.

 

2. 실험 2

- 올해 동물을 임의로 그룹을 나눔

- 맹검법 실시

=> 더 낫다.

 

 

 

 

심슨의 모순

- 전체적으로 본 결론과 세부적으로 나누어본 결론이 다름

- 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다

 

ex.   어느 대학 신입생 합격률에서 여성 합격률이 낮았음.  단과대 별로 보니 남성이 합격률이 낮음

ref : namu.wiki/w/%EC%8B%AC%EC%8A%A8%EC%9D%98%20%EC%97%AD%EC%84%A4

 => 신입생 합격률 자체는 남성이 높으나 단과별 합격룰은 여성이 더 높음.

 

 

 

 

 

 

 

실험 계획 순서

1. 문제 발생

2. 목적 설정

3. 반응 변수(특성값) 선정. 

   요인과 수준 선정

   실험 설계 선정

 * 어떤 효과들 끼리 서로 교락이 되서 분리가 안되는 상황을 피하도록 실험을 계획하여야함

4. 실험 수행

5. 자료 분석, 결과 검토

6. 결론, 조치

7. 목적 달성 

8. 문제 해결

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

실험계획 - 3. 일원배치 분산분석  (0) 2020.10.29
실험계획 - 2. 두 모집단 비교  (0) 2020.10.29
파이썬R - 8. 분산 분석  (0) 2020.10.28
파이썬R - 7. 평균 검정  (0) 2020.10.28
파이썬R - 6. 파이썬 기술통계  (0) 2020.10.28
728x90

실험 계획법

- 대표적인 분석 방법 -> 분산 분석

- 실험을 어떻게 계획하고 분석하는가

를 실험계획법에서 배운다.

 

 

분산 분석

- 요인이 한개인 경우 -> 일원 배치 분산 분석

- 요인이 여러개 인 경우 -> 이원 배치 분산 분석

 

 

 

 

 

 

1. 일원분산분석 예제

- 목화 함유량 퍼센트 pct 에 따라 섬유 장력 tensile을 측정한 자료가 주어질때

- 요인은 목화 함유량

- 실험 수준 : 15%, 20%, 25%, 30%, 35% 다섯개 처리 선택

- 각 수준별로 5회씩측정

=> R과 파이썬으로 일원분산분석 하자

요인(인자 ) : pct

수준 ; 5

Y : 장력 tensile

 

 

 

 

분산 분석이라는 용어의 이유

 

 

- 변동을 분해한 표 -> 분산 분석표

 

 

 

분산 분석

1. 분산분석표 작성 : 수준 간에 차이가 있는가, 없는가 본다.

2. 다중 비교 :  수준 간에 차이가 존재한다면, 어느 수준 간에 차이가 존재하는가?

 

 

 

1.1 R

수준간 차이가 있는지 보려면

수준별 상자그림을 그려보자

그룹별 기술 통계량 보면

 

유의한지?

일원배치 분산 분석으로 다룬다

 

분산분석 aov함수

- aov(종속변수 ~ 요인, 데이터)

 

 

총 데이터 25개

- df 24(잔차 20 + pct 4) = 25 - 1

- F value = 14.76

- P value = Pr(F > 14.76) = 9.13e-06 

 p value가 매우 작으므로 귀무가설 기각

 

 

 

다중 비교 분석

- 어느 수준간에 차이가 존재하는지 다중 비교분석 필요

- tukey 방법

- duncan 방법

- scheffe 방법

 

 

 

Tukey방법으로 다중 비교 분석

- TukeyHSD(fit)

 

 

 

 

다중비교분석 플로팅

#Tukey 방법으로 다중 비교 분석
tukey.test = TukeyHSD(fit)
plot(tukey.test)

 

 

 

 

 

 

 

 

 

 

2. 이원 분산분석

- 온도와 판유리 종류별로 유리 강도에 차이가 있는지 이원분산분석

- 온도 100도, 125도, 150도/ 유리 종류 1, 2, 3/ 각 3회 반복

=> 총 27회 랜덤하게 실험하여 얻은 데이터 사용

* 아깐 목화 함유량 pct에 의한 장력 tencile 을 보았다면 이번엔 유리 종류와 온도에 따른 분석 수행

 

데이터 읽고 head

- temp가 100, 125, 150..으로 되어있으니

- 100 = 1, 125 = 2, 150 = 3으로 변경(car 패키지 사용)

 

 

 

car 패키지의 recode 함수

- 온도를 변경

 

 

 

 

변수를 명목형으로 변경

 

 

 

 

 

 

 

 

분산분석 및 분산분석표 출력

df보고..

- glass 수준 3가지

- temp 수준이 3가지

 

- sum of sq/df -> mean sq

- F val = mean sq/ df

- *** => 유의한 차이가 있다.

 

 

분산분석 결과 ploting

interaction.plot()

 

300x250

'수학 > 통계' 카테고리의 다른 글

실험계획 - 2. 두 모집단 비교  (0) 2020.10.29
실험계획 - 1. 실험 계획 개념  (0) 2020.10.29
파이썬R - 7. 평균 검정  (0) 2020.10.28
파이썬R - 6. 파이썬 기술통계  (0) 2020.10.28
파이썬R - 5. R 기술통계  (0) 2020.10.28
728x90

평균 검정

- 단일 표본에서 모평균

- 두 독립 표본에서 평균 검정(평균이 같은가 다른가)

- 대응 표본에서 평균 검정

=> t 검정

 

 

t검정 t test(평균 검정)

- 모집단의 분산이나 표준편차를 모를때

 표본으로 추정된 분산이나 표준편차로 검정.

- 두 모집단에 평균간 차이는 없다 라는 귀무가설과

평균 간 차이가 있다는 귀무가설중 하나를 선택가능한 통계적방법

 

 

 

예습

 

 

 

1. 단일 표본 모평균 검정

- 25마리 게 체온을 이용한 단일 표본에서의 모평균 검정

귀무가설 H0 : mu = 24.3 vs 대립가설 H1 : mu != 24.3

 

1.1 R에서 모평균 검정

 

 

 

 

t0 = 2.7128

p value = 0.0124 ->

유의수준 alpha = 0.05 이라면

p value < alpha 이므로 귀무가설을 기각한다.

 

 

 

1.2 파이썬에서 모평균 검정

파일 읽기

 

실수형으로 데이터 변환

 

t검정

- ttest_1samp(데이터, 모평균)은 [tvalue, pvalue]를 리스트로 반환

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. 두 독립 표본에서 평균 검정

- 아까는 25마리의 게 체온이었다면 이번에는 두 종류의 지열제 효과 측정

- 13명 참여자 임의 분할. 한 그룹에 지혈제 B, 다른 그룹은 지혈제 G

- 두 독립표본의 평균차이가 존재하는지 검정

귀무 가설  H0 : mu0 = mu1 vs

대립 가설 H1 : mu0 != mu1

 

 

 

 

2.1 R에서 t test

t0 = -2.54

df = 10.701

p value = 0.0274 < 유의수준 0.05이므로 귀무가설 기각

=> 두 그룹에서 차이는 존재한다.

분산에 대한 검증 F test

- var.test()함수

p value가 0.4722로 <0.05보다 작다 => 귀무가설 기각

=> 분산이 같다고 보자

 

 

2.2 파이썬에서 ttest

 

 

 

 

 

 

3. 대응된 표본에서의 평균 검정

- 사슴의 왼쪽 뒷다리와 왼쪽 앞다리 길이 데이터. 두 다리 길이가 같은지 다른지 알고싶음

- 한 사슴에서의 다리를 측정하였으므로 대응 표본.

- 대응 표본에서 평균 차이를 검정

 

H0 : mu1 = mu2 vs H1 : mu1 != mu2

 

 

3.1 R에서 

t0 = 3.4138

df = n - 1 = 10 - 1 = 9

p value = 0.0077 -> 귀무가설 기각

=> 앞다리 뒤다리 차이 있다.

 

 

 

 

 

 

3.2 파이썬에서 대응 표본의 t검정

n = 10

-> df = n -1 = 9

 

 

 

300x250

+ Recent posts