'수학/통계' 카테고리의 글 목록 (2 Page)

728x90

변수 선택과 기준/방법, 다중 공선성

다중 회귀 모형

- 여러개의 독립변수에 의해 종속변수 y에 주는 영향을 함수 식으로 표현한것

변수선택 variable selection problem

- 많은 설명 변수 중에서 모형에 포함시킬 변수를 결정하는 것

다중공선성 multicollinearity

- 모형에 포함되는 설명변수들 사이 연관성이 존재하는 경우 모형의 안정성과 신뢰성을 떨어트림

=> 공선성, 다중공선성

- 두 설명변수 X1, X2가 상수 c0, c1,c2에 대해 다음 관계를 가지는 경우

-> 두 변수 사이에 완벽한 공선성(exact collinearity)가 있음

ex. X1 + X2 = 100인경우 X2는 X1으로 결정됨

다중공선성 multiconllinearity

- 설명변수가 2개가 넘는 경우 다음과 같은 관계가 성립하거나 근사적으로 성립할시

=> 설명변수들 사이에 다중 공선성 multiconllinearity이 존재

- 설명변수 Xh와 나머지 설명변수간의 결정계수(다중상관계수의제곱) Rh^2이 다중공선성의 정도를 나타냄.

다중 공선성에 대해 의심이 드는 경우

- 설명변수의 표본 상관행렬에서 상관계수가 크게 +-1에 가까울떄

- 설명변수를 모형에 추가/제거시 추정된 회귀계수의 크기나 부호에 큰 변화를 줄때

- 새 자료를 추가/제거시 추정된 회귀 계수의 크기나 부호에 큰 변화를 줄때

- 중요하다고 생각되는 설명변수의 검정 결과가 유의하지 않거나 신뢰구간이 넓을때

- 추정된 회귀 계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 상반될때

분산팽창인자 VIF; variance inflaction factor

- R_j^2 : Xj를 반응변수로 보고 나머지 설명변수에 대한 결정 계수

- k개의 VIF_j 중 가장 큰 값이 5~10이 넘으면 다중공선성 있다고 판단.

병원 데이터를 이용한 예제

1. 데이터

Y : 월간 의사 연 근무시간

X1 : 일평균 환자수

X2 : 월간 Xray 초라영 횟수

X3 : 월간 이용병석수

X4 : 해당지역 병원이용가능인구 / 1000

X5 : 평균입원일

2. 회귀모형 구하고 보기

- X1 일평균환자 : 늘어날수록, 근무시간 Y는 늘어날탠대 -15.85167이 나옴

- X4 병원가능인구가 늘어날수록, 근무시간 Y는 늘어나야하나 -4.219가 나옴.

- X5 평균입원일이 늘어날수록, 근무시가이 늘어야하나 -394...

=> 독립변수간에 다중공선성이 존재가 예상되며, 분산 팽창인자 등에 의한 진단이 필요.

3. 분산팽창인자 계산하기

- X1, X2, X3, X4의 분산팽창인자를 계산해보면 5이상으로 다중 공선성 문제가 존재

4. 독립변수간 상관관계 보기

- cor()함수 : 상관계수 행렬

- X5를 제외한 X1 ~ X4까지 강한 선형 상관관계가 존재. x5를 제외하고 대부분 1에 가까움.

설명변수 X1을 제외한 경우 모형을 보자

1. summary

- R2는 차이없음

- 추정된 회귀계수의 표준 오차는 조금 줄어듬

2. 분산팽창지수 보기

- x1이 포함되었을때보다 크게 줄어듬

모형 선택 기준 - 결졍 계수

- R_p^2는 k개의 설명변수중에서 p개의 설명변수로 구성되는 모형에서 아래처럼 정의

- 결졍 계수는 설명 변수가 추가되어 p가 커질수록 증가

=>모든 변수가 포함이 다된 모형(p=k)일때 최대되도록 증가

= 최대 결정계수 값인 모형을 선택은 의미 없음.

모형 선택의 기준 - 수정 결정계수 adjusted coefficient of determination

- 결정계수 R_p^2의 문제를 보완하기 위한 방법.

- SS를 그대로 쓰기보다 자유도로 나누어 조정과정을 거침

- bar R_p^2는 설명변수가 증가해도 항상증가하지않음

=> 모형 선택시 수정 결정계수가 큰것을 사용하자

모형 선택 기준 : mallows Cp 통계량, AIC

- k개의 독립변수 중에서 p개의 변수를 선택할때, C_p가 최소가되는 모형을 선택

- AIC : 작은값을 갖는 모형을 선택

변수 선택 방법

- 모든 가능한 회귀 all possible regression

- 앞에서부터 선택 forward selection

- 뒤에서부터 선택 backward elimination

- 단계별 회귀 stepwise regression

1. 모든 가능한 회귀

- 독립변수가 k개 있으면 2^k -1 개의 회귀모형을 다뤄보자

=> k가 커질수록 계산량이 급격히 늘어남

1.1 데이터 로드

- 독립변수 4개,

1.2 모든 가능한 회귀 수행

- leaps 패키지의 regsubsets()함수

- 선택 알고리즘 : exhaustive

- 독립변수가 1개인 경우 가장 좋은 모형은 X4

- 독립변수가 2개인경우 가장 좋은 모형은 X1, X2

- 독립변수가 3개인 경우는 X1, X2, X4

1.4 구체적인 통계량을 보기

- 아래의 통계량을 정리해보면 X1, X2, X4가 사용된경우 조정된 R2가 가장 크고

- X1, X2인 경우 Cp가 가장 작다

- Cp는 작을수록 좋고, 조정된 R2는 클수록 좋다.

=> X1X2 나 X1X2X4 선택

2. 앞에서부터 선택 forward selection method

- k개의 설명변수 중에서 가장 영향이 큰 변수부터 하나씩 선택

- 더이상 중요한 변수가 없다고 판단할때 선택 중단하는 방법

2.1 R에서 실습

- AIC기준으로 수행. AIC는 값이 작을 수록 좋음.

- X3은 없는게 나으므로 X4, X1, X2를 선택

뒤에서부터 제거 backward elimination method

- 모든 독립변수를 사용한 모델에서부터 기여도가 작은 변수를 제거해나가는 방법

단계별 회귀 stepwise selection

- 앞에서 선택법에 뒤에서 제거법을 가미

- 새 변수가 추가될떄마다 기존 변수가 제거 될 필요가 있는지 검토하여 선택

Y~1에서

+X4하는 경우 AIC

~ +X3하는경우 AIC

=> X4를 추가하는것이 AIC가 가장작다

Y~X4에서

+X1하는경우 / +X3하는경우 / 추가 x/ +X2 경우 / -X4 경우

=> +X1일떄 AIC가 가장적다. => X1 추가

...

더하는 경우와 빼는 경우를 동시에 고려

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 5. 일반화 선형 모형 (0)	2020.10.30
회귀모형 - 4. 회귀 모형 만들기 (0)	2020.10.30
회귀모형 - 2. (다)중회귀모형 (0)	2020.10.30
회귀모형 - 1. 단순 회귀 모형 (0)	2020.10.30
실험계획 - 5. 회귀분석과 공분산 분석 (0)	2020.10.29

728x90

데이터 분석 방법 복습

이산형

- 일원배치법

- 이원배치법

연속형

- 회귀모형

(다)중 회귀모형 multiple regression model

- 종속 변수의 변화를 설명하는데 두 개 이상의 독립 변수가 사용되는 회귀 모형

- 선형인 경우 다중 선형 회귀 모형

독립변수가 k개인 다중 회귀 모형

- beta0, ..., betak : 모집단 회귀 계수

- epsilion i : Yi를 측정시 오차

독립변수가 2개인 다중 회귀 모형

- 벡터로 나타내는 경우

다중 회귀 모형 - 행렬 + 독립변수 2개

상점의 총 판매액 자료를 이용한 다중 회귀 분석

- 독립변수 : 광고료 x1, 상점크기 x2

- 종속변수 : 총 판매액 y

다중 회귀 모델 - 최소제곱법

- 행렬을 이용하면 쉽게 추정치 beta를 구할 수 있다.

- 다중 회귀 모델

- 오차에 대한 식

- 오차 제곱 합에 대해서 정리하면

- beta에 대하여 미분하고, hat beta(estimate beta)를 구한다.

R로 다중 회귀 모델 구하기

- 결과

잔차 residual

- 관측값 Yi - 추정된 회귀값 hat Yi

- 추정값과 잔차 사이의 관계

햇 행렬 hat maixt

- 햇 행렬의 정의

- 다음 성질을 만족하는 멱등행렬 idempotent matrix

회귀 방정식의 신뢰성 보기

- 분산분석표에서 F 검정

- 결정계수

- 잔차 평균 제곱

총 제곱합 SST

잔차제곱합

회귀제곱합

변동 분해

중회귀 분산분석표

- 검정통계량 F0 : 회귀방정식이 유의한가를 검정하기 위한 검정 통계량

- H0 : beta1 = beta2 = ... = 0 vs H1 : 하나의 betai != 0

- 유의수준 alpha에서 F0 > F(k, n-k-1;alpha) 인 경우 귀무가설을 기각 => 회귀방정식이 유의

- R에서 F0에 대한 유의확률 Pvalue가 유의수준 alpha보다 작다면 귀무가설 기각함

R로 회귀 식 구하기

- 분산분석표로 보기

결정계수 coefficient of determinantion

- 이 회귀 식이 얼마나 설명력이 있는지 나타내는 값 R^2

중 상관계수 mutiple correlation coefficient

- 단순 회귀에서 결정계수 R^2 = 두변수의 상관계수 제곱과 같다. corr ^2

- 중회귀 모델에서 결정계수 = 반응변수 Yi와 추정값 hat Yi의 상관게수의 제곱

=> 다중회귀모델에서 결정계수의 제곱근

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 4. 회귀 모형 만들기 (0)	2020.10.30
회귀모형 - 3. 회귀 모형에서 변수 선택 (0)	2020.10.30
회귀모형 - 1. 단순 회귀 모형 (0)	2020.10.30
실험계획 - 5. 회귀분석과 공분산 분석 (0)	2020.10.29
실험계획 - 4. 이원배치 분산분석 (0)	2020.10.29

728x90

예측방법론

- 예측에는 주관적 예측과 객관적 예측이 있음

- 데이터 기반 예측 -> 객관적 예측

- 시계열 특성과 예측 모형을 보고 R 구현

회귀 분석 regression analysis

- 독립변수와 종속변수 사이의 함수 관계(모형)을 구하는 통계적 분석 방법

- 독립 변수 independent variable, 설명변수 explanatory variable: 영향을 주는 변수 x

- 종속변수 dependent variable, 반응변수 response variable : 영향을 받는 변수 y

회귀 용어의 유래

- 영국의 우생할자 galton이, 부모콩의 무게를 x 자식콩이 무게를 y로 산점도를 그려 관계를 살펴봄

=> 자식의 무게는 평균 무게로 회귀(되돌아 가려는)하려는 경향을 발견 => 피어슨이 분석하여 발표

단순 회귀 모형 simple regression model

- 가장 간단한 회귀 모형

- 독립 변수와 종속 변수 사이에 선형적 관계를 표현함

- Yi : i번째 측정된 반응변수 Y의 값

- beta 0 : 절편 회귀계수

- beta 1 : 기울기 회귀계수

- Xi = i번쨰 상수 X값

- epsilon i = i번쨰 측정된 Y의 오차항

회귀선 regression line

- 표본으로 모형식을 추정하여 구한 직선. 추정된 회귀 직선, 회귀선이라 함.

-b0와 b1은 beta0와 beta1의 추정값

- hat{Y}는 E(Y)의 추정값

- b0는 회귀절편 intercept

- b1은 X가 한단계 증가할떄 hat Y의 증가량으로 기울기 slope

- 회귀 계수 b0, b1을 구하는 방법 => 최소제곱법

최소제곱법 method of least square LSM

- 회귀 모델이 다음과 같이 주어질떄

- 오차 항 제곱 합은 아래와 같다.

- > S를 beta0과 beta1에 대해 각각 편미분한 결과가 0이 되는 beta0와 beta1를 b0와 b1로 함.

-위 식을 정리하면 아래와 같으며, 이 식을 정규 방정식 normal equation

- b0와 b1에 대하여 정리

선형 회귀 모델 예제 - 광고료와 총판매액

- 기울기는 2.6087으로 추정 p value가 매우 작으므로, 귀무가설 기각 -> 유의한 결과를 보임

- 절편은 -2.2696으로 추정

잔차 residual

- Xi에서 관측된 값 Yi와 추정된 hat Yi사이 차이

- 잔차의 합은 0

- 잔차의 제곱합은 최소

- 관찰값 Yi의 합과 추정된 hat Yi는 같다.

- R에서 확인하기

회귀 모형의 정도

- 구한 회귀 모형이 얼마나 좋은가?

분산 분석표에 의한 F 검정

- 변동 분해하기

회귀제곱합의 자유도는 독립변수가 1개이므로

총 데이터 수가 n개에서 평균에 대한것을 빼므로 n - 1

=> 잔차제곱합의 자유도는 n - 2

분산분석표를 이용한 F 검정

- 변동을 분해한 표

- 가설 검정

- F0 > F(1, n-2; alpha) 이면 유의수준 alpha에서 귀무가설을 기각 => 회귀 직선이 유의하다

- R에서 유의 확률 p value를 제공. pvalue < alpha이면 귀무가설 기각

R에서 분산분석

- p value가 0.001487로 매우 작으므로 귀무가설을 기각

결정계수 coefficient of determination

- 회귀선이 어느정도의 설명력을 가지고 있는가를 나타내는 지표

- R^2는 0 ~ 1

- X와 Y 사이 높은 상관관계를 가질수록 R^2 는 1에 가까워짐

-> 0에 가까우면 유용성이 떨어지는 회귀선

- 회귀선으로 설명되는 변동/총변동이므로 회귀선의 기여율이라고도함.

추정값의 표준 오차 Mean Squared Error

- 잔차 평균 제곱 MSE는 오차 분산 sigma2의 불편추정량.

- sqrt(MSE)로 표준 오차를 구함

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 3. 회귀 모형에서 변수 선택 (0)	2020.10.30
회귀모형 - 2. (다)중회귀모형 (0)	2020.10.30
실험계획 - 5. 회귀분석과 공분산 분석 (0)	2020.10.29
실험계획 - 4. 이원배치 분산분석 (0)	2020.10.29
실험계획 - 3. 일원배치 분산분석 (0)	2020.10.29

728x90

분산분석 -> 요인의 수준이 이산형(100, 120)에 따른 종속변수의 영향

회귀분석 : x가 이산이 아닌 연속인경우 분석 방법

공분산분석 : x가 이산형인것도 있고 연속형인것도 두개다 있는 경우

회귀분석 regression analysis

- 독립변수들과 종속변수 간에 관계를 함수식으로 정리하여 분석하는 방법

- 독립/종속변수는 연속값

- 단순 회귀 simple regression : 독립변수가 하나

- 다중 회귀 multiple regression :독립변수가 여러개

다중 선형 회귀 multiple linear regression

다항 회귀 모형 polynomial regression model

상관계수 correation coefficient

- 두 변수간에 선형적 상관관계에 대해서 나타냄

- 1에 가까우면 양의 상관관계

- -1에 가까우면 음의 상관관계

- 0에 가까우면 선형적 상관관계가 존재하지 않음

단순 선형 회귀 분석 simple linear regresion analysis

- 모형 model

- 관측치 measurements

- 추정식 estimator

- 잔차 residual

최소제곱법 least squared method LSM

다음 데이터가 주어질떄 단순선형회귀를 수행하라

R로 테스트

- 추정량 -0.28928

- 기울기 0.45664 -> pvalue = 3.21e-07로 매우작다 =>유의하다.

- R-squared : 0.9338로 유의함

회귀선의 유의성 검정

- 두 변수 사이에 회귀 관계가 없다면 beta1는 0이되어 다음의 식이 성립합.

- 총제곱합과 잔차제곱합, 회귀제곱합 사이의 관계

결정계수 coefficient of determination R^2

- 회귀식이 얼마나 의미있는지

- R square가 크면 클수록 유의하다.

- 회귀 계수 beta1의 유의성

-> H0: 회귀관계가 없다. vs H1 : 회귀관계가 있다.

H0: beta1 = 0 vs H0: beta1 !=0

분석분석표

- 회귀분석의 유의성 검정

분산분석표 분석

유의확률 pvale가 매우 작으므로 h0 기각. 매우 유의

공분산 분석

- 분산분석 + 회귀분석

- 일원 배치 분산분석 : 기계(3대) -> 섬유 제품 강도

- 이원 배치 분산분석 : 기계(3대), 원사두께(얇음,두꺼움) -> 섬유제품 강도

- 공분산 분석 : 기계(3대), 원사 두께(연속적인값, 공변수 covariate) -> 섬유제품 강도

공분산 분석 예시

- 일원배치 예시 : 두개의 사료 (A,B) => 섭취후 체중 y

- 공분산 분석 예시 : 두 사료(A,B), 초기체중 x(연속적인값) => 섭취후 체중 y

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 2. (다)중회귀모형 (0)	2020.10.30
회귀모형 - 1. 단순 회귀 모형 (0)	2020.10.30
실험계획 - 4. 이원배치 분산분석 (0)	2020.10.29
실험계획 - 3. 일원배치 분산분석 (0)	2020.10.29
실험계획 - 2. 두 모집단 비교 (0)	2020.10.29

728x90

이원배치법

- 2개의 요인(독립변수 A, B)와 반응 변수(종속변수) 사이의 관계를 알아보기위한 실험계획

- 독립 변수는 불연속, 종속 변수는 연속적인 값

- 반복이 없는 경우와 있는 경우가 존재

- 반복하는 경우 두 요인간 상호 작용 효과를 검출 가능

이원배치법에서 효과

- 주 효과 main effect : 요인 A의 수준간 차이가 존재하는가

- 상호 작용 효과 interection effect(교호 작용효과) : 요인 A의 서로 다른 수준에서 요인 B의 주효과가 다른가

실험의 랜덤화

- 완전 확률화 계획법 : 두 요인 수준 조건에 순서를 주고, 랜덤한 순서대로 실험

이원 배치법 고정모형(A, B 고정요인- 모수인자)

- 반복의 장점

인자 조합의 효과를 실험 오차와 분리하여 구할수 있음

교호작용을 분리하여 검출할수 있어 주효과에 대한 검출이 개선됨

실험 오차를 구할 수 있음

- 이원배치법의 자료구조

반복이 있는 이원배치 모수모형 (A, B 두인자 모두 고정, 모수인자인경우)

검정 가설

1. 인자 A에 대한 가설

H0 : alpha1 = alpha2 = ... = 0 ->인자 A의 수준간 효과 차이 없다.

vs H1 : 적어도 하나의 alphai는 != 0 -> 인자 A의 수준관 효과 차이 있다.

2. 인자 B에 대한 가설

H0 : beta1 = beta2 = ... = 0 -> 인자 B의 수준간 효과에 차이가 없다

vs H1 : 적어도 하나의 betai는 != 0 -> 인자 B의 수준간 효과 차이 존재

3. 인자 A와 B의 교호작용에 대한 가설

H0 : 모든 (alpha beta)ij = 0 -> 교호작용 없다

vs H1 : 적어도 (alpha beta)ij 중 하나는 0이 아니다 -> 교호작용이 존재

이원배치 분산 분석

이원배치 분산 분석표

이원배치 분산 분석에서 가설검정

1. 인자 A에 대한 가설검정

- 검통 통계량 F0 = MSA / MSE > F(a -1, ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

즉, 인자 A가 반응치에 유의한 영향을 준다.

2. 인자 B에 대한 가설검정

- 검통 통계량 F0 = MSB / MSE > F(b -1, ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

즉, 인자 B가 반응치에 유의한 영향을 준다.

3. 교호작용 AxB에 대한 가설검정

- 검통 통계량 F0 = MSAxB / MSE > F( (a-1)(b-1), ab(r-1), alpha)=> 유의수준 alpha에서 귀무가설 기각

즉, 인자 A와 B 사이에 교호작용이 존재한다.

이원배치 분산분석 예제

- 4종류의 사료와 3종류의 돼지 품종이 체중 증가에 미치는 영향

R에서 예제 실습

- 사료와 품종별 boxplot

- 품종별 boxplot 상에서

품종간에 큰 차이는 없어보임

사료별 boxplot

- 사료별 큰 무게 분포를 보인다.

분산분석

- 사료에 대한 유의확률 p val 0.00223로 매우 작음. 귀무가설 기각

=> 사료가 몸무게 증가에 유의한 영향을 준다.

- 나머지의 경우 유의확률이 크므로 귀무가설 채택.

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 1. 단순 회귀 모형 (0)	2020.10.30
실험계획 - 5. 회귀분석과 공분산 분석 (0)	2020.10.29
실험계획 - 3. 일원배치 분산분석 (0)	2020.10.29
실험계획 - 2. 두 모집단 비교 (0)	2020.10.29
실험계획 - 1. 실험 계획 개념 (0)	2020.10.29

728x90

유의확률 = 한계유의수준 = p value

유의수준 = alpha

일원 배치의 구조 모형

- 독립 변수(중요한 요인, 인자)가 하나. 이 변수가 종속 변수(반응치)에 어떤 영향을 미치는가?

1. 모수 인자(고정 인자)

- 관심 대상이 되는 반응온도에서 80도, 100도, 120도를 고정된 인자.

- 최적 조건

- 인자의 수준에 따라 반응치의 모평균이 바뀌는가

2.변량인자 (랜담인자)

- 80~120도사이 같은 구간 반응 온도는 변량 인자

일원 배치법의 구조 모형

오차 epsilon_ij에 대한 가정

- 정규성, 독립성, 불편성, 등분산성

분산분석

귀무가설 H0 : alpha1 = . . . = alpha_a = 0

=> 수준 효과간 차이가 없다

ex. 100도 = 120도 = 130도 .. 에서 차이가 없다.

대립가설 H1 : alpha_i 모두 0은 아니다

=> 어떤 수준에서 효과 간 차이가 있다.

변동에 대하여

분산 분석표와 가설 검정 방법

- 검정 통계량 F0 > F(a - 1, a(r-1) ; alpha)이면 유의수준 alpha에서 귀무가설 기각

- 유의확률 p val < 유의수준 alpha이면 대립가설 채택

일원배치 분산분석 예제 - 납품업체간 직물의 마모도에 유의한 차이여부

- 분산분석표

- 일원 배치 분산분석 결과

검정 통계량 F0 8.78 > F(3, 12; 0.01) = 5.95

=> 귀무가설 기각

납품업체들 간에 직물 마모도 차이가 존재한다.

R로 일원배치 분산분석 실습

- 한계유의수준(유의확률, p val)이 0.00227로 유의수준 0.05보다 작다 => 귀무가설 기각

업체들간 직물 마모도에 차이가 존재한다.(대립가설 채택)

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

실험계획 - 5. 회귀분석과 공분산 분석 (0)	2020.10.29
실험계획 - 4. 이원배치 분산분석 (0)	2020.10.29
실험계획 - 2. 두 모집단 비교 (0)	2020.10.29
실험계획 - 1. 실험 계획 개념 (0)	2020.10.29
파이썬R - 8. 분산 분석 (0)	2020.10.28

728x90

'수학 > 통계' 카테고리의 다른 글

실험계획 - 4. 이원배치 분산분석 (0)	2020.10.29
실험계획 - 3. 일원배치 분산분석 (0)	2020.10.29
실험계획 - 1. 실험 계획 개념 (0)	2020.10.29
파이썬R - 8. 분산 분석 (0)	2020.10.28
파이썬R - 7. 평균 검정 (0)	2020.10.28

728x90

실험 계획을 하는 이유

- 특정 프로세스와 시스템을 이해 -> 최적화 등 의사결정 목적

1. 중요 요인 찾기 : 정화하는데 소요되는 시간에 영향을 미치는 정화수 종류, 온도, 필터 종류 등의 유의성 파악

2. 입력 변수와 출력변수간 관계 파악 : 염색할때 염색 온도가 명암에 미치는 영향 파악

3. 최적 조건 찾기 : 독립변수가 종속 변수에 영향을 미칠때(통계적 유의성이 존재시) 최적 조건을 위함

4. 비교 실험 : 여러 가지 약물의 효과 비교를 위하여 실시

프로세스 모형

연구의 종류

- 관측 연구와 실험 연구

1. 관측 연구

- 기존의 자료, 관측 등

2. 실험 연구

- 실험 대상에 대해 처리를 하는 연구

- 모든 연구는 관측 연구에서 시작하여 실험을 통해 확인

실험 계획 기본 원리

1. 랜덤화 randomization

- 실험 단위 배정/순서를 임의로 결정

2. 블록화

- 실험 대상끼리 묶기. 블록화 후 블록 내에서 랜덤화

ex. 젋은 사람과 나이든 사람에게 약 효과에 차이가 있다.

-> 젋은 사람/젋지 않은 사람 두 그룹으로 나누어야 한다.

3. 교락 confounding

- 고차의 교호작용효과와 블록효과 간 분간이 안되는것

=> 실험 계획을 잘못 할 경우 교락이 되어 분리가 안됨.

4. 직교화 orthogonalization

- 주효과와 부호의 곱으로 표현되는 열(교효작용)이 균형 (각 요인의 효과가 독립이라고 추정)

실험 계획 예시 1 - 감기에 대한 비타민 C 효과 실험

- 감기 환자들을 임의로 두 그룹으로 나눔

- 한 그룹(실험 집단)에는 비타민 C를 주고, 다른 그룹(대조 집단)에게는 위약을 준다.

- 이중 눈가림 실험 실시(맹검법 double blind test) 실시

=> 맹검법 : 실험자와 피실험자 둘다 정보를 주지않는것.

ref : ko.wikipedia.org/wiki/%EB%A7%B9%EA%B2%80%EB%B2%95

실험 계획 예시 2 - 동물 전염병에 대한 치료제 효과 파악

1. 실험 1

- 작년에 태어난 동물에게 기존 치료제 투여시 발병률

- 올해에 태어난 동물에게 새 치료제 투여시 발병률

=> 동물 성장 시 환경적 요인이 다르므로 약효도 다를 수 있어 좋지 않음.

2. 실험 2

- 올해 동물을 임의로 그룹을 나눔

- 맹검법 실시

=> 더 낫다.

심슨의 모순

- 전체적으로 본 결론과 세부적으로 나누어본 결론이 다름

- 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다

ex. 어느 대학 신입생 합격률에서 여성 합격률이 낮았음. 단과대 별로 보니 남성이 합격률이 낮음

ref : namu.wiki/w/%EC%8B%AC%EC%8A%A8%EC%9D%98%20%EC%97%AD%EC%84%A4

=> 신입생 합격률 자체는 남성이 높으나 단과별 합격룰은 여성이 더 높음.

실험 계획 순서

1. 문제 발생

2. 목적 설정

3. 반응 변수(특성값) 선정.

요인과 수준 선정

실험 설계 선정

* 어떤 효과들 끼리 서로 교락이 되서 분리가 안되는 상황을 피하도록 실험을 계획하여야함

4. 실험 수행

5. 자료 분석, 결과 검토

6. 결론, 조치

7. 목적 달성

8. 문제 해결

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

실험계획 - 3. 일원배치 분산분석 (0)	2020.10.29
실험계획 - 2. 두 모집단 비교 (0)	2020.10.29
파이썬R - 8. 분산 분석 (0)	2020.10.28
파이썬R - 7. 평균 검정 (0)	2020.10.28
파이썬R - 6. 파이썬 기술통계 (0)	2020.10.28

728x90

실험 계획법

- 대표적인 분석 방법 -> 분산 분석

- 실험을 어떻게 계획하고 분석하는가

를 실험계획법에서 배운다.

분산 분석

- 요인이 한개인 경우 -> 일원 배치 분산 분석

- 요인이 여러개 인 경우 -> 이원 배치 분산 분석

1. 일원분산분석 예제

- 목화 함유량 퍼센트 pct 에 따라 섬유 장력 tensile을 측정한 자료가 주어질때

- 요인은 목화 함유량

- 실험 수준 : 15%, 20%, 25%, 30%, 35% 다섯개 처리 선택

- 각 수준별로 5회씩측정

=> R과 파이썬으로 일원분산분석 하자

요인(인자 ) : pct

수준 ; 5

Y : 장력 tensile

분산 분석이라는 용어의 이유

-

- 변동을 분해한 표 -> 분산 분석표

분산 분석

1. 분산분석표 작성 : 수준 간에 차이가 있는가, 없는가 본다.

2. 다중 비교 : 수준 간에 차이가 존재한다면, 어느 수준 간에 차이가 존재하는가?

1.1 R

수준간 차이가 있는지 보려면

수준별 상자그림을 그려보자

그룹별 기술 통계량 보면

유의한지?

일원배치 분산 분석으로 다룬다

분산분석 aov함수

- aov(종속변수 ~ 요인, 데이터)

총 데이터 25개

- df 24(잔차 20 + pct 4) = 25 - 1

- F value = 14.76

- P value = Pr(F > 14.76) = 9.13e-06

p value가 매우 작으므로 귀무가설 기각

다중 비교 분석

- 어느 수준간에 차이가 존재하는지 다중 비교분석 필요

- tukey 방법

- duncan 방법

- scheffe 방법

Tukey방법으로 다중 비교 분석

- TukeyHSD(fit)

다중비교분석 플로팅

#Tukey 방법으로 다중 비교 분석
tukey.test = TukeyHSD(fit)
plot(tukey.test)

2. 이원 분산분석

- 온도와 판유리 종류별로 유리 강도에 차이가 있는지 이원분산분석

- 온도 100도, 125도, 150도/ 유리 종류 1, 2, 3/ 각 3회 반복

=> 총 27회 랜덤하게 실험하여 얻은 데이터 사용

* 아깐 목화 함유량 pct에 의한 장력 tencile 을 보았다면 이번엔 유리 종류와 온도에 따른 분석 수행

데이터 읽고 head

- temp가 100, 125, 150..으로 되어있으니

- 100 = 1, 125 = 2, 150 = 3으로 변경(car 패키지 사용)

car 패키지의 recode 함수

- 온도를 변경

변수를 명목형으로 변경

분산분석 및 분산분석표 출력

df보고..

- glass 수준 3가지

- temp 수준이 3가지

- sum of sq/df -> mean sq

- F val = mean sq/ df

- *** => 유의한 차이가 있다.

분산분석 결과 ploting

interaction.plot()

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

실험계획 - 2. 두 모집단 비교 (0)	2020.10.29
실험계획 - 1. 실험 계획 개념 (0)	2020.10.29
파이썬R - 7. 평균 검정 (0)	2020.10.28
파이썬R - 6. 파이썬 기술통계 (0)	2020.10.28
파이썬R - 5. R 기술통계 (0)	2020.10.28

728x90

평균 검정

- 단일 표본에서 모평균

- 두 독립 표본에서 평균 검정(평균이 같은가 다른가)

- 대응 표본에서 평균 검정

=> t 검정

t검정 t test(평균 검정)

- 모집단의 분산이나 표준편차를 모를때

표본으로 추정된 분산이나 표준편차로 검정.

- 두 모집단에 평균간 차이는 없다 라는 귀무가설과

평균 간 차이가 있다는 귀무가설중 하나를 선택가능한 통계적방법

예습

1. 단일 표본 모평균 검정

- 25마리 게 체온을 이용한 단일 표본에서의 모평균 검정

귀무가설 H0 : mu = 24.3 vs 대립가설 H1 : mu != 24.3

1.1 R에서 모평균 검정

t0 = 2.7128

p value = 0.0124 ->

유의수준 alpha = 0.05 이라면

p value < alpha 이므로 귀무가설을 기각한다.

1.2 파이썬에서 모평균 검정

파일 읽기

실수형으로 데이터 변환

t검정

- ttest_1samp(데이터, 모평균)은 [tvalue, pvalue]를 리스트로 반환

2. 두 독립 표본에서 평균 검정

- 아까는 25마리의 게 체온이었다면 이번에는 두 종류의 지열제 효과 측정

- 13명 참여자 임의 분할. 한 그룹에 지혈제 B, 다른 그룹은 지혈제 G

- 두 독립표본의 평균차이가 존재하는지 검정

귀무 가설 H0 : mu0 = mu1 vs

대립 가설 H1 : mu0 != mu1

2.1 R에서 t test

t0 = -2.54

df = 10.701

p value = 0.0274 < 유의수준 0.05이므로 귀무가설 기각

=> 두 그룹에서 차이는 존재한다.

분산에 대한 검증 F test

- var.test()함수

p value가 0.4722로 <0.05보다 작다 => 귀무가설 기각

=> 분산이 같다고 보자

2.2 파이썬에서 ttest

3. 대응된 표본에서의 평균 검정

- 사슴의 왼쪽 뒷다리와 왼쪽 앞다리 길이 데이터. 두 다리 길이가 같은지 다른지 알고싶음

- 한 사슴에서의 다리를 측정하였으므로 대응 표본.

- 대응 표본에서 평균 차이를 검정

H0 : mu1 = mu2 vs H1 : mu1 != mu2

3.1 R에서

t0 = 3.4138

df = n - 1 = 10 - 1 = 9

p value = 0.0077 -> 귀무가설 기각

=> 앞다리 뒤다리 차이 있다.

3.2 파이썬에서 대응 표본의 t검정

n = 10

-> df = n -1 = 9

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

실험계획 - 1. 실험 계획 개념 (0)	2020.10.29
파이썬R - 8. 분산 분석 (0)	2020.10.28
파이썬R - 6. 파이썬 기술통계 (0)	2020.10.28
파이썬R - 5. R 기술통계 (0)	2020.10.28
파이썬R - 4. 파이썬과 R 그래픽 라이브러리 (0)	2020.10.28

집밖은 위험해

수학/통계

회귀모형 - 3. 회귀 모형에서 변수 선택

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 2. (다)중회귀모형

'수학 > 통계' 카테고리의 다른 글

회귀모형 - 1. 단순 회귀 모형

'수학 > 통계' 카테고리의 다른 글

실험계획 - 5. 회귀분석과 공분산 분석

'수학 > 통계' 카테고리의 다른 글

실험계획 - 4. 이원배치 분산분석

'수학 > 통계' 카테고리의 다른 글

실험계획 - 3. 일원배치 분산분석

'수학 > 통계' 카테고리의 다른 글

실험계획 - 2. 두 모집단 비교

'수학 > 통계' 카테고리의 다른 글

실험계획 - 1. 실험 계획 개념

'수학 > 통계' 카테고리의 다른 글

파이썬R - 8. 분산 분석

'수학 > 통계' 카테고리의 다른 글

파이썬R - 7. 평균 검정

'수학 > 통계' 카테고리의 다른 글

+ Recent posts

티스토리툴바