728x90

상관 분석 correlation analysis

- 두 변수 사이의 상관 관계를 분석하는 방법

- 관계를 시각적으로 보기 위해 산점도 scatter plot를 이용

- 수치적 지표로 상관 계수 correlation coefficient가 있음.

 

피어슨의 상관계수

- 공분산을 두 변수의 표준편차로 표준화 시킨 값.

- 공분산 : Cov(x, y) = E(xy) - E(x)E(y)

- 상관계수 : Corr(x, y) = Cov(x, y)/(std(x) * std(y))

- -1에서 1사이의 값을 가지며, |corr|이 1에 가까울수록 강한 선형 관계를 가짐.

 

 

 

 

거리

- 데이터 간 차이의 정도

- 거리의 종류 : 유클리디안 거리, 맨해튼 거리, 마할라노비스 거리, 쳬비셰프거리, 민코프스키 거리 등

- 유클리디안 거리 : 일반적으로 사용하는 거리.

- 쳬비셰프 거리 : 모든 거리들 중에서 가장 큰 거리

- 맨해튼 거리 : 각 축과 평행하게 직진하여 얻은 거리

- 민코프스키 거리 : m차원 민코프스키 공간의 거리

 

 

 

 

다중공선성 multicollinearity

- 다중 회귀 분석에서 독립 변수들이 서로 상관관계를 가지는 성질

- 변수들 간에 강한 상관 관계를 갖는 경우 회귀 계수의 분산을 키워 문제가 발생

 

 

 

분산팽창지수 Variance Inflation Factor; VIF

- 다중공선성을 측정하기 위한 지표

 => 다중공선성을 일으키는 독립변수를 제거하여 개선

* R squared 는 모형의 적합도를 나타내는 결정계수

 

 

R sqaured   Coefficient of determination

- 모형이 얼마나 설명령을 잘 가지고 있는가를 나타내는 계수로 0 ~ 1값.

 

 

 

다중 공선성 문제 판단하기

- 상관관계의 유의성을 검증하여 유의성이 있다면 다중공선성 문제 의심을 해야함.

- VIF가 10이상 시 다중 공선성 문제가 있음.

 

 

300x250

+ Recent posts