상관 분석 correlation analysis
- 두 변수 사이의 상관 관계를 분석하는 방법
- 관계를 시각적으로 보기 위해 산점도 scatter plot를 이용
- 수치적 지표로 상관 계수 correlation coefficient가 있음.
피어슨의 상관계수
- 공분산을 두 변수의 표준편차로 표준화 시킨 값.
- 공분산 : Cov(x, y) = E(xy) - E(x)E(y)
- 상관계수 : Corr(x, y) = Cov(x, y)/(std(x) * std(y))
- -1에서 1사이의 값을 가지며, |corr|이 1에 가까울수록 강한 선형 관계를 가짐.
거리
- 데이터 간 차이의 정도
- 거리의 종류 : 유클리디안 거리, 맨해튼 거리, 마할라노비스 거리, 쳬비셰프거리, 민코프스키 거리 등
- 유클리디안 거리 : 일반적으로 사용하는 거리.
- 쳬비셰프 거리 : 모든 거리들 중에서 가장 큰 거리
- 맨해튼 거리 : 각 축과 평행하게 직진하여 얻은 거리
- 민코프스키 거리 : m차원 민코프스키 공간의 거리
다중공선성 multicollinearity
- 다중 회귀 분석에서 독립 변수들이 서로 상관관계를 가지는 성질
- 변수들 간에 강한 상관 관계를 갖는 경우 회귀 계수의 분산을 키워 문제가 발생
분산팽창지수 Variance Inflation Factor; VIF
- 다중공선성을 측정하기 위한 지표
=> 다중공선성을 일으키는 독립변수를 제거하여 개선
* R squared 는 모형의 적합도를 나타내는 결정계수
R sqaured Coefficient of determination
- 모형이 얼마나 설명령을 잘 가지고 있는가를 나타내는 계수로 0 ~ 1값.
다중 공선성 문제 판단하기
- 상관관계의 유의성을 검증하여 유의성이 있다면 다중공선성 문제 의심을 해야함.
- VIF가 10이상 시 다중 공선성 문제가 있음.
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 14. 표본 분포와 추정 (0) | 2020.11.26 |
---|---|
빅데이터 - 13. 확률 개요와 확률 분포들 (0) | 2020.11.26 |
빅데이터 - 11. 표본 추출 (0) | 2020.11.25 |
빅데이터 - 10. 데이터 분석 방법들 (0) | 2020.11.25 |
빅데이터 - 9. 신뢰구간과 평균 검정 (0) | 2020.11.25 |