728x90

탐색적 데이터 분석 EDA Explorary Data Analysis

- 수집된 데이터를 다양한 관점에서 살펴보고 의미를 이해하는 과정

 

데이터 통계 분석 방법들

1. 종속 변수 갯수에 따른 분류

- 단변량 분석

- 다변량 분석

2. 종속관계에 대한 분석들

- 카이 제곱

- 분산 분석

- 판별 분석

- 회귀 분석

3. 상호 관계에 대한 분석

- 요인 분석

- 군집 분석

ref : fullofjoy1108.tistory.com/24

 

 

 

 

빈도 분석 frequency analysis

- 카이 제곱 검정 이용

- 데이터들이 도수 분포표 상에서 어떤 분포 특성을 가지는지 파악에 사용

 => ex. 다음 가정 검증에 사용 : 한달간 여행을 가는 사람 수는 지역에 따라 차이가 있다.

 

교차 분석 crosstab analysis

- 교차표를 이용하여 변수간 독립성과 관련성 분석

- 카이 제곱 검정

=> 성별과 전공 선택 문항 간의 관계

 

분산 분석 Analysis of Variance

- 두 이상 집단을 분석하는 경우, 분산의 비로 만든 F 분포로 가설검정 하는 방법

- 각 집단의 모분산/모평균 차이가 유의한지 검정.

 

평균 분석 T-Test

- 표본 평균/표본평균의 차가 유의미한지 등을 검증 하는 방법

ex. 어느 생물의 평균 체온은 27.3도이다. 

 

판별 분석 discriminants analysis

- 판별식을 이용하여 종속 변수를 판별하는 분석 방법

 

회귀분석 regression analsysis

- 독립 변수와 종속 변수 사이 영향력을 파악하여, 새 데이터가 주어질때 종속변수를 예상하는 분석

 

상관관계 분석 correlation anlaysis

- 변수들 사이에 상관성을 분석하는 기법

- 상관 계수로 선형적 상관관계가 존재하는지 파악.

 

 

요인 분석 factor analysis

- 서로 연관성이 있는 변수들을 묶어 요인이라는 새로운 변수로 만들어 축소시키는 분석기법

 

주성분 분석 primary component analysis

- 요인 분석과 마찬가지로 변수의 수를 효과적으로 줄이는 방법

- 요인 분석은 연관성 있는 변수들을 묶어 요인으로 만들었으나 주성분 분석은 다름

- 주성분 분석은 변수 값들의 분산을 직교성을 이용하여 최대한 보존하도록 하여 차원을 축소시킴.

 

 

군집 분석 cluster analysis

- 어떤 대상들을 군집들로 분할하여 다루는 방법

 

시계열 분석 time series analysis

- 시간 흐름에 따라 데이터가 어떤 변화 추이를 보이는지 다루는 분석방법

300x250

+ Recent posts