탐색적 데이터 분석 EDA Explorary Data Analysis
- 수집된 데이터를 다양한 관점에서 살펴보고 의미를 이해하는 과정
데이터 통계 분석 방법들
1. 종속 변수 갯수에 따른 분류
- 단변량 분석
- 다변량 분석
2. 종속관계에 대한 분석들
- 카이 제곱
- 분산 분석
- 판별 분석
- 회귀 분석
3. 상호 관계에 대한 분석
- 요인 분석
- 군집 분석
ref : fullofjoy1108.tistory.com/24
빈도 분석 frequency analysis
- 카이 제곱 검정 이용
- 데이터들이 도수 분포표 상에서 어떤 분포 특성을 가지는지 파악에 사용
=> ex. 다음 가정 검증에 사용 : 한달간 여행을 가는 사람 수는 지역에 따라 차이가 있다.
교차 분석 crosstab analysis
- 교차표를 이용하여 변수간 독립성과 관련성 분석
- 카이 제곱 검정
=> 성별과 전공 선택 문항 간의 관계
분산 분석 Analysis of Variance
- 두 이상 집단을 분석하는 경우, 분산의 비로 만든 F 분포로 가설검정 하는 방법
- 각 집단의 모분산/모평균 차이가 유의한지 검정.
평균 분석 T-Test
- 표본 평균/표본평균의 차가 유의미한지 등을 검증 하는 방법
ex. 어느 생물의 평균 체온은 27.3도이다.
판별 분석 discriminants analysis
- 판별식을 이용하여 종속 변수를 판별하는 분석 방법
회귀분석 regression analsysis
- 독립 변수와 종속 변수 사이 영향력을 파악하여, 새 데이터가 주어질때 종속변수를 예상하는 분석
상관관계 분석 correlation anlaysis
- 변수들 사이에 상관성을 분석하는 기법
- 상관 계수로 선형적 상관관계가 존재하는지 파악.
요인 분석 factor analysis
- 서로 연관성이 있는 변수들을 묶어 요인이라는 새로운 변수로 만들어 축소시키는 분석기법
주성분 분석 primary component analysis
- 요인 분석과 마찬가지로 변수의 수를 효과적으로 줄이는 방법
- 요인 분석은 연관성 있는 변수들을 묶어 요인으로 만들었으나 주성분 분석은 다름
- 주성분 분석은 변수 값들의 분산을 직교성을 이용하여 최대한 보존하도록 하여 차원을 축소시킴.
군집 분석 cluster analysis
- 어떤 대상들을 군집들로 분할하여 다루는 방법
시계열 분석 time series analysis
- 시간 흐름에 따라 데이터가 어떤 변화 추이를 보이는지 다루는 분석방법
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 12. 상관 분석과 거리, 다중공선성 (0) | 2020.11.25 |
---|---|
빅데이터 - 11. 표본 추출 (0) | 2020.11.25 |
빅데이터 - 9. 신뢰구간과 평균 검정 (0) | 2020.11.25 |
빅데이터 - 8. 통계학과 기초통계량 (0) | 2020.11.25 |
데이터마이닝 - 4. 앙상블 모델 (0) | 2020.11.25 |