통계학의 분류
1. 데이터 활용 방안에 따른 분류
- 기술 통계학 descriptive statistics : 데이터를 통계적으로 어떻게 표현할 것인가에 대한 학문
- 추론 통계학 inference statistics : 데이터로 부터 의미있는 사실을 추론해 나가는 방법에 대한 학문
2. 모수의 여부에 따른 분류
- 모수 통계학 parameter statistics : 모집단의 분포 성질을 따르는 표본들로 부터 모수를 추정해나가는 학문
- 비모수 통계학 nonparameteric statistics : 모집단의 분포 성질을 모르는 표본들로부터 모집단의 특성을 추정하는 학문
통계학 기본 용어
- 모집단 population : 알고자 하는 전체 집단으로 관심 대상.
- 표본집단 sample : 모집단을 추론하기 위해 구한 부분집합
- 모수 parameter : 모집단의 성질을 나타낸 수치
- 통계량 statistics : 표본 집단에 대한 함수로 대표적으로 표본 평균과 표본 분산 등이 있음.
변수의 종류들
1. 기능에 따른 분류
- 독립 변수 independent variable : 설명 변수라고도하며, 종속변수에 영향을 주는 변수
- 종속 변수 dependent variable : 반응 변수라고도 하며, 우리가 알고자하는 변수
2. 성질에 따른 분류
- 연속 변수 continusous variable : 연속된 값을 갖는 변수
- 이산 변수 discrete variable : 이산 값을 가지는 변수
- 가변수 dummy variable : 카테고리형 변수를 독립 변수로 사용시 원핫 인코딩 방식으로 변환한 변수
이상치 판단 방법
- 이상치 : 데이터 분포로부터 일정 범위를 벗어난 데이터
- 상자 그림으로 쉽게 확인 가능
- 이상치 범위는 하한 Q1 - 1.5 x IQR, 상한 Q3 + 1.5 x IQR, IQR = Q3 - Q1
기초 통계량
- 평균 mean : 데이터 총합/데이터 갯수
- 중위수 median : 데이터의 중앙에 위치한 값
- 4분위수 Quartile : 데이터의 25%, 50%, 75%, 100%에 위치한 값
- 4분위수 범위 IQR InterQuartile Range : Q3 - Q1
- 최빈수 mode : 가장 많은 빈도를 가진 값
- 분산 variable : 데이터의 퍼진 정도
- 표준편차 standard deviation : 분산에 제곱근을 씌운값
- 변동계수 CV coefficient of variance : 표본 평균에 대해 흩어진 정도. CV = 100 * S/bar_x
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 10. 데이터 분석 방법들 (0) | 2020.11.25 |
---|---|
빅데이터 - 9. 신뢰구간과 평균 검정 (0) | 2020.11.25 |
데이터마이닝 - 4. 앙상블 모델 (0) | 2020.11.25 |
데이터마이닝 - 3. 트리 모델 (0) | 2020.11.25 |
빅데이터 - 7. 전처리 (0) | 2020.11.23 |