728x90

통계학의 분류

1. 데이터 활용 방안에 따른 분류

- 기술 통계학 descriptive statistics :  데이터를 통계적으로 어떻게 표현할 것인가에 대한 학문

- 추론 통계학 inference statistics : 데이터로 부터 의미있는 사실을 추론해 나가는 방법에 대한 학문

 

2. 모수의 여부에 따른 분류

- 모수 통계학 parameter statistics : 모집단의 분포 성질을 따르는 표본들로 부터 모수를 추정해나가는 학문

- 비모수 통계학 nonparameteric statistics : 모집단의 분포 성질을 모르는 표본들로부터 모집단의 특성을 추정하는 학문

 

 

통계학 기본 용어

- 모집단 population : 알고자 하는 전체 집단으로 관심 대상.

- 표본집단 sample : 모집단을 추론하기 위해 구한 부분집합

- 모수 parameter : 모집단의 성질을 나타낸 수치

- 통계량 statistics : 표본 집단에 대한 함수로 대표적으로 표본 평균과 표본 분산 등이 있음.

 

 

 

변수의 종류들

1. 기능에 따른 분류

- 독립 변수 independent variable : 설명 변수라고도하며, 종속변수에 영향을 주는 변수

- 종속 변수 dependent variable : 반응 변수라고도 하며, 우리가 알고자하는 변수

2. 성질에 따른 분류

- 연속 변수 continusous variable : 연속된 값을 갖는 변수

- 이산 변수 discrete variable : 이산 값을 가지는 변수

- 가변수 dummy variable : 카테고리형 변수를 독립 변수로 사용시 원핫 인코딩 방식으로 변환한 변수

 

 

 

 

이상치 판단 방법

- 이상치 : 데이터 분포로부터 일정 범위를 벗어난 데이터

- 상자 그림으로 쉽게 확인 가능

- 이상치 범위는 하한 Q1 - 1.5 x IQR, 상한 Q3 + 1.5 x IQR, IQR = Q3 - Q1

 

 

기초 통계량 

- 평균 mean : 데이터 총합/데이터 갯수

- 중위수 median : 데이터의 중앙에 위치한 값

- 4분위수 Quartile : 데이터의 25%, 50%, 75%, 100%에 위치한 값

- 4분위수 범위 IQR InterQuartile Range : Q3 - Q1

- 최빈수 mode : 가장 많은 빈도를 가진 값

- 분산 variable : 데이터의 퍼진 정도

- 표준편차 standard deviation : 분산에 제곱근을 씌운값

- 변동계수 CV coefficient of variance : 표본 평균에 대해 흩어진 정도. CV = 100 * S/bar_x

https://m.blog.naver.com/moses3650/220880815585

 

300x250

+ Recent posts