통계 - 1. 통계 용어와 파라미터들

2020. 8. 3. 02:05

728x90

통계 용어들

- 데이터 분석 과정 data analysis process : 데이터를 처리하여 정보 도출하는 과정 -> 요약, 추정 단계 수행

=> 아래의 그림은 데이터 분석 과정

- 요약 : 정보 손실을 줄이면서 정리

- 추론(추정) inference : 요약된 데이터로 특정 집단에 대한 사실을 추론해내는것

- 모집단 population : 데이터 분석 대상 전체

- 표본 sample : 수집된 모집단 데이터의 일부분

- 표본 분포 sampling distribution : 샘플들로 부터 얻은 통계적인 분포

데이터 분석의 성질

- 타당성 validity : 의도대로 수집하였는지

- 신뢰성 reliability : 항상 동일한 결과가 나오는지

통계학 매개변수(파라미터)들

- 파라미터 parameter : 모집단 population을 표현하기 위한 모수(고정된 값)

=> 추론 inference를 통해 파라미터를 구할수 있게 된다.

- 평균 mean : 데이터 총합을 데이터 갯수로 나눈 값 -> 데이터 분포의 무게 중심

- 분산 variance : 데이터들이 퍼진 정도. (데이터 - 평균) 제곱 합 / 데이터 갯수

- 표준 편차 standard deviation : 분산은 제곱 합을 통해 구하므로 데이터 단위가 달라짐.

기존의 데이터 단위와 맞추기 위해 제곱근 수행

- 바이어스(편향) bias : 데이터가 특정 위치에 집중(편향)된 정도

- 공분산 covariance : 샘플 데이터가 단변수가 아니라 다변수 인경우 각 변화량에 대한 변화하는 정도.]

- 상관 계수 correlation : 서로 다른 두 변수 X, Y 간에 상관관계의 정도.

=> 하나의 변수가 변함에 따라 다른 변수에 얼마나 영향을 미치는가

- 왜도 skewness : 분포가 치우쳐진(asymmetry) 정도.

- 첨도 kurtosis : 통계 분포가 뽀족한 정도

300x250

집밖은 위험해