728x90

통계 용어들

- 데이터 분석 과정 data analysis process : 데이터를 처리하여 정보 도출하는 과정 -> 요약, 추정 단계 수행

  => 아래의 그림은 데이터 분석 과정

https://www.tutorialspoint.com/excel_data_analysis/data_analysis_process.htm

- 요약 : 정보 손실을 줄이면서 정리

- 추론(추정) inference : 요약된 데이터로 특정 집단에 대한 사실을 추론해내는것

- 모집단 population : 데이터 분석 대상 전체

- 표본 sample : 수집된 모집단 데이터의 일부분

- 표본 분포 sampling distribution : 샘플들로 부터 얻은 통계적인 분포

 

데이터 분석의 성질

- 타당성 validity : 의도대로 수집하였는지

- 신뢰성 reliability : 항상 동일한 결과가 나오는지

 

 

 

 

 

 

 

 

통계학 매개변수(파라미터)들

- 파라미터 parameter : 모집단 population을 표현하기 위한 모수(고정된 값)

  => 추론 inference를 통해 파라미터를 구할수 있게 된다.

- 평균 mean : 데이터 총합을 데이터 갯수로 나눈 값 -> 데이터 분포의 무게 중심

- 분산 variance : 데이터들이 퍼진 정도. (데이터 - 평균) 제곱 합 / 데이터 갯수

- 표준 편차 standard deviation : 분산은 제곱 합을 통해 구하므로 데이터 단위가 달라짐.

                                      기존의 데이터 단위와 맞추기 위해 제곱근 수행

http://blog.naver.com/PostView.nhn?blogId=freewheel3&logNo=220847292476

- 바이어스(편향) bias : 데이터가 특정 위치에 집중(편향)된 정도

https://medium.com/@mp32445/understanding-bias-variance-tradeoff-ca59a22e2a83

- 공분산 covariance : 샘플 데이터가 단변수가 아니라 다변수 인경우 각 변화량에 대한 변화하는 정도.]

https://www.cs.princeton.edu/courses/archive/fall08/cos436/Duda/PR_Mahal/cov.htm

- 상관 계수 correlation : 서로 다른 두 변수 X, Y 간에 상관관계의 정도.

                            => 하나의 변수가 변함에 따라 다른 변수에 얼마나 영향을 미치는가

 

https://en.wikipedia.org/wiki/Correlation_and_dependence

- 왜도 skewness : 분포가 치우쳐진(asymmetry) 정도. 

https://m.blog.naver.com/PostView.nhn?blogId=moses3650&logNo=220880815585&proxyReferer=https:%2F%2Fwww.google.com%2F

- 첨도 kurtosis : 통계 분포가 뽀족한 정도

https://m.blog.naver.com/PostView.nhn?blogId=moses3650&logNo=220880815585&proxyReferer=https:%2F%2Fwww.google.com%2F

 

 

300x250

+ Recent posts