통계 용어들
- 데이터 분석 과정 data analysis process : 데이터를 처리하여 정보 도출하는 과정 -> 요약, 추정 단계 수행
=> 아래의 그림은 데이터 분석 과정
- 요약 : 정보 손실을 줄이면서 정리
- 추론(추정) inference : 요약된 데이터로 특정 집단에 대한 사실을 추론해내는것
- 모집단 population : 데이터 분석 대상 전체
- 표본 sample : 수집된 모집단 데이터의 일부분
- 표본 분포 sampling distribution : 샘플들로 부터 얻은 통계적인 분포
데이터 분석의 성질
- 타당성 validity : 의도대로 수집하였는지
- 신뢰성 reliability : 항상 동일한 결과가 나오는지
통계학 매개변수(파라미터)들
- 파라미터 parameter : 모집단 population을 표현하기 위한 모수(고정된 값)
=> 추론 inference를 통해 파라미터를 구할수 있게 된다.
- 평균 mean : 데이터 총합을 데이터 갯수로 나눈 값 -> 데이터 분포의 무게 중심
- 분산 variance : 데이터들이 퍼진 정도. (데이터 - 평균) 제곱 합 / 데이터 갯수
- 표준 편차 standard deviation : 분산은 제곱 합을 통해 구하므로 데이터 단위가 달라짐.
기존의 데이터 단위와 맞추기 위해 제곱근 수행
- 바이어스(편향) bias : 데이터가 특정 위치에 집중(편향)된 정도
- 공분산 covariance : 샘플 데이터가 단변수가 아니라 다변수 인경우 각 변화량에 대한 변화하는 정도.]
- 상관 계수 correlation : 서로 다른 두 변수 X, Y 간에 상관관계의 정도.
=> 하나의 변수가 변함에 따라 다른 변수에 얼마나 영향을 미치는가
- 왜도 skewness : 분포가 치우쳐진(asymmetry) 정도.
- 첨도 kurtosis : 통계 분포가 뽀족한 정도
'수학 > 공업수학, 확률' 카테고리의 다른 글
통계 - 3. 확률론 (0) | 2020.08.03 |
---|---|
통계 - 2. 회귀분석 (0) | 2020.08.03 |
베이즈 통계학 - 2. 기대값, 분산, 표준편차와 다양한 확률분포 (0) | 2020.07.15 |
베이즈 통계학 - 1. 베이즈 통계 (0) | 2020.07.15 |
공업수학 - 35. 기울기 벡터, 포텐셜, 법선벡터 (0) | 2020.07.15 |