가설 hypothesis
- 추정량에 대한 검정을 위한 명제
- 추정량이 올바른지 검정하는 과정을 가설 검정이라고 함.
- 귀무 가설 null hypothesis H0 : 발생할 확률이 희박하다고 생각되는 가설로, 일어날지 검증하고자 하는 가설
- 대립 가설 alternative hypothesis H1 : 귀무 가설에 반대되는 가설.
가설 검정의 오류
- 제 1종 오류(유의 수준) : 귀무 가설이 참이지만, 기각할 확률
- 제 2종 오류 : 귀무 가설이 거짓이지만, 채택할 확률
검정 통계량과 기각역
- 귀무가설의 채택 여부를 결정할때 사용하는 통계량
- 기각역 rejection(critical) area : 가설의 기각 여부를 판단하기 위한 영역. 검정통계량이 기각역에 속하면 귀무가설기각
- 귀무 가설에 따른 검정 통계량과 기각역의 범위(표본이 클떄, 평균 검정 시)
유의확률 p value
- 귀무 가설을 기각할수 있는 최소의 유의 수준으로 한계 유의 수준이라고도 함.
- 유의 확률 p value가 유의 수준 alpha(일반적으로 0.05)보다 작은 경우 귀무가설을 기각
카테고리형 데이터 분석하기(카이 제곱 검정)
- 카테고리마다 도수가 주어질때, 카테고리 간의 유의미한 차이가 존재하는지 검정을 통해 분석
- 적합도 검정, 동질성 검정, 독립성 검정 등 존재
- 카이제곱 통계량을 이용하므로 카이 제곱 검정이라고도 함.
- 적합도 검정 : 개별 카테고리가 유의미한 수치를 가지고 있는지에 대한 가설 검정
- 동질성 검정 : 카테고리 간에 유의미한 차이가 존재하지 않은지(동질적인지)를 다루는 가설에 대한 검정
- 독립성 검정 : 카테고리 사이 독립, 의존 여부에 대한 검정
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 16. 시계열 분석 timeseries analysis (0) | 2020.11.27 |
---|---|
빅데이터 - 14. 표본 분포와 추정 (0) | 2020.11.26 |
빅데이터 - 13. 확률 개요와 확률 분포들 (0) | 2020.11.26 |
빅데이터 - 12. 상관 분석과 거리, 다중공선성 (0) | 2020.11.25 |
빅데이터 - 11. 표본 추출 (0) | 2020.11.25 |