통계학
- 주어진 데이터로부터 의미있는 정보를 추론하고 의사결정에 활용하기 위한 학문
- 추론 이론 : 빈도론자와 베이지안으로 구분
- 데이터의 불확실/불안정/변동성을 고려하여 지식을 일반화함.
용어
- 시행 trial : 실험을 수행하는 행위
- 원소 element : 실험의 시행 결과
- 모집단 population : 알고자 하는 전체 집단으로 관심 대상
- 표본 공간 sample space : 모든 원소들의 집합
- 사건 event : 표본 공간의 부분집합.
- 확률 변수 Random Variable : 표본 공간에 발생한 원소들(사건)을 하나의 정수나 실수로 맵핑한 변수.
- 확률 : 확률 변수가 주어질때, 발생할 가능성
- 확률 분포 probability distribution : 확률 변수의 특성을 함수로 나타낸 분포.
- 이산 확률 분포 descrete pd : 확률 변수가 이산적인 확률 분포
- 확률 질량 함수 pmf : 이산 확률 변수의 확률을 나타내는 함수
- 통계량 : 표본을 이용하여 구한 함수
통계적 추론의 분야
- 확률 이론 : 확률 분포, 표본 분포
- 추론 이론 : 추정법 estimation, 검정법 test
베르누이 분포 bernoulli distribution
- 베르누이 시행을 따르는 이산 확률 분포
- 베르누이 시행 : 상호 배반인 사건인 시행
이항 분포 binomial distribution
- 베르누이 시행을 독립적으로 여러번 했을때 성공 횟수를 확률 변수 X로 하는 이산확률분포
포아송 분포 poison distribution
- 단위 시간 당 일어나기 힘든 사건이 발생한 횟수를 확률 변수 X로 할때의 확률 분포
- 이항 분포가 n이 매우 크고, p가 매우 작은 경우 포아송 분포를 따르게 된다. (lambda = np로 정의)
- 한 시간동안 평균 2명이 대기줄에서 나가는데, 한시간 동안 한명도 나가지 못할 확률
기하 분포 geometric distribution
- 첫번째 성공이 일어날떄까지 시행 횟수를 확률 변수 X라 할떄의 확률분포
정규분포 normal distribution
- 평균 mu를 중심으로 분산 sigma2를 갖는 종모양 형태의 확률 분포
- 정규분포를 따르는 모집단에서 추출한 표본들의 분포로 t분포, 카이제곱분포, F분포 등 존재
t 분포
- 모집단이 정규분포를 따르나 모표준편차를 모를때, 표본 분산으로 정규화된 확률 표본 X_i는 t분포를 따름.
* 표본의 크기가 30개 보다 작은경우 사용.
- t검정(평균 검정)에서 사용.
- 모표준편차로 표준화 한 경우
- 표본분산 S2로 표준화 한경우의 확률 분포 -> 자유도 (n-1)인 t분포
지수 분포 exponential distribution
- 사건이 처음 발생할때까지 소요되는 대기시간을 확률변수 X라 할떄의 확률분포
감마분포 gamma distribution
- r번째 사건이 발생할떄까지 대기시간 X를 확률 변수로할때의 확률 분포
카이제곱 분포
- 모분산 추정, 적합도 검정, 교차표 검정에 사용되는 확률 분포
- 왼쪽으로 기울어진 형태이며, 자유도가 커질수록 정규분포와 유사해짐.
- 감마 분포의 특수한 형태 : r= n/2, lambda = 1/2인 경우. -> X ~ chi2(n)을 따름.
- 정규 분포를 따르는 확률 변수를 표준화한 것을 제곱하면 chi2(1)을 따른다.
F 분포
- 두 모집단의 분산의 비를 확률 변수로 하는 확률 분포
- F 검정과 분산 분석에서 사용됨.
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 15. 가설 검정 (0) | 2020.11.26 |
---|---|
빅데이터 - 14. 표본 분포와 추정 (0) | 2020.11.26 |
빅데이터 - 12. 상관 분석과 거리, 다중공선성 (0) | 2020.11.25 |
빅데이터 - 11. 표본 추출 (0) | 2020.11.25 |
빅데이터 - 10. 데이터 분석 방법들 (0) | 2020.11.25 |