통계학
- 주어진 데이터를 추론, 검정(통계폐키지 -> R, SAS 등)해서 의사 결정에 사용하는것
통계학의 원리를 수학과 시뮬레이션으로 일반화
- 통계적 추론에 대한 기본적인 이론과 구조 이해
- 확률 분포 이론에 대해서
- 추론 이론 : 빈도론자, 베이즈주의자(베이지안)
통계적 추론을 알려면?
- 수학을 이용한 연역적 방법
- 컴퓨터 시뮬레이션
- 통계학의 역사와 철학 : 어떤 원리로 발견되고 사용되었는지..
어떻게 통계적인 사고체계를 만들어갈것인가?를 중심으로 ...
통계적 추론을 하는 이유
- 세상은 불확실하다고 생각. 세상 일부를 관측해서 세상을 추론
- 통계적 추론의 예시 : 100만개의 꽃 씨가 있다. 어느 색 꽃의 씨인지 알수없으나 보라색 꽃의 씨 비율은?
- 불확실한 세상 : 확률로 나타냄
- 세상 일부 측정(표본, 실험, 관측 등) : 불확실한 세상 추론
이안 해킹
"통계학자는 생각하는 방법, 자기 견해를 내세우는 방법을 변화시켜서 세상을 바꾸었다."
통계학의 정의
- 데이터 측면 적 정의
-> kendal, stuart : 자연 현상 성질을 측정한 데이터를 다루는 학문
- 불확실성 측면 정의
-> Cox : 변동성, 불확실성 하에서 의사결정과 관련된 학문
-> savage : 불확실성에 대한 학문
=> 불확실성, 불안전성, 변동성을 포함한 데이터로부터 지식을 일반화하고 효율적으로 사용할 수 있는 학문
- 통개학 개론에서의 정의 : 관심 대상에 대한 데이터를 요약 정리하여,
불확실한 사실에 대한 결론이나 규칙성을 유도하는 방법
용어
- 통계학 출발점 : 관심 대상 전체가 아닌 일부만을 조사하여 전체를 파악
- 모집단 population : 알고자 하는 전체 집단(관심 대상)
- 표본 sample : 모집단 일부
- 모집단의 불확실성 -> 확률과 확률 분포로 나타냄
- 확률 : 0 ~ 1 값으로 사건 발생 가능성
-> 빈도론적 확률 : 그 사건 횟수/ 전체 사건 횟수 => 빈도론자
-> 인식론적 확률 (주관주의 확률) : 개인적 믿음 확률 => 베이지주의자
- 확률 변수 : 사건을 숫자로 바꿔주는 함수.
ex. 동전 3개를 던질때, 앞면의 수(확률 변수 : 0, 1, 2, 3)
주사위를 던질떄 나오는 수( 확률 변수 : 1, 2, 3, 4, 5, 6)
- 확률 변수 probability variable의 불확실성은 확률 분포로 표현
- 확률 분포 probability distribution : 몇개의 모수 parameter를 갖는 수학적 함수로 나타냄
ex. N(mu, sigma^2), U(b, a)
통계량과 표본분포
- 통계량 statistic : 표본의 함수(표본 평균, 표본 분산)
- 표본 분포 sampling distribution : 통계량의 분포( 표본 평균의 평균과 분산, 표본 분산의 평균[=모 분산]과 분산)
추론 inference
- 알고있는 증거로부터 일정한 결론을 도출하는 방법
- 귀납적 추론 : 다수의 관측 증거로 결론을 도출하는것
- 연역적 추론 : 이미 밝혀진 명제로부터 결과를 도출하는것
통계적 추론 statistic inference
- 모집단으로부터 추출한 표본에서 모집단의 확률 분포(모수) 추측
- 이론적 부분 : 연역적 추론
- 데이터 분석 : 귀납적 추론 ex. 여론 조사
통계 이론
- 내부를 알고있는 상자에서 공을 임의로 꺼냈을때 주황색 공 x개 나올 확률
=> 주사위를 던졋을때 1이 나올 확률
데이터 분석
- 내부를 모르는 상자에 공을 n개 꺼냇을때 x개가 주황색이라면, 상자에서 주황색공 비율
=> 여론조사 : 일부 사람들의 여론을 조사하여 전체 여론을 파악함
추론 inference 의 구분
- 추정 estimation
- 검정 test
통계적 추론 분야
- 확률 이론 : 확률 분포, 표본 분포
- 추론 이론 : 추정법, 검정법
빈도론자의 추론
- 2명의 인턴 중 1명 채용 예정.
- 6개월 동안 20개 과제를 주고 성과의 평균을 비교
베이즈주의자 추론
- 과제를 순차적으로 주고, 과제별로 중요성을 다르게 봄.
- 중요성 높은 과제들을 많이 한 사람을 채용
Lindley의 통계적 추론 정의
- 통계학은 불확실성을 다루는 학문
- 불확실성은 확률로 측정
- 데이터 불확실성은 모수 조건에 따라 측정됨
- 모수 불확실성을 확률로 측정 -> 베이즈 추론, 이게 안하면 빈도론적 추론
- 추론은 확률 분포에 의해 수행
통계적 추론
- 모집단의 확률 변수 X ~ f(x|theta) (ex. N(mu, sigma^2)
- 표본 추출 : X1, X2, .. Xn ~ f(x|theta)
* 서로 독립이고 동일한 분포를 갖는 확률 표본
- 모수에 적합한 통계량(추정량) 이용 : 대표적으로 표본 평균 bar{X}
- 통계량의 분포(표본분포)로 추정과 검정 수행 : 추정량 bar{X}의 분포 -> 정규분포, t분포
가능도의 원리 likelihood principle
- 표본의 가능도 함수에 표본으로부터 나타 수 있는 모수의 모든 정보를 가지고 있는 원리
-> 모수의 정보를 가지고 있다고 생각.
L(theta | x) = PI f(x_i | theta)
충분의 원리 sufficiency principle
- 표본을 요약한 통계략이 모수의 정보를 읽지 않는다는 원리
베이즈주의자와 빈도론자
- 빈도론자 : 모수는 고정
- 베이지안 : 모수는 확률적으로 분포
통계량 선택
- 평균제곱오차 MSE : 모수와 추정량 사이 손실함수의 기댓값
- 모집단이 정규분포일때, 표본 평균은 모평균을 추정하는데 있어 불편성과 효율성을 갖춘 좋은 통계량
통계 검정
- 귀무 가설 H0(기존의 사실)과 대립 가설H1(밝히고자하는 가설)
- 제 1종 오류(귀무 가설이 참인데, 이를 기각)와 제 2종 오류(대립 가설이 맞는데 이를 기각하지 못하는)
=> 최적검정 : 제 1종의 오류 기준 하에서 제 2종의 오류를 최소화 하는 검정
'수학 > 통계' 카테고리의 다른 글
통계 - 3.이산 확률 분포 (0) | 2020.10.24 |
---|---|
통계 - 2. 확률 이론 (0) | 2020.10.23 |
데이터분석 - 13. 확률기초 4 (0) | 2020.10.22 |
데이터분석 - 12. 확률기초 3 (0) | 2020.10.22 |
데이터분석 - 11. 확률기초 2 (0) | 2020.10.21 |