728x90

통계학

- 주어진 데이터를 추론, 검정(통계폐키지 -> R, SAS 등)해서 의사 결정에 사용하는것

 

 

통계학의 원리를 수학과 시뮬레이션으로 일반화

- 통계적 추론에 대한 기본적인 이론과 구조 이해

- 확률 분포 이론에 대해서

- 추론 이론 : 빈도론자, 베이즈주의자(베이지안)

 

 

 

 

통계적 추론을 알려면?

- 수학을 이용한 연역적 방법

- 컴퓨터 시뮬레이션

- 통계학의 역사와 철학 :  어떤 원리로 발견되고 사용되었는지..

 

어떻게 통계적인 사고체계를 만들어갈것인가?를 중심으로 ...

 

 

 

 

 

통계적 추론을 하는 이유

- 세상은 불확실하다고 생각. 세상 일부를 관측해서 세상을 추론

- 통계적 추론의 예시 : 100만개의 꽃 씨가 있다. 어느 색 꽃의 씨인지 알수없으나 보라색 꽃의 씨 비율은?

- 불확실한 세상 : 확률로 나타냄

- 세상 일부 측정(표본, 실험, 관측 등) : 불확실한 세상 추론

 

 

이안 해킹

"통계학자는 생각하는 방법, 자기 견해를 내세우는 방법을 변화시켜서 세상을 바꾸었다."

 

 

 

통계학의 정의

- 데이터 측면 적 정의

 -> kendal, stuart : 자연 현상 성질을 측정한 데이터를 다루는 학문

- 불확실성 측면 정의

 -> Cox : 변동성, 불확실성 하에서 의사결정과 관련된 학문

 -> savage : 불확실성에 대한 학문

=> 불확실성, 불안전성, 변동성을 포함한 데이터로부터 지식을 일반화하고 효율적으로 사용할 수 있는 학문

- 통개학 개론에서의 정의 : 관심 대상에 대한 데이터를 요약 정리하여,

                                  불확실한 사실에 대한 결론이나 규칙성을 유도하는 방법

 

 

용어

- 통계학 출발점 : 관심 대상 전체가 아닌 일부만을 조사하여 전체를 파악

- 모집단 population : 알고자 하는 전체 집단(관심 대상)

- 표본 sample : 모집단 일부

- 모집단의 불확실성 -> 확률과 확률 분포로 나타냄

- 확률 : 0 ~ 1 값으로 사건 발생 가능성

  -> 빈도론적 확률 : 그 사건 횟수/ 전체 사건 횟수 => 빈도론자

  -> 인식론적 확률 (주관주의 확률) : 개인적 믿음 확률  => 베이지주의자

- 확률 변수 : 사건을 숫자로 바꿔주는 함수.

      ex. 동전 3개를 던질때, 앞면의 수(확률 변수 : 0, 1, 2, 3)

          주사위를 던질떄 나오는 수( 확률 변수 : 1, 2, 3, 4, 5, 6)

- 확률 변수 probability variable의 불확실성은 확률 분포로 표현

- 확률 분포 probability distribution : 몇개의 모수 parameter를 갖는 수학적 함수로 나타냄

   ex. N(mu, sigma^2), U(b, a)

 

통계량과 표본분포

- 통계량 statistic : 표본의 함수(표본 평균, 표본 분산)

- 표본 분포 sampling distribution : 통계량의 분포( 표본 평균의 평균과 분산, 표본 분산의 평균[=모 분산]과 분산)

 

 

 

추론 inference

- 알고있는 증거로부터 일정한 결론을 도출하는 방법

- 귀납적 추론 : 다수의 관측 증거로 결론을 도출하는것

- 연역적 추론 : 이미 밝혀진 명제로부터 결과를 도출하는것

 

 

통계적 추론 statistic inference

- 모집단으로부터 추출한 표본에서 모집단의 확률 분포(모수) 추측

- 이론적 부분 : 연역적 추론 

- 데이터 분석 : 귀납적 추론 ex. 여론 조사

 

 

 

통계 이론

- 내부를 알고있는 상자에서 공을 임의로 꺼냈을때 주황색 공 x개 나올 확률

 => 주사위를 던졋을때 1이 나올 확률

 

데이터 분석

- 내부를 모르는 상자에 공을 n개 꺼냇을때 x개가 주황색이라면, 상자에서 주황색공 비율

 => 여론조사 : 일부 사람들의 여론을 조사하여 전체 여론을 파악함

 

 

 

 

추론 inference 의 구분

- 추정 estimation

- 검정 test

 

통계적 추론 분야

- 확률 이론 : 확률 분포, 표본 분포

- 추론 이론 : 추정법, 검정법

 

 

빈도론자의 추론

- 2명의 인턴 중 1명 채용 예정. 

- 6개월 동안 20개 과제를 주고 성과의 평균을 비교

 

베이즈주의자 추론

- 과제를 순차적으로 주고, 과제별로 중요성을 다르게 봄.

- 중요성 높은 과제들을 많이 한 사람을 채용

 

 

Lindley의 통계적 추론 정의

- 통계학은 불확실성을 다루는 학문

- 불확실성은 확률로 측정

- 데이터 불확실성은 모수 조건에 따라 측정됨

- 모수 불확실성을 확률로 측정 -> 베이즈 추론, 이게 안하면 빈도론적 추론

- 추론은 확률 분포에 의해 수행

 

 

 

통계적 추론

- 모집단의 확률 변수 X ~ f(x|theta) (ex. N(mu, sigma^2)

- 표본 추출 : X1, X2, .. Xn ~ f(x|theta)

 * 서로 독립이고 동일한 분포를 갖는 확률 표본

- 모수에 적합한 통계량(추정량) 이용 : 대표적으로 표본 평균 bar{X}

- 통계량의 분포(표본분포)로 추정과 검정 수행 : 추정량 bar{X}의 분포 -> 정규분포, t분포

 

 

가능도의 원리 likelihood principle

- 표본의 가능도 함수에 표본으로부터 나타 수 있는 모수의 모든 정보를 가지고 있는 원리

 -> 모수의 정보를 가지고 있다고 생각.

     L(theta | x) = PI f(x_i | theta)

 

충분의 원리 sufficiency principle

- 표본을 요약한 통계략이 모수의 정보를 읽지 않는다는 원리

 

 

베이즈주의자와 빈도론자

- 빈도론자 : 모수는 고정

- 베이지안 : 모수는 확률적으로 분포

 

 

 

 

통계량 선택

- 평균제곱오차 MSE : 모수와 추정량 사이 손실함수의 기댓값

- 모집단이 정규분포일때, 표본 평균은 모평균을 추정하는데 있어 불편성과 효율성을 갖춘 좋은 통계량

 

 

 

 

통계 검정

- 귀무 가설 H0(기존의 사실)과 대립 가설H1(밝히고자하는 가설)

- 제 1종 오류(귀무 가설이 참인데, 이를 기각)와 제 2종 오류(대립 가설이 맞는데 이를 기각하지 못하는)

=> 최적검정 : 제 1종의 오류 기준 하에서 제 2종의 오류를 최소화 하는 검정

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 3.이산 확률 분포  (0) 2020.10.24
통계 - 2. 확률 이론  (0) 2020.10.23
데이터분석 - 13. 확률기초 4  (0) 2020.10.22
데이터분석 - 12. 확률기초 3  (0) 2020.10.22
데이터분석 - 11. 확률기초 2  (0) 2020.10.21

+ Recent posts