728x90

19세기 과학자들의 통계적 추론에 대한 생각

- 뉴턴의 방정식 처럼 수학 방정식으로 설명가능하다고 생각

 * 라플라스의 경우 모든것을 알면 과거, 현재, 미래를 설명 및 예측가능하다고 봄.

=> 관측할 때마다 방정식대로 결과가 나오지 않음. -> 관측 오차라 생각.

- 관측 성능이 좋아져도 오차가 제거되지 않음.

 

현대 물리학 관점

- 방정식이나 기계같지 않고 불확실함.

 

불확실한 세상 파악방법

- 세상이 확률 분포를 따른다 가정하고, 측정 -> 측정 결과 = 데이터

 

 

 

 

 

 

 

 

 

 

 

 

통계적 추론 statistics inference

- 불확실한 세상을 데이터 기반 추론

- 활용 범위 : 여론 조사, 이미지 인식, 문자 인식, 상품 추천 ㅡㅇ

 

 

통계적 추론의 기본 가정

- 세상은 불확실함. 불확실성을 가능성, 확률로 표현

- 세상을 완전히 알수 없음

 

 

통계적 추론 원리

- 가장 가능성 높은 결론을 구하자

- 가능성이 낮은 일은 믿지 말자

 

 

통계학 정의

- 켄들, 스튜어트 : 자연현상의 성질 측정 데이터를 다룸

- 밀러 : 데이터가 갖는 정보를 이해하는 방법

- 키핑 : 예측 불가능한 변동하는 변수를 다루는 학문

- 체르노프 : 불확실한 상호아서 의사 결정

 

통계학 정의 정리

1. 관심 대상에 대한 데이터 수집

2. 데이터 요약 정리

3. 불확실한 사실에 대한 결론을 이끌어내는 방법

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

통계 관련 용어 정리

- 모집단 : 관심 대상 전체 집단

- 표본 : 관심 대상 일부

- 확률 : 사건 발생 가능성

- 확률 분포 : 모집단, 표본을 나타내며 몇개의 모수 parameter로 나타냄.

- 확률 변수 : 관심 변수. 표본 공간의 사건을 숫자로 바꿔주는 함수.

- 통계량 statistic : 표본에 대한 함수 ex. 표본평균, 표본분산

- 표본 분포 : 표본이 확률 변수이므로, 표본에 대한 통계량도 확률 변수. 통계량에 대한 분포

- 통게적 추론 : 통계량으로 모집단의 모수 추정 혹은 검증하기 위한 이론과 방법

 

 

통계적 추론과 현실

- 통계적 추론방법은 사고 실험을통해 정립

- 실제 데이터 분석은 이론과는 맞지 않은 문제

- 모집단은 알수 없고, 관측값과 사전 정보만을 알음. 이걸로 모집단에 대해 의사결정 수행

 

 

추론이란?

- 알고 있는 것으로 결론을 도출하는 방법

- 연역적 추론 : 이미 있는 결론으로 새 결론 유도

- 귀납적 추론 : 다수 관측으로 결론 유도

- 통계적 추론 : 표본을 이용하여 모집단에 대한 결론을 구하는 귀납적 추론 방법

=> 표본의 정보(통계량)으로 모집단에 대한 모수 추정. 불완정성을 확률로 표현

 

 

 

통계적 추론의 단계

1. 추정 :  표본으로 모집단에 대한 결론 도출

2. 검정 : 모집단 관련 주장에 대한 타당성 점검 => 표본의 정보가 우연인지, 모집단에 존재하는것인지 검토

 

 

통계적 추론에 필요한 이론

- 확률 이론 : 모집단/표본 통계량은 어떤 분포를 따르는가. 모집단 가정하에 표본이 어떻게 분포하는가.

- 추론 이론 : 표본으로 모집단을 어떻게 추정해야 타당한지에 대한 이론.

 

 

 

 

통계적 추론 과정

- 모집단은 모수 theta를 따르는 확률 분포를 따름.

- 확률 분포는 확률 변수의 점확률(pmf, pdf f(x|theta))이 됨.

     * X ~ N(mu, sigma2)로 가정

- bar{x}는 모평균 mu를 추정하기 위한 통계량.

    -> 표본수가 큰경우. 중심극한정리를 따라 근사적으로 정규분포 따름

    -> 표본수가 작을시. 표준화된 bar{x}는 t분포 따름.

- 추정에 필요한 통계량 -> 추론의 원리 이해 필요

  ex. 가능도 원리, 충분성 원리

  * 가능도 원리 liklihood principle : 표본의 joint pdf가 가능도 함수로 표본의 모수를 가지는 원리

  * 충분성 원리 sufficiency principle : 표본을 요약한 통계량이 모수 정보를 안 잃으면 충분성을 가짐.

  => 추정 통계량은 충분 통계량 기반으로 설계.

- 추정량의 유용성 : 평균제곱오차를 최소화 하는 통계량이 유용하다고 봄.  것으로 모집단 모수 추정

    * 평균 제곱 오차 : 손실함수(모수 - 추정량)의 기대값

- 검정 : 확률 표본으로 새로운 가설(대립가설)이 타당한지 보는 방법.

   -> 귀무가설 통계량 도출. 통계량이 가정에 대해 극단적인 값을 가질 시 가정은 기각

  => p value(한계 유의 기준, 유의확률)이 alpha(유의기준)보다 작은 경우 귀무가설 기각. 대립가설 채택

- 최적 검정 : 1종 오류 기준 하에 2종 오류를 최소화

  * 제 1종 오류 : 귀무 가설이 참이나 기각되는오류

  * 제 2종 오류 : 대립 가서이 참이나 기각되는 오류

 

 

 

 

 

 

 

 

 

통계적 추론 관점에 따른 분류

- 빈도론자 frequentist와 베이지안 baysian에 의한 추론으로 분류

- 빈도론자 : 모수를 표본에 대한 통계량의 표본분포 기반으로 추정, 검정

- 베이지안. 베이즈 주이자 : 주어진 데이터와 모수의 사전 확률 기반으로 사후 확률 계산

 

 

 

빈도론자 vs 베이지안

- 베이지안 : 사전 분포에 의존하여 결과가 일정치 않고 계산시간, 비용이 큼

- 빈도론자 : 추정 방법, 통계량에 따라 결과가 일정치 않음 + 주어진 정보 활용 x

 

 

현대 통계적 추론

- 어떻게 주어진 데이터로 공정하게 추측할까

- 통계학자가 할일 : 불확실성을 구조화하고 계산하는 것.

- 빈도적, 베이지안 방법을 종합하여 활용해야함.

 

 

 

 

 

 

 

 

 

통계적 추론 역사

- 20세기 전 : 가우스와 라플라스 식으로 데이터 요약

- 20세기 초 : 적은 수의 데이터를 확률 모형으로 만들어 분석, 추론 시작

 *** 칼 피어슨, 이곤 피어슨, 피셔, 고셋, 네이만 ***

- 1901 : 칼피어슨의 적합성 검정 논문 chi-square 검정

    * 칼 피어슨

    - 표본 자체가 확률 분포를 가진다고 봄 -> 모수 측정 불가. 측정값 산포로 유추.

    - 관측 현상은 임의적인것, 확률 분포가 존재

    - 평균, 분산, 왜도, 첨도로 확률 분포 파악 가능.

    - 카이 제곱 검정 : 관측 값을 범주들로 분류, 해당 범주 관측값 수와 이론 분포에 나오는 기대 관측 수 차이 이용.

                        => 유의성 검정에서 활용

- 1908 : 고셋의 평균에 대한 오차(t 분포: 적은 데이터 기반 검정, 추정에서 사용하는 분포)

   => 표본이 작은 경우 표본 평균이 어떤 분포를 따르는가 연구    -> 스튜던트 t의 분포.

- 이후 칼 피어슨의 업적

  1. 가능도 함수와 최대 가능도 추정법 제시.

  2. 유의성 검정 제안.

  3. 랜덤화와 분산분석으로 실험 계획 연구 -> F분포와 F검정 고안

- 네이만과 이곤 피어슨 : 유의성 검정 방법 제안

     1. 귀무 가설, 대립가설 구분

     2. 검정 행위 채택, 기각 구분

     3. 최적 검정이론 연구

- 1930년대 네이만 : 신뢰구간(모수 점추정에 대해 변동성이 필요하다고 봄) 제시

- 1930년대 호텔링 : 다변량 분석

- 1977년 튜키 : 탐색적 데이터 분석

 

300x250

+ Recent posts