728x90

추정, 추론 estimation, inference

- 표본 집합 데이터들로 정확하지는 않으나 값을 구하나는 행위

 

패턴인식에서의 추정

- 수집된 표본으로부터 확률 밀도 함수를 추정은 패턴을 인식하기 이해서 매우 중요

- 유한개의 표본들로 클래스별 확률 밀도 함수 추정해야함

 

 

베이즈 정리

- 사후확률 계산하려면 우항의 우도, 사전확률을 알아야함.

- 사전확률 : 이미 알고있는것으로 정의될수 있음

- 우도 : 해당 클래스의 확률 밀도 함수로 표본 데이터를 이용하여 추정 필요

 

데이터 밀도 추정 방법

- 모수적 방법 parametric method

     주어진 데이터 집합(샘플 데이터들)이 이루는 확률 밀도 함수가 가우시안 같은

    특정 형태로 이루어진것을 가정하고, 확률밀도 함수의 평균, 공분산 등의 파라미터 추정한는 방법. 

      => 샘플 데이터가 특정 분포를 따른다 가정하여, 그 분포의 파라미터 추정 (ex. 최우추정법 MLE)

- 비모수적 방법 non parametric method

   주어진 데이터가 아무 분포를 따르지 않고, 데이터로 직접 밀도 함수를 구하는 방법.

    * ex. 히스토그램, KNN, KDE 커널 밀도 추정

 

 

 

최우추정법 최대 우도 추정, MLE Maximum Likelihood Estimation

- 아래와 같이 M개의 파라미터 집합과 확률 밀도 함수 P(x | Theta)로 관측된 표본 데이터 집합 x가 주어질때 파라미터들을 추정하는 방법

  => 샘플 데이터로 특정 확률 분포의 파라미터 추정

- 어느 프로세스로 발생된 데이터로 이루어진다면, 전체 표본집합은 결합확률 밀도로 다음과같음.

 

- 위 식에서 P(x|Theta)는 파라미터 Theta를 따르는 주어진 데이터 집합의 우도 함수.

- 위 함수는 확률 함수. 가장 큰 확률 갑을 구하는 Theta를 hat{theta}로, 우도 함수의 곱을 합으로 바꾸게 log를 하자

 => 이 식은 로그 우도 함수 log likelihood function.

 => 로그 우도 함수를 최대로 하는 파라미터 hat{theta}가 미지의 파라미터를 가장 잘 추정해냄

 

 

 

 

 

 

 

 

 

로그 우도 최대화 maximization of log likelihood

- 로그 우도를 최대화 하기 위해서 Theta에 대해서 편미분 하자.

- 아래의 그림은 1차원 데이터에 대해 많은 후보 확률 분포가 나타냄.

 

 

- 다음 그림은 결합 밀도 함수로 구한 우도 함수 p(D|Theta) (D는 dataset)

  * 우도를 최대화 하는 파라미터에 hat{theta} 표기가 됨

 

- 다음 그림은 로그 우도 함수. 최우도 hat{theta}의 위치가 우도인 경우와 동일함

 

 

 

 

 

 

 

 

 

 

 

 

MLE 최대 로그 우도 추정법으로 최대 로그 우도 구하기

- 파라미터 벡터를 다음과 같이 가정

- 로그 우도의 그라디언트를 구하면

 * hat{theta}가 로그 우도를 최대화 하는 파라미터

 

 

 

 

 

 

 

 

 

 

 

 

최우 추정하기

1. 표본 집단의 로그 우도 구하기

2. l(theta)를 모든 파라미터로 편미분 한 후, 우항을 0으로 하여 최우 방정식으로 만듬

3. 연립 방정식을 풀어 해를 구한다.

4. 해 중에서 최대값을 추정 파라미터 hat{theta}로 쓴다.

 

 

 

 

 

 

 

 

 

 

가우시안을 따르는 샘플 데이터로부터 파라미터를 최우추정법으로 추정하기

- 표본 데이터가 단변량이라 가정

 

- 우리는 이 샘플 데이터가 가우시안 분포를 따른다 가정하고 가우시안 분포의 파라미터를 추정할 것임

 => 단변수 가우시안 확률 밀도 함수의 로그 우도는 아래와 같음.

 

 

- l(theta)의 그라디언트는 다음과 같음

 

- 그라디언트 우항을 0으로 하여, 최우 방정식을 만들자. 로그 우도를 최대로하는 첫번쨰 파라미터는 표본평균

- 로그 우도를 최대로하는 두번쨰 파라미터는 표본 분산

 

- 결론 : 주어진 샘플 데이터의 평균과 표본 분산이 로그 우도를 최대로 하는 파라미터

 

 

 

 

 

 

 

 

300x250

+ Recent posts