728x90

1. 비모수적 밀도 추정 예시

모수적 밀도 추정

- 그동안 모수적인 방법으로 샘플데이터가 가우시안 분포를 따른다고 가정 

  -> 확률 밀도함수 모델링 -> 로그 우도 최대화하는 파라미터 찾음

 * 대부분의 데이터 분포는 유니모달이 아니라 멀티 모달

- 멀티 모달을 다루는 GMM을 살펴봄. 

 => 모수적인 밀도 추정 방법은 어느 확률 밀도 함수를 가정하고 샘플 데이터로부터 적절한 파라미터를 추정하는 방법

- 아래의 그림은 샘플 데이터들이 주어질때 이를 가장 잘 나타내는 확률 밀도 함수 추정 예시들을 보여줌

https://en.wikipedia.org/wiki/Density_estimation

 

비모수적 밀도 추정

- 파라미터 추정없이 표본 데이터로부터 밀도 함수를 추정하는 방법.

- 종류 : 히스토그램을 만드는 방법, 커널 밀도 추정 등

 

 

 

 

2. 히스토그램 방법

히스토그램을 이용한 밀도 표현

- 히스토그램을 이용하면 데이터 밀도를 간단하게 표현 가능

- 데이터를 연속된 간격으로 나누고 각 관측 되는 표본 빈도를 카운트 -> 막대 높이로 밀도 표현

- 히스토그램의 확률 함수 

- 아래의 그림은 샘플 데이터가 주어질때 히스토그램으로 밀도를 추정한 예시

http://doingdatascience.com/?tag=kernel

 

 

 

 

3. 커널 밀도 추정

미지의 확률밀도도 함수 추정

- 특징 벡터 x가 표본 공간 영역 R에 존재할때 P(x)를 정의

 -> 특징 벡터 x가 p(x)로부터 발생을 가정 => 표본 공간 R에 속할 확률 P(x)는 아래의 적분으로 정의

- N개의 벡터 집합이 p(x)로 생성된 경우, N개중 k개가 R영역에 속할 확률 P(k)는 (이항분포로)다음과 같이 정의

- 이항 pmf의 성질로 평균과 분산은 다음과 같이 구할수 있음.

- 여기서 n이 무한대일때 P(x)는 다음과 같이 추정됨

 

 

 

 

 

 

300x250

+ Recent posts