728x90

1. 비모수적 밀도 추정 예시

모수적 밀도 추정

- 그동안 모수적인 방법으로 샘플데이터가 가우시안 분포를 따른다고 가정 

  -> 확률 밀도함수 모델링 -> 로그 우도 최대화하는 파라미터 찾음

 * 대부분의 데이터 분포는 유니모달이 아니라 멀티 모달

- 멀티 모달을 다루는 GMM을 살펴봄. 

 => 모수적인 밀도 추정 방법은 어느 확률 밀도 함수를 가정하고 샘플 데이터로부터 적절한 파라미터를 추정하는 방법

- 아래의 그림은 샘플 데이터들이 주어질때 이를 가장 잘 나타내는 확률 밀도 함수 추정 예시들을 보여줌

https://en.wikipedia.org/wiki/Density_estimation

 

비모수적 밀도 추정

- 파라미터 추정없이 표본 데이터로부터 밀도 함수를 추정하는 방법.

- 종류 : 히스토그램을 만드는 방법, 커널 밀도 추정 등

 

 

 

 

2. 히스토그램 방법

히스토그램을 이용한 밀도 표현

- 히스토그램을 이용하면 데이터 밀도를 간단하게 표현 가능

- 데이터를 연속된 간격으로 나누고 각 관측 되는 표본 빈도를 카운트 -> 막대 높이로 밀도 표현

- 히스토그램의 확률 함수 

- 아래의 그림은 샘플 데이터가 주어질때 히스토그램으로 밀도를 추정한 예시

http://doingdatascience.com/?tag=kernel

 

 

 

 

3. 커널 밀도 추정

미지의 확률밀도도 함수 추정

- 특징 벡터 x가 표본 공간 영역 R에 존재할때 P(x)를 정의

 -> 특징 벡터 x가 p(x)로부터 발생을 가정 => 표본 공간 R에 속할 확률 P(x)는 아래의 적분으로 정의

- N개의 벡터 집합이 p(x)로 생성된 경우, N개중 k개가 R영역에 속할 확률 P(k)는 (이항분포로)다음과 같이 정의

- 이항 pmf의 성질로 평균과 분산은 다음과 같이 구할수 있음.

- 여기서 n이 무한대일때 P(x)는 다음과 같이 추정됨

 

 

 

 

 

 

300x250
728x90

1.가우시안 혼합모델

가우시안 혼합모델의 필요성

- 확뮬 밀도 함수를 추정하기 위해서, 샘플 데이터들이 특정한 분포(대표적으로 가우시안)을 따른다고 가정

 => 우도를 최대화하는 최우 추정법 MLE Maximization Likelihood Estimation 사용

- but. 특정한 분포를 모르는 경우 비모수적 방법인 파젠창이 있음.

 

 

가우시안 혼합 모델 Gaussian Mixture Model

- 표본 데이터 집합의 분포를 하나의 확률 밀도 함수가 아닌 여러개의 가우시안 확률 밀도함수로 데이터 분포 모델링

  => 가우시안 혼합 모델은 준 모수적 방법 semi-parametric

  => 개별 밀도 함수를 전체 확률 밀도 함수 성분 커널로 간주

- 아래의 그림은 2차원 샘플 데이터에 대한 GMM 데모델링

 * 가우시안 분포가 아니라 다른 분포도 상관없음

https://gfycat.com/ko/smugchiefhummingbird

 

 

 

 

 

 

 

 

 

 

2.가우시안 혼합모델 표현과 장점

가우시안 혼합 모델의 모델링

- 전체 확률밀도 함수는 M개의 가우시안 확률 밀도 함수의 선형 결합.

 => oemga_i번째 theta_i 파라미터를 가진 확률 밀도 함수들의 가중치를 반영한 합이 가우시안 혼합 모델

 

혼합 가중치 성분

- P(omega_i)는 혼합 가중치 성분으로 M까지 다합하면 1이됨

 

파라미터 집합의 형태

- i번째 파라미터 집합 theta_i는 다음과 같이 구성됨

- 여기서 가우시안 모델의 공분산 형태는 완전, 대각, 원형이 될수 있음.

- 혼합 성분 개수는 데이터 집합 크기에 따라 조절 가능

 

 

가우시안 혼합 모델의 장점

- 혼합 성분 개수와 파라미터 값들이 적절히 제공하면 모든 분포에대해 완벽히 모델링 가능

- 비대칭성과 다중 봉우리?(멀티모달) 특성을 가짐

 => 단일 가우시안 확률밀도함수보다 강인한 밀도 추정 가능

 

 

 

 

 

3. EM을 이용하여 GMM 모델링

GMM의 목표

- 샘플 데이터 집합 x가 주어질때 로그 우도를 최대화 하는 혼합 가우시안들의 파라미터를 추정

- K-means와 마찬가지로 EM 알고리즘으로 최적 모델 추정

 

 

GMM 관련 정의

- 샘플 데이터 집합이 x라면, 학습할 데이터 셋을 아래와 같이 x_n으로 정의

- M개의 가우시안 모델들 중 j번째 모델의 파라미터를 다음과 같이 정의

- j번쨰 개별 가우시안 확률 밀도 함수를 아래와 같이 정리

 

 

- 전체 확률 밀도 함수를 M개의 개별 확률 밀도 함수들의 선형 결합으로 정리면 

* 수식 정리하려고하는데 너무 길어진다.

GMM의 특징과 확률 밀도 함수를 추정하는 과정은 대강 이해했으니 넘어가자.

 

 

GMM 정리

- 개별 가우시안 모델들을 혼합하여 다양한 샘플데이터에도 강인하게 만든 모델

 * 여기서 분포는 가우시안 확률 분포에 한정하지 않음

- 전체 확률 분포는 M 개의 개별 확률 분포들와 가중치들의 곱 합과 같음.

- GMM의 파라미터 집합은 M개의 원소의 평균, 분산, 가중치들로 이루어짐.

- EM 알고리즘을 통해 로그 우도가 최대가 되는 지점을 찾아 해당 파라미터 hat{theta}가 최적의 가우시안 혼합 모델의파라미터 집합 

 

 

 

 

 

 

 

 

 

300x250
728x90

1. 데이터 마이닝 개요

데이터 마이닝

- 데이터로부터 의미있는 정보를 추출하는 학문

- ex. 벡터 양자화, 클러스터링

 

 

 

 

패턴인식 시스템의 학습 과정

- 지도 학습 supervised learning이나 비지도학습 unsupervised learning으로 수행함.

- 지도 학습 : 특징벡터 x와 클래스 omega가 같이 주어진 상황에서의 학습

- 비지도학습 : 특징 벡터 x = {x1, ..., xn}만으로 이루어진 데이터로 수행한 학습

- 클러스터링 : 정답(클래스)가 정해지지 않은 데이터들을 적절하게 분류하여 모아주는 방법

 

 

 

비지도 학습의 장점

- 표본이 너무 많아서 라벨링 하기 힘든 경우

- 특징 벡터에 클래스 라벨이 주어지지 않았을 때

- 표본들이 작은 프로토타입 원형들로 분류될수 잇을때

 

 

 

 

 

 

 

 

2. 비지도 학습에 관하여

비지도 학습의 방법들

- 모수적 혼합 모델 구축하는 방법과 비모수적 방법 2가지가 존재

 

 

모수적 혼합 모델 구축을 통한 비지도 학습

- 여러개의 확률 밀도 함수로 주어진 클래스 데이터를 모델링

- 아래의 식과 같이 수학적 모델링 수행하며 혼합 모델이라 부름

 

비모수적 방법

- 데이터가 어느 확률 밀도 함수를 따른다는 가정 없이, 즉 파라미터 없이 정해진 클래스 수 만큼 데이터를 나누는 과정

- 대표적으로 k-means 클러스터링 알고리즘이 존재 => 최적화 기법으로 EM 알고리즘 사용.

 

 

 

 

 

 

 

 

 

 

3. 벡터 양자화

벡터 양자화 vector quantization와 클러스터링 clustering의 의미

- 벡터 양자화 = 클러스터링. 둘이 동일한 뜻

- 벡터 양자화 : 특징벡터 집합 x = [x1, ..., xn]를 K개의 특징 백터 집합 y = [y1, ... yk]로 사상

   => 사상 함수 y_i = c(x_i)가 정의됨.   

       * c( )는 양자화 연산자

      * y_i는 코드 벡터, 코드 워드, 클러스터라 부름

      * y는 코드 워드(클러스터)들의 모임인 코드북이라 함.

 - 클러스터의 갯수 : 코드북의 크기

     => n개의 특징 벡터 데이터들을 K개의 클러스터로 분류하는것이 벡터 양자화(클러스터링)

- 클러스터 중심점 센트로이드 centroid : 특정 클러스터에 소속한 특징 벡터들의 중심점

- 코드 북의 크기 K는 미리 정해져 있어야함

- 아래으 그림은 kmeans 클러스터링 예시

https://dashee87.github.io/data%20science/general/Clustering-with-Scikit-with-GIFs/

 

 

 

 

 

 

 

 

4. 최적화의 필요성

양자화 오차의 발생

- 특징 벡터 집합 x를 새 클러스터 집합 y로 양자화 하는 중 오차 발생

- 벡터 양자화는 특징벡터들 간의 거리 척도가 많이 사용됨. 특징 공간에 맞는 척도 사용 필요

  => 대표적으로 유클리디안 거리가 가장 많의 사용

- x, y 사이의 유클리디안 거리를 다음과 같이 정의

최적화 방향

- 특징 벡터 하나 xn와 중심점 centroid c(x) 사이의 거리가 최소가 되도록 최적화 수행 필요

- 중심점의 좌표는 해당 클러스터에 속하는 모든 특징 벡터들의 평균

평균 왜곡 mean distortion

- 유클리디안 거리로 구한 오차들의 총합 . 평균 왜곡은 아래와 같다.

코드 벡터 집합 구하기의 문제

- 평균 왜곡을 최소화 하는 코드 벡터 집합 y를 어떻게 구할것인지 최적화 과정을 사용 필요

 

벡터 양자화의 문제와 제안된 알고리즘

  1. 코드북 설계 : 주어진 데이터 집합에 최적의 코드북 찾기        => Kmeans 알고리즘            

  2. 양자화 : 주어진 데이터에 가장 가까운 코드벡터 찾아야함      => 비균일 이진 분할

  3. 코드 워드 거리 : 주어진 벡터에 가장 가까운 워드 찾기          => kmenas 알고리즘에 따르는 이진분할 알고리즘

 

 

 

 

 

 

 

 

 

 

5. k-means, EM 알고리즘

EM 알고리즘 Expectation Maximization

- 숨겨진 정보를 가진 문제로부터 최적해를 찾는 유용한 알고리즘

  => 최적의 코드 벡터들 centroids가 클러스터들의 중심이 될 것

- 숨겨진 정보를 추정 expectation하고, maximization을 반복하여 최적해를 찾아내가는 과정

 => 대표적인 EM 최적화 알고리즘이 K-menas

 

 

 

EM 알고리즘과 K-means 알고리즘의 차이

- EM 알고리즘 : 초기값 선택이 지역적 최적해를 찾는데 가장 중요한 요소

- K-means : 아무 초기값에서 E-M 과정을 수렴할떄까지 반복

  => 임의의 중심점들에 속하는 클러스터들을 선정(E) -> 크러스터들로부터 중심점 결정(M) 반복

 

 

 

K-menas 알고리즘

1. 데이터 집합 x = [x1, ... , xn]이 주어지고, k개의 초기 중심 집합(코드 벡터 집합) y = [y1, ..., yk] 생성

2. Expectation : y_i에 가까운 클러스터들을 선정 => x의 모든 원소들은 y의 원소중 하나에 속하게 됨.

3. Maximization : 새로운 중심점 갱신

4. 총 평균 왜곡 계산

 

5. 총 평균 왜곡이 지정안 오차나 반복횟수가 될때 까지 2 ~ 4 반복

300x250
728x90

오류확률을 최소화 하는 결정 규칙(MAP)

- MAP Maximum a Posterior 사후확률 최대화는 판별 함수로 수식화함

 

 

판별함수가 가우시안을 따르는 경우

- 공분산 행렬의 형태에 따라 데이터가 여러 형태로 분포

 

 

베이즈 분류기

- 클래스들의 데이터가 기본적으로 가우시안으로 따른다고 봄

 => 판별식이 아닌 이차형식으로 표현

 * 아래는 이차형식의 예

- 베이즈 분류기는 이차 형식으로 표현되므로 비선형(이차) 분류기라도 함.

 

 

 

 

복습) 우도비 결정규칙들에 따른 판별함수

복습) 판별식 discriminant equation

 

 

 

 

베이즈 분류기가 선형분리기가 되는 경우

- 데이터 분포(공분산)이 다음의 경우를 따르면, 선형 분류기가 됨.

1. 클래스들이 모두 가우시안 분포를 따르고, 공분산 값도 동일하며, 사전 확률이 같은 경우

   => 마할라노비스 거리 분류기

2. 클래스 모두 가우시안을 따르고, 항등 행렬에 비례하는 동일한 공분산값을 가지며, 사전확률이 같음

   => 유클리디안 거리 분류기

 

 

 

 

공분산 행렬의 종류

- 대부분의 분류기들은 베이즈 분류기인 이차 분류기로부터 유도됨.

- 아래의 그림과 같음

 

 

 

 

가우시안 확률 밀도함수 일반식

- 다변량 가우시안 확률밀도함수는 아래와 같이 정의됨

- MAP 판별함수를 구하면 다음과같음.

- 상수항을 제거하고 자연로그를 취하면 아래의 베이즈 이차 판별 함수식을 구함.

 

 

 

 

 

 

공분산이 1번 형태의 경우 판별함수 정리

- 베이즈 이차 판별 함수식의 공분산이 1번 경우와 같다면

- 특징 벡터들이 모든 클래스에서 동일한 분산 값을 가지고, 공분산이 0으로 서로 각 차원간에 독립

 => 공분산이 0이므로 제거해서 정리하자

 

-이 식을 정리하고

 

- 모든 클레스에 대해서 동일한 상수항인 x^T x 항을 제거하면, 기존의 이차 형식이던 판별함수가 일차 선형이 된다.

 => 결정 경계 decision boundaray는 g_i(x) = g_j(x)인 초평면 hyper plane임

- 사전확률 P(omega_i)가 모든 클래스에서 동일한 경우 아래와 같이 판별함수는 정리됨.

 => 이를 최소 거리 minimum distance 분류기 or 최근접 평균 분류기 nearest mean 라고 함

 

 

 

 

 

 

 

 

 

 

 

최근접 평균 분류기 nearest mean classifier

- 입력되는 특징벡터와 각 클래스의 중심간 유클리디안 거리가 판별함수가 되는 간단한 분류기

 

 

- 아래의 그림은 최근접 평균 분류기로 구한 결정 경계들

 

 

 

 

 

 

 

 

 

 

 

 

공분산이 3번 형태의 경우 판별함수 정리

- i번째 공분산 행렬이 비대각 행렬 Sigma인 경우

- 이차 판별함수는 MAP 결정 기준 판별 함수로 다음과 같이 유도 및 정리 됨.

- log |Sigma|는 상수항이므로 제거하면, 마할라노비스 거리를 얻게 된다.

- Sigma = 1이면 유클리디안 거리와 마할라 노비스 거리는 동일해짐

https://www.researchgate.net/figure/Comparison-of-the-Mahalanobis-distance-x-and-the-Euclidean-distance-between-a-point-P-and_fig3_232630604

 

- 이차항을 정리하자

- 이차항은 상수이므로 생략하면, 이 판별 함수는 선형이 됨

 => 결정 경계는 초평면(hyper plane)이 됨.

 

- 사전 확률이 모든 i에 대해서 같담면 다음의 식을 얻음

 => 아래의 식을 마할라노비스 거리 분류기.

 

 

 

300x250
728x90

선형 분류기 linear classifier 개요

- 피셔의 선형 분류기, SVM의 기초가 되는 간단한 분류기

 

이차 분류기 nonlinear classifier 개요

- 판별함수 discriminant function가 가우시안 분포를 따를 때, 판별식이 행렬의 이차형태로 표현되는 분류기

 

 

 

 

 

 

 

 

선형 분류기

- 선형으로 분리가 가능한 두 클래스로 이루어진 데이터 분류하는 판별식으로 정의

- 2차원 데이터 -> 판별식은 직선(결정 경계 dicision boundary),

   3차원 데이터 -> 2차원 평면 dicision plane,

   다차원 데이터 -> 초평면 hyper plane

 

선형 분류기와 선형 판별식

- 클래스 c1, c2를 분류하기위해 두 특징 x, y이 주어지고 선형 판별식이 아래와 같을떄

- a, b, c는 가중치

- 두 특징 x1, y1가 주어질때 선형 판별식 g(x1, y1) < 0 인 경우 : 특징 x1, y1는 c1

- 두 특징 x2, y2가 주어질때 선형 판별식 g(x2, y2) > 0 인 경우 : 특징 x2, y2는 c2

 

 

 

 

 

 

 

고차원 특징에서의 선형 판별식

- 아래와 같이 가중치 벡터 w와 입력 벡터 x의 내적으로 정의

 *  w는 가중치 벡터이며, 초평면의 법선 벡터

- w_0은 원정메서 초평면까지의 거리

 

 

 

판별식 가중치 결정

- 판별식 정의에선 가중치 벡터 w가 가장 중요함.

 => 학습용 데이터를 이용해 최소의 분류 오차를 생성하는 최적의 가중치 파라미터를 찾아 구함

- 주어진 학습 집합에서 분류 오차를 최소화 하는 방식을 사용

 

 

 

 

 

 

결정 경계 decision boundaray

- 두개의 클래스에 대한 분류를 하기 위한 경계를 만드는 문제

 => 하나의 선형 판별식이 필요

- 3개 이상의 클래스를 분류하기 위해선 여러개의 선형 판별식이 필요. 다중 클래스는 3가지 경우가 존재

 

 

 

다중 클래스 결정 경계의 유형들

1. 각 클래스가 단일 판별식으로 결정

- d1(x, y) = 0로 C1인 경우와 아닌경우 판별

- d2(x, y) = 0로 C2인 경우와 아닌경우 판별

- d3(x, y) = 0로 C3인 경우와 아닌경우 판별

2. 판별식이 클래스의 쌍으로 결정되는경우

- d_12(x,y) = 0으로 C1과 C2로 나뉘는 경우

- d_23(x,y) = 0으로 C2와 C3이 나뉘는 경우

- d_13(x,y) = 0으로 C1과 C3이 나뉘는 경우

 

 

 

3. 판별식이 클래스의 쌍인데 특별한 경우(생략)

 

 

300x250
728x90

추정, 추론 estimation, inference

- 표본 집합 데이터들로 정확하지는 않으나 값을 구하나는 행위

 

패턴인식에서의 추정

- 수집된 표본으로부터 확률 밀도 함수를 추정은 패턴을 인식하기 이해서 매우 중요

- 유한개의 표본들로 클래스별 확률 밀도 함수 추정해야함

 

 

베이즈 정리

- 사후확률 계산하려면 우항의 우도, 사전확률을 알아야함.

- 사전확률 : 이미 알고있는것으로 정의될수 있음

- 우도 : 해당 클래스의 확률 밀도 함수로 표본 데이터를 이용하여 추정 필요

 

데이터 밀도 추정 방법

- 모수적 방법 parametric method

     주어진 데이터 집합(샘플 데이터들)이 이루는 확률 밀도 함수가 가우시안 같은

    특정 형태로 이루어진것을 가정하고, 확률밀도 함수의 평균, 공분산 등의 파라미터 추정한는 방법. 

      => 샘플 데이터가 특정 분포를 따른다 가정하여, 그 분포의 파라미터 추정 (ex. 최우추정법 MLE)

- 비모수적 방법 non parametric method

   주어진 데이터가 아무 분포를 따르지 않고, 데이터로 직접 밀도 함수를 구하는 방법.

    * ex. 히스토그램, KNN, KDE 커널 밀도 추정

 

 

 

최우추정법 최대 우도 추정, MLE Maximum Likelihood Estimation

- 아래와 같이 M개의 파라미터 집합과 확률 밀도 함수 P(x | Theta)로 관측된 표본 데이터 집합 x가 주어질때 파라미터들을 추정하는 방법

  => 샘플 데이터로 특정 확률 분포의 파라미터 추정

- 어느 프로세스로 발생된 데이터로 이루어진다면, 전체 표본집합은 결합확률 밀도로 다음과같음.

 

- 위 식에서 P(x|Theta)는 파라미터 Theta를 따르는 주어진 데이터 집합의 우도 함수.

- 위 함수는 확률 함수. 가장 큰 확률 갑을 구하는 Theta를 hat{theta}로, 우도 함수의 곱을 합으로 바꾸게 log를 하자

 => 이 식은 로그 우도 함수 log likelihood function.

 => 로그 우도 함수를 최대로 하는 파라미터 hat{theta}가 미지의 파라미터를 가장 잘 추정해냄

 

 

 

 

 

 

 

 

 

로그 우도 최대화 maximization of log likelihood

- 로그 우도를 최대화 하기 위해서 Theta에 대해서 편미분 하자.

- 아래의 그림은 1차원 데이터에 대해 많은 후보 확률 분포가 나타냄.

 

 

- 다음 그림은 결합 밀도 함수로 구한 우도 함수 p(D|Theta) (D는 dataset)

  * 우도를 최대화 하는 파라미터에 hat{theta} 표기가 됨

 

- 다음 그림은 로그 우도 함수. 최우도 hat{theta}의 위치가 우도인 경우와 동일함

 

 

 

 

 

 

 

 

 

 

 

 

MLE 최대 로그 우도 추정법으로 최대 로그 우도 구하기

- 파라미터 벡터를 다음과 같이 가정

- 로그 우도의 그라디언트를 구하면

 * hat{theta}가 로그 우도를 최대화 하는 파라미터

 

 

 

 

 

 

 

 

 

 

 

 

최우 추정하기

1. 표본 집단의 로그 우도 구하기

2. l(theta)를 모든 파라미터로 편미분 한 후, 우항을 0으로 하여 최우 방정식으로 만듬

3. 연립 방정식을 풀어 해를 구한다.

4. 해 중에서 최대값을 추정 파라미터 hat{theta}로 쓴다.

 

 

 

 

 

 

 

 

 

 

가우시안을 따르는 샘플 데이터로부터 파라미터를 최우추정법으로 추정하기

- 표본 데이터가 단변량이라 가정

 

- 우리는 이 샘플 데이터가 가우시안 분포를 따른다 가정하고 가우시안 분포의 파라미터를 추정할 것임

 => 단변수 가우시안 확률 밀도 함수의 로그 우도는 아래와 같음.

 

 

- l(theta)의 그라디언트는 다음과 같음

 

- 그라디언트 우항을 0으로 하여, 최우 방정식을 만들자. 로그 우도를 최대로하는 첫번쨰 파라미터는 표본평균

- 로그 우도를 최대로하는 두번쨰 파라미터는 표본 분산

 

- 결론 : 주어진 샘플 데이터의 평균과 표본 분산이 로그 우도를 최대로 하는 파라미터

 

 

 

 

 

 

 

 

300x250
728x90

판별함수 discriminant function g(x)

- 앞서 살펴본 모든 결정규칙, 결정 함수, 결정 경계들은 동일한 구조

- 모두 g(x)를 최소화 하거나 최대화하는 클래스 omega_i를 선택

- 즉, 아래와 같이 정리할 수 있음.

 

 

- C개의 클래스 중 하나를 결정하는 시스템이 주어지면, C개의 판별함수 중 가장 큰 값을 가지는 클래스 선택

 

 

각 기준별 판별함수 일반항

- 베이즈, MAL, ML 기준의 판별함수 일반항은 다음과 같다.

 

300x250
728x90

베이즈 기준  bayes criterion

- 베이즈 위험을 최소화하는 LRT 결정규칙

 

 

MAP 기준

- 비용 값이 1이나 0인 zero-one 비용 함수를 사용하면 베이즈 기준이 P(omega_i | x)의 비가 됨

 => 사후확률을 최대화 시키므로 사후확률 최대화 Maximum A Posterior(MAP) 기준

 * 우도비가 아니라 최대화된 사후확률이 결정 함수가 됨

 

 

ML 기준

- 사전 확률 P(omega_i)가 같고, zero-one 비용 함수인 경우

 => P(x | omega_i) 우도비로 바로 표현이 가능. 우도비를 최소화 하므로 ML Maximuum Likelihood 기준이라 함.

 

 

 

 

통계 결정이론에 대한 정리

- 먼저 우도비 검증을 통해 결정 규칙(결정 함수)를 구하는 과정에 대해서 정리.

 

- 오류 함수로 우도비 검증 방법이 아니라 오류 함수를 최소화 하는 방법으로 결정 규칙을 찾을수 있음을 확인.

 

- 그동안 사용한 확률은 잘못된 확률에 대해 동일한 가중치(비용)을 부과, 서로 다른 비용을 주고 이에 대한 기댓값이 베이즈 위험, 베이즈 위험을 최소화하도록 하면 결정 경계를 정할수 있었음.

 

- 이러한 베이즈 위험을 활용한 결정 규칙 방법에 대해 베이즈 기준, MAP 기준, ML 기준 등 확인함.

 

- 베이즈 기준은 베이즈 위험을 최소화하는 RLT 결정 규칙, MAP 기준은 제로-원 비용함수를 사용하여 사후확률 표현으로 구한 결정 규칙. ML 기준은 제로-원 비용함수를 따르고, 모든 사전확률이 같다고 가정하여 바로 우도로 나타냄.

 

 

 

 

 

 

 

 

 

오류 확률이용한 다중 클래스 결정 규칙

- 이전에 본 결정 규칙(결정 경계, 결정 함수)에 대한 문제는 클래스가 2개인 경우만 다루었음. 하지만 다중 클래스 문제로 쉽게 일반화 가능

- 오류 확률과 옳은 확률 표현부터 시작하자

 => 오류 확률 최소화는 옭은 확률 최대화와 동일한 표현

- P(correct)를 사후확률로 표현하면

 

- 옳은 확률 최대화 하기 위해 적분결과인 gamma_i를 최대화 해야한다.

 - 각 적분 gamma_i들 중 p(omega_i | x)를 최대로 하는 omega_i를 선정하면 그 영역 R_i가 옳은 확률 최대영역

=> 오류 확률 최소화하는 결정규칙 = 사후확률 최대화 MAP 기준

 

 

 

 

 

300x250
728x90

베이즈 위험 bayes risk

 - ex. 1. 암환자를 잘못 오진해서 음성이라 판단한경우 위험이 크다

       2. 암환자가 아닌 사람을 오진해서 양성이라 판단한 경우 위험은 작다.

 => 잘못 분류하나 경우 벌점을 고려해야함.

- 벌점(비용) cost ( C_ij ) : omega_j 클래스를 omega_i로 골랐을때의 비용

- 벌점(비용)의 기대값 = 베이즈 위험

 

 

베이즈 위험 정리

- 비용의 기대값인 베이즈 위험은 아래와 같이 정리할 수 있다.

- 베이즈 위험을 최소화 하기 위해선 아래와 같이 잘못 판단한 경우에 대한 확률이 최소가 되어야 한다.

- 이를 전개해보면

- 모든 영역에 대해 우도를 합하면 1이므로 아래가 성립

 

- 위 성질과 전개한 결과를 정리해서 다음과 같이 표현하자.

 

- 이를 정리하면 아래의 식을 구할수 있으며, 앞의 두 항은 R1구하는데 필요없는 상수이므로 생략 가능

 => R을 최소로하는 R1을 구하면 되겠다.

 

 

 

베이즈 위험을 이용한 결정 영역 최소화 정리

- 위 결정영역 R에 대한 식을 R1을 최소화 시키는 값을 구하는 바꿔보자

 

 

300x250
728x90

분류기

- 특징 공간 feature space를 결정 영역으로 나누는 기술

 

베이즈 분류기에서의 에러

- 특징 공간을 R1, R2로 분류시 omega_1을 R2로, omega_2를 R1으로 잘못 분류하는 경우 존재

- 위 식을 2가지 경우가 아니라 여러가지의 경우에 대해서 간략화 시키면

 

- 각 클래스가 주어질때 오류에 대한 확률은 아래와 같이 정리

 

 

 

 

 

 

 

 

2클래스 분류에서의 오류 확률

- 위 정리를 이용해 오류 확률 p(err)을 아래와 같이 정리된다.

- 앱실론 1과 앱실론 2를 확률 밀도 함수에 대한 그래프로 나타내면

 

- p(error)의 사전확률 p(omega_1) = p(omega_2) = 0.5인경우, p(err)는

 

 

 

 

 

 

 

 

 

 

 

오류 확률로 결정경계 구하기

- 오류확률 P(err)을 사후확률 P(err | x)로 표현하자.

- 최적의 결정 경계를 구하기 위해, 오류 확률이 최소가 되어야 함

 => 최소의 p(err | x)를 구해야 한다.

 

 

점 x*이 주어질떄 오류확률

- 점 x*이 주어질떄 오류에 대한 확률 p(err | x*) = omega_2를 omega_1으로 잘못 분류할 확률

 => P(err | x*) = P(omega_1 | x*)

- x*이 결정 경계가 된다면 파란색의 영역이 커져 최적의 결졍 경계가 아님.

 => 결정경계는 X_B에서 적분 값이 최소가 됨.

 

 

 

 

 

베이즈 오류률 bayes error rate

- LRT 결정 규칙과 동일한 지점인 결정 경계 X_B에서 오류 확률 P(err)이 최소가 됨

 =>  베이즈 오류율 : 결정 경계에서 최소가 되는 오류 확률 p(err)

 

300x250

+ Recent posts