728x90

결정 이론 개요

 

지난번에

 

확률 이론이 불확실성을 수치화 해서 다루는 수학적 기반으로 사용된다고 알아봤고

 

이번에는 확률 이론에 기반한 결정 이론에 대하여 살펴보겠다.

 

결정 이론은 주어진 불확실한 상황에서 어떻게 최적의 결정을 할수 있게 만드는지에 대한 학문이라 할수있다.

 

 

입력 벡터 x와 타겟 벡터 t가 주어지고, 우리는 새로운 x가 입력될때 t를 예측해야한다고 하자

 

회귀 문제에서 t는 연속 변수이고, 분류 문제에서 타겟벡터 t는 클래스의 카테고리, 라벨같은것을 의미한다.

 

 

결합 확률 분포 p(x, t)는 이러한 변수들 사이 불확실성을 완전히 정리해주는데

 

훈련 데이터 셋으로 구한 결합 확률 분포 p(x, t)의 결정식을 구하는 것이

 

확률적 추론이며, 앞으로 다루고자 하는 내용이라 할수 있다.

 

여기서 중요한점은 t를 예측하는 과정이 너무 과적합이 아닌 일반화 될수있어야 하는데

 

이게 결정 이론의 핵심이라 할수 있겠다.

 

 

 

 

 

의학 진단으로 보는 결정 이론 : 환자의 X ray 영상으로 이 환자가 암이 있는가 없는가? 판단하기

 

결정 이론을 다루는 예시로

 

환자의 Xray 영상이 있는데, 이 영상으로 환자가 암인지 아닌지 판단하여야 한다.

 

이때 입력 벡터 X는 이미지 픽셀들로 이루어지고

 

t는 암의 존재여부 그러니까 이진 클래스로 주어지겠다.(암이면 1, 암이 아니면 0인 식으로)

 

앞으로 라벨 값을 선택하는데 확률 모델이 어떻게 유용한지 알아보겠다.

 

 

일반적인 추론 문제에서는 결합 확률 분포 p(x, t)를  다루게 되는데

 

주어진 상황을 고려하여 최적의 선택을 하는, 환자 여부를 선택하는 것이 결정이며

 

결정 이론은 주어진 확률들에 기반하여 얼마나 최적의 결정을 했는지를 알려준다.

 

 

 

아무튼 우리가 해야할 건 이미지 x가 주어졌을때 클래스에 대한 확률(사후확률)을 구하여야 한다.

 

이를 베이즈 정로로 표현 하면 다음과 같다.

 

 

여기서 우리가 해야할 일은 

 

 

x ray 정보가 주어졌을때 오분류 하는 경우를 최소화 시켜야 한다.

 

 

 

 

오분류 최소화 하기

 

아무튼 우리가 해여할 일은 x가 주어졌을 때 가능한 클래스 들중 하나를 선택하는 결정규칙 decision rule이 필요하다.

 

결정 규칙은 입력 공간을 결정 영역 R_k로 분할시키는데, 각 결정영역에는 클래스 C_k가 주어진다.

 

결정 영역 decision region 사이의 경계를 결정 경계 decision boundary, 결정 표면 decision surface라 부른다.

 

최적의 결정 규칙을 찾기위해 암 여부 판단 문제로 한번 보자

 

실수가 일어날 확률을 아래와 같이 정리할수 있다.

 

 

이제 우리가 할일은 오류 확률을 최소화 하는 결정 규칙을 구하면 되는데

 

실수를 최소화 시킨다는 말은

 

올바르게 분류하는 사후확률을 구한다는 말이기도 하다.

 

K개 클래스로 일반화 해서 본다면 x가 주어질때, 각각의 p(x, C_k)가 가장 커지는 결정 영역을 구하면 된다.

 

 

 

P(x, C_k)는 확률의 곱 법칙에 따라 x가 주어질때 C_k에 대한 사후확률과 p(x)로 분해할수 있고

 

결국에는 가장 큰 사후확률을 찾는 문재가 된다.

 

 

암을 판별하는 이진 분류 문제를 그림으로 표현하면

 

정분류율읠  최대화 하는 결정 경계는 아래와 같이 x0라 할수 있다.

 

 

 

 

 

 

 

기대 손실 최소화하기

 

실제로 사용하기 위해선, 오분류율을 줄이는 단순한 문제보다 복잡한 문제들을 다루어야 한다.

 

다시 암 진단 문제를 다시 생각해보자

 

암이 없는 환자를 암이 있다고 오판하는 경우(1)보다

 

암이 있는데 없다고 판단하는 경우(2)가 위험이 매우 크다.

 

 

(1)에 의한 손실보다는 (2)에 의한 손실을 줄이는게 더 나으므로

 

이를 수식화 하기 위한 개념으로 손실 함수 loss function, 비용함수 cost function가 있으며

 

이 손실 함수는 결정에 따른 손실, 손해의 척도로 사용된다.

 

 

 

입력 x가 주어졌을때, 실제 클래스가 C_k이지만 C_j로 잘못 분류한 경우가 있다 하고,

 

이때 손실을 L_kj라고 표기하고 여기서 k와 j는 나중에 나올 손실 행렬의 원소로 보자.

 

 

 

아래의 그림은 암 판별 문제의 손실 행렬을 보여주고 있는데,

 

건강한 사람이 암으로 판단된경우 손실은 1이고, 반대로 암 환자가 정상으로 판별한 경우 손실은 1000이다.

 

 

최적해 optimal solution은 손실 함수를 최소화 시켜서 구할수 있지만

 

손실 함수는 우리가 실제로는 알수 없는 진짜 클래스에 의존하는게 문제다.

 

 

입력 벡터 x가 주어질때 실제 클래스에 대한 불확실성은 결합 확률 분포 p(x, C_k)로 나타낼수 있으니

 

이 분포에 대한 평균 손실을 최소화 하는 방향을 사용하여야 한다.

 

다시 정리하면, 기대 손실(위의 식)을 최소화하는 결정 영역 R_j들을 구하여야 한다.

 

적분항 내부 결합 확률 분포는 확률 곱의 법칙에 따라

 

아래와 같이 분해할수 있고,

 

p(x)는 제거하면

 

기대 손실을 최소화 하는 결정 규칙은 새 입력 x가 j에 속하는 경우 아래의 식과 같다.

 

 

 

 

암 판별 문제의 기대 손실은 정리해보면 아래와 같다.

 

손실 행렬에 의해 암인데 정상으로 판단되는 부분에 큰 가중치를 주고,

 

정상인데 암으로 판단하는 경우 적은 가중치를 줌으로서

 

암을 정상으로 판단하는 경우를 크게 줄일수 있는 방향으로 결정 영역을 찾게 된다.

 

 

 

 

 

회귀 문제와 비용함수

 

지금까지 분류 문제를 다루기 위해 결정 이론을 살펴보았고

 

이제 회귀 문제에 적용해보자

 

앞에서 입력 x가 주어질때 추정자 y(x)로 t를 추정해 왔었다

 

이를 비용 함수로 나타내면 L(t, y(x))가 되는데,

 

이를 기대 손실로 나타내면 아래와 같다.

 

 

 

 

회귀 문제에서 비용 함수는 일반적으로 손실의 제곱을 많이 사용하는데

 

그러면 기대 손실을 아래와 같이 고칠수 있겠다.

 

 

이제 할일은 기대 손실 E(L)을 최소화 하는 y(x)를 구하면 되겠다.

 

기대 손실 E(L)을 y(x)에 대해 편미분할수 있는데

 

 

확률의 하브 곱 법칙으로 y(x)에 대한 해를 구할수 있다.

 

이 식은 x가 주어질때 t의 기대값으로 회귀 함수라 한다.

 

 

300x250

+ Recent posts