728x90

규칙 기반 머신러닝의 한계

- 우리가 살고 있는 현실에는 노이즈가 존재하여 관측되므로 원하는 결과를 구하기 힘듬.

 

우리가 필요한 것들

- 노이즈가 있는 데이터에 더 강건해야하는 방법

- 가설을 더 명확하게 설명할수 있는 방법

 

규칙 기반 머신러닝 기법으로 나가 놀지 여부를 결정 트리로 표현 하는 경우

 

 

 

신용 평가 데이터셋을 사용한 머신 러닝

- 신용카드를 발급해줄지 말지를 이 데이터셋으로 판단해보자

- 690개의 인스턴스, 307개의 긍정 케이스(신용 카드 발급)

- ref : http://archive.ics.uci.edu/ml/datasets/Credit+Approval

- 신용 평가 정보 Attribute Information:

A1: b, a.
A2: continuous.
A3: continuous.
A4: u, y, l, t.
A5: g, p, gg.
A6: c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff.
A7: v, h, bb, j, n, z, dd, ff, o.
A8: continuous.
A9: t, f.
A10: t, f.
A11: continuous.
A12: t, f.
A13: g, p, s.
A14: continuous.
A15: continuous.
A16: +,- (class attribute)

 

 

 

A1속성만으로 판단하는 경우

- A1 속성 값이 a인 경우 98개가 긍정이고, 112개가 부정

- A1 속성 값이 b인 경우 206개가 긍정, 262개가 부정

- A1 속성 값이 알수없음 ?인 경우 3개가 긍정, 9개가 부정

   => 가능한 모든 경우의 총 긍정 307, 총 부정 383

=> A1 속성만으로는 긍정과 부정 여부를 잘 분류하지 못한다고 볼수 있다. 거의 50:50 비율로 판별하므로

 

A9 속성 만으로 판단하는 경우

- A9 속성 값이 t인 경우 284개가 긍정, 77개가 부정

- A9 속성 값이 f인 경우 23개가 긍정, 306개가 부정

=> A9 속성이 t일때 긍정을 많이 찾고, f일때 부정을 많이 찾는다. => A1 속성보다는 잘 분류해낸다.

 

300x250

+ Recent posts