728x90

트리 모델

- 데이터 분석 과정을 트리로 구조화하여 분류/회귀 분석하는 기법

- 타겟 변수(목표 변수)가 카테고리형(범주형)인경우 분류기

- 목표 변수가 확률, 수인경우 회귀 모델 이용

-> 트리로 많은 양의 데이터를 분석할수 있음

 

 

트리

- 개요 : 데이터에 기반하여 노드들을 분할해나감. 분리 규칙을 구할지 판단.

- 사용 목표 : 분류, 변수 선택, 변수간 상관성 탐색 용도로 사용 가능

 

 

트리 모델의 역사

- 변수간 연관성 탐색하는 방법으로서 개발

- AID 1964

- THAID 1973, CHAID Squared Automatic Interaction Detection 1980

- CART Classfication And Regressions Trees 1984년도에 완성된 트리 모델

- C4.5 1983

- FACT 1988

- Quest 1997 : 이진 분할 + 나무모형 가지치기 수행

- Cruise 2001 : 다중 분할 나무모형

 

 

트리 모델 장점

- 독립 변수의 형태에 상관없이 사용

- 이해, 해석이 간편

- 변수간 상관성 쉽게 찾을수 있음

- 결측치 처리가 용이

- 새로운 데이터에 대해 쉽게 예측 가능

 

트리 모델 단점

- 단순함과 분리를 하는 만큼 타 모델보다 성능이 떨어질수 있음

- 학습 데이터가 적은 경우, 쉽게 변할 수 있음

 

 

CART 모델

- 불순도를 낮추도록 이진 분할 수행

- 불순도는 지니계수 함수로 계산

- 분할 임계치 선정과 분할을 재귀적으로 수행하여 트리 모델 완성

 

 

C4.5 트리모델

- CART 모델과 동일하나 엔트로피를 이용하여 불순도 계산

 * 엔트로피 : 정보의 불확실성 정도.

 ref: hyunw.kim/blog/2017/10/14/Entropy.html

 

CHAID Chi squared Automatic Interaction Detection 트리모델

- 카이제곱 검정을 이용하여 분할 임계점을 결정함

 

QUEST Quick Unbiased Effcient Statistical Tree 모델

- CART 모델의 변수 선택 편향성을 개선하기 위한 모델

 * CART 모델은 특정 분류값이 많을 수록 해당 변수 위주로 분할

- 변수 선택 : 일원배치 분산분석과 카이제곱검정이용

- 분할 임계치 선정 : CART의 임계치 선정 법과 2차 판별분석을 혼용

- 장점 : 연산 속도가 빠르며, CART의 편향성을 개선

 

 

CRUISE 트리 모델

- QUEST의 변수 선택 방법을 개선. 변수간 상관성을 더 반영

- 변수 선택 : 카이제곱 분할표 검정 이용

- 분할 임계치 선택 : 박스-콕스 변환후, CART의 방법과 선형 판별분석 수행

- 장점 : 다중 분할/ 선형 결합 분할 가능

 

 

트리 모델 크기 조절 방법

- 분할 정지 split 방법 : 통계적 유의성을 이용하여 분할을 해나갈지 평가

- 가치지기 pruning 방법 : 분할해 나간후. 적절하지 않은 일부 가지를 제거

 

 

300x250

+ Recent posts