데이터마이닝 - 4. 앙상블 모델

2020. 11. 25. 10:58

728x90

앙상블 모델

- 서로 다른 여러개의 모델들을 생성 후. 모델의 결과를 조합하여 최종 결과를 얻는 방법

- 주로 다수결 voting이 사용되었었음.

- 단순 다수결 : 배깅, 랜덤 포레스트

- 가중 다수결 : 성능이 우수한 분류기에 가중치를 추가 부여. 부스팅

앙상블 모델의 장점

- 분류기들이 다양함

- 부트스트랩 : 반복 확률 랜덤 추출. 기존의 훈련 데이터를 임의 추출하여 훈련용으로 사용. 모델에 학습 후 집계

-> 배깅에 사용, 서로 다른 데이터 집합으로 모델을 학습하는 효과

- 트리 모델을 학습 시 분할 방법을 다르게 하여 다양한 모델을 만들 수 있음.

- 후보 분할 임계치를 임의의 부분 변수들을 선정하여 분할 개선도를 최대화 시킴(랜덤 포래스트)

배깅 bagging

- bootstrap aggregation의 약어

- 부트 스트랩 데이터를 여러개 생성. 각 분류기에 학습하여 결과를 앙상블 함.

- 트리 모델의 단점 : 최초에 선정된 변수에 따라서 불완정성이 존재. -> 이후 모형이 완전히 달라질수 있음.

- 앙상블, 배깅은 트리 모델의 불안정성을 크개 개선시킴.

부스팅 boosting

- 1997년 프로인드와 샤파이어가 개발한 앙상블 기법

- 배깅과 마찬가지로 여러개의 분류기 생성, 결과 결합을 하나 분류기 생성과 결과 결합방식이 다름.

- 분류기를 시퀀스 형태로 배치. 오분류 데이터에 가중치를 높게 선정

-> 다음 분류기는 가중치 높은 값의 오분류를 줄이도록 학습

-> 계속 오분류 되는 데이터들은 큰 관심을 가지고 분류할수 있게 됨.

=> 잘 분류되지 않은 부분을 계속 개선시켜나가는 방법이라 할수 있음.

* 아다부스트(AdaBoost: adaptive boosting)가 많이 사용됨

랜덤포레스트 random forest

- 배깅, 부스팅보다 예측력이 좋음

- 트리 모델 생성 시, 임의성을 높이기 위해 부트스트랩과 입력변수를 임의 추출하여 결합한 방법

300x250

집밖은 위험해