728x90

앙상블

- 기존의 머신러닝 모델들이 단일 모델을 이용하여 값을 추정하였다면,

- 앙상블은 여러개의 모델로부터 결과를 얻는 방법

- 보팅, 배깅, 부스팅, 스태킹 등 다양한 기법들이 있음.

 

 

보팅

- 말그대로 서로 다른 분류기들간에 투표를 통해서 결정

- 하드 보팅 : 가장 많은 표를 받은 클래스를 선정

- 소프트 보팅 : 모든 분류기들의 클래스 라벨 확률들을 다 더한후 평균을 취한 후 가장 높은 값의 클래스 선정

ex. 사이킷런에서 votingclassifier 제공

 

배깅 bagging

- boostrap aggregation의 줄임말

- 보팅과 달리 한 종류의 알고리즘을 사용하나, 부트스트랩 기법으로 서로 다른 데이터셋으로 학습시킴

 * 부트스트랩 : 기존 데이터셋에서 일부 데이터셋을 추출하여 사용. 각 모델들은 동일하지 않은 데이터셋에 학습 

ex. 랜덤 포레스트

 

 

부스팅 boosting

- 여러 개의 약 모델들을 생성하여, 연결되어 순차 학습 수행

- 잘못 예측한 데이터에 가중치를 주어, 다음 모델에서 학습/예측 수행

- 오류들을 점점 더 줄여나갈수 있도록 개선한 방식

ex. 아다부스트(adaboost : adaptive boosting), XGBoost, LightGBM

300x250

+ Recent posts