앙상블 모델
- 서로 다른 여러개의 모델들을 생성 후. 모델의 결과를 조합하여 최종 결과를 얻는 방법
- 주로 다수결 voting이 사용되었었음.
- 단순 다수결 : 배깅, 랜덤 포레스트
- 가중 다수결 : 성능이 우수한 분류기에 가중치를 추가 부여. 부스팅
앙상블 모델의 장점
- 분류기들이 다양함
- 부트스트랩 : 반복 확률 랜덤 추출. 기존의 훈련 데이터를 임의 추출하여 훈련용으로 사용. 모델에 학습 후 집계
-> 배깅에 사용, 서로 다른 데이터 집합으로 모델을 학습하는 효과
- 트리 모델을 학습 시 분할 방법을 다르게 하여 다양한 모델을 만들 수 있음.
- 후보 분할 임계치를 임의의 부분 변수들을 선정하여 분할 개선도를 최대화 시킴(랜덤 포래스트)
배깅 bagging
- bootstrap aggregation의 약어
- 부트 스트랩 데이터를 여러개 생성. 각 분류기에 학습하여 결과를 앙상블 함.
- 트리 모델의 단점 : 최초에 선정된 변수에 따라서 불완정성이 존재. -> 이후 모형이 완전히 달라질수 있음.
- 앙상블, 배깅은 트리 모델의 불안정성을 크개 개선시킴.
부스팅 boosting
- 1997년 프로인드와 샤파이어가 개발한 앙상블 기법
- 배깅과 마찬가지로 여러개의 분류기 생성, 결과 결합을 하나 분류기 생성과 결과 결합방식이 다름.
- 분류기를 시퀀스 형태로 배치. 오분류 데이터에 가중치를 높게 선정
-> 다음 분류기는 가중치 높은 값의 오분류를 줄이도록 학습
-> 계속 오분류 되는 데이터들은 큰 관심을 가지고 분류할수 있게 됨.
=> 잘 분류되지 않은 부분을 계속 개선시켜나가는 방법이라 할수 있음.
* 아다부스트(AdaBoost: adaptive boosting)가 많이 사용됨
랜덤포레스트 random forest
- 배깅, 부스팅보다 예측력이 좋음
- 트리 모델 생성 시, 임의성을 높이기 위해 부트스트랩과 입력변수를 임의 추출하여 결합한 방법
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 9. 신뢰구간과 평균 검정 (0) | 2020.11.25 |
---|---|
빅데이터 - 8. 통계학과 기초통계량 (0) | 2020.11.25 |
데이터마이닝 - 3. 트리 모델 (0) | 2020.11.25 |
빅데이터 - 7. 전처리 (0) | 2020.11.23 |
빅데이터 - 6. 수집 및 관리 (0) | 2020.11.23 |