

- train/test 분리

- voting, bagging, boosting, stacking 차이

- xgboost, lightbgm 이해




- seaborn의 anagrams, attention, car_crashes, diamonds_dots 분석

- train/test 분리, 앙상블

- 하이퍼파라미터 변경하며 train, test loss 비교



- kaggle 자전거 공유 수요 데이터셋, train/validation 분할, 모델로 데이터 예측 후 submission format에 맞춰 csv 저장

- kaggle 샌프란시스코 범죄 데이터셋. train/validation 분할, 모델 예측 후 위와 동일






- 훈련, 테스트 데이터셋 분리



metric, score

- 모델 평가에 대한 측도


- classification : accuracy, f1, aoc, roc 등 사용

- clustering :  mutual info score, v measure score 등 사용

- regression : mean sqare error, r2 등 사용






앙상블 개요

- 회귀, 분류, 클러스터링에 다양한 모델들이 존재

- 여러 모델들을 사용하여 더 좋은 모델을 구하는 방법

- voting, bagging, boosting, stacking 등


앙상블 기법들

- voting : 여러 모델 중 최적의 모델을 보팅 해서 선정

- bagging (boostraping and aggregation) : 데이터 분할하여 각각의 모델에 학습하여 수렴.(수평)

- boosting : 약분류기들을 가중치 주면서, 수직으로 배치.

 -> adaboost, xgboost, lightdm 등

- stacking : 이전 분류기의 출력을 다음 분류기의 입력으로 사용. boosting과 유사







seaborn car crash (voting, vagging, xgboost)

1. 데이터 로드

- total, speeding, acholog, ...

- speeding, alcohol같이 이해되는 변수도 있지만 의미를 알기 힘든 변수들도 존재




2. 시각화

- 데이터 프레임 플롯

- 지역별 알코올


- 지역별 속도





3. 데이터 분할과 결정트리 회귀 분석


- 라벨 인코딩







4. voting

- 분류기들 설정 및 학습

- train, test 데이터 별 스코어


- train 데이터, 예측 정도 plot



- 하이퍼 파라미터 n_estimator 별 score plot




5. bagging  - estimaotrs 갯수별 score




6.xgboost regression 

- estimator 갯수별 score

- 변수 중요도 plot : f0가 가장 중요한 변수

- speeding이 x0이므로 total 회귀에 가장 중요한 변수

























santander product recommendation

- 이 고객이 향후 어떤 상품을 사용할까?




데이터 설명









