728x90

앙상블 모델

- 서로 다른 여러개의 모델들을 생성 후. 모델의 결과를 조합하여 최종 결과를 얻는 방법

- 주로 다수결 voting이 사용되었었음.

- 단순 다수결 : 배깅, 랜덤 포레스트

- 가중 다수결 : 성능이 우수한 분류기에 가중치를 추가 부여. 부스팅

 

 

 

앙상블 모델의 장점

- 분류기들이 다양함

- 부트스트랩 : 반복 확률 랜덤 추출. 기존의 훈련 데이터를 임의 추출하여 훈련용으로 사용. 모델에 학습 후 집계

                   -> 배깅에 사용, 서로 다른 데이터 집합으로 모델을 학습하는 효과

- 트리 모델을 학습 시 분할 방법을 다르게 하여 다양한 모델을 만들 수 있음.

- 후보 분할 임계치를 임의의 부분 변수들을 선정하여 분할 개선도를 최대화 시킴(랜덤 포래스트)

 

 

배깅 bagging

- bootstrap aggregation의 약어

- 부트 스트랩 데이터를 여러개 생성. 각 분류기에 학습하여 결과를 앙상블 함.

- 트리 모델의 단점 : 최초에 선정된 변수에 따라서 불완정성이 존재. -> 이후 모형이 완전히 달라질수 있음.

- 앙상블, 배깅은 트리 모델의 불안정성을 크개 개선시킴.

 

 

 

부스팅 boosting

- 1997년 프로인드와 샤파이어가 개발한 앙상블 기법

- 배깅과 마찬가지로 여러개의 분류기 생성, 결과 결합을 하나 분류기 생성과 결과 결합방식이 다름.

- 분류기를 시퀀스 형태로 배치. 오분류 데이터에 가중치를 높게 선정

 -> 다음 분류기는 가중치 높은 값의 오분류를 줄이도록 학습

 -> 계속 오분류 되는 데이터들은 큰 관심을 가지고 분류할수 있게 됨. 

=> 잘 분류되지 않은 부분을 계속 개선시켜나가는 방법이라 할수 있음.

  *  아다부스트(AdaBoost: adaptive boosting)가 많이 사용됨

 

 

랜덤포레스트 random forest

- 배깅, 부스팅보다 예측력이 좋음

- 트리 모델 생성 시, 임의성을 높이기 위해 부트스트랩과 입력변수를 임의 추출하여 결합한 방법

 

 

 

 

300x250
728x90

트리 모델

- 데이터 분석 과정을 트리로 구조화하여 분류/회귀 분석하는 기법

- 타겟 변수(목표 변수)가 카테고리형(범주형)인경우 분류기

- 목표 변수가 확률, 수인경우 회귀 모델 이용

-> 트리로 많은 양의 데이터를 분석할수 있음

 

 

트리

- 개요 : 데이터에 기반하여 노드들을 분할해나감. 분리 규칙을 구할지 판단.

- 사용 목표 : 분류, 변수 선택, 변수간 상관성 탐색 용도로 사용 가능

 

 

트리 모델의 역사

- 변수간 연관성 탐색하는 방법으로서 개발

- AID 1964

- THAID 1973, CHAID Squared Automatic Interaction Detection 1980

- CART Classfication And Regressions Trees 1984년도에 완성된 트리 모델

- C4.5 1983

- FACT 1988

- Quest 1997 : 이진 분할 + 나무모형 가지치기 수행

- Cruise 2001 : 다중 분할 나무모형

 

 

트리 모델 장점

- 독립 변수의 형태에 상관없이 사용

- 이해, 해석이 간편

- 변수간 상관성 쉽게 찾을수 있음

- 결측치 처리가 용이

- 새로운 데이터에 대해 쉽게 예측 가능

 

트리 모델 단점

- 단순함과 분리를 하는 만큼 타 모델보다 성능이 떨어질수 있음

- 학습 데이터가 적은 경우, 쉽게 변할 수 있음

 

 

CART 모델

- 불순도를 낮추도록 이진 분할 수행

- 불순도는 지니계수 함수로 계산

- 분할 임계치 선정과 분할을 재귀적으로 수행하여 트리 모델 완성

 

 

C4.5 트리모델

- CART 모델과 동일하나 엔트로피를 이용하여 불순도 계산

 * 엔트로피 : 정보의 불확실성 정도.

 ref: hyunw.kim/blog/2017/10/14/Entropy.html

 

CHAID Chi squared Automatic Interaction Detection 트리모델

- 카이제곱 검정을 이용하여 분할 임계점을 결정함

 

QUEST Quick Unbiased Effcient Statistical Tree 모델

- CART 모델의 변수 선택 편향성을 개선하기 위한 모델

 * CART 모델은 특정 분류값이 많을 수록 해당 변수 위주로 분할

- 변수 선택 : 일원배치 분산분석과 카이제곱검정이용

- 분할 임계치 선정 : CART의 임계치 선정 법과 2차 판별분석을 혼용

- 장점 : 연산 속도가 빠르며, CART의 편향성을 개선

 

 

CRUISE 트리 모델

- QUEST의 변수 선택 방법을 개선. 변수간 상관성을 더 반영

- 변수 선택 : 카이제곱 분할표 검정 이용

- 분할 임계치 선택 : 박스-콕스 변환후, CART의 방법과 선형 판별분석 수행

- 장점 : 다중 분할/ 선형 결합 분할 가능

 

 

트리 모델 크기 조절 방법

- 분할 정지 split 방법 : 통계적 유의성을 이용하여 분할을 해나갈지 평가

- 가치지기 pruning 방법 : 분할해 나간후. 적절하지 않은 일부 가지를 제거

 

 

300x250
728x90

선형 회귀 모형

- 입력이 주어질때 결과를 예측하는 모형

- i번쨰 목표 변수의 값을 Y_i, 입력 변수들의 값 X_1i, ... X_pi라 할때 아래와 같이 정의

- 입력 변수와 회귀 계수의 선형 결합의 형태로 된 모델

- beta_0, ..., beta_p는 회귀 모수 regression parameter or regression coefficient로 아직모르는상수

- eta_i는 Y_i의 근사오차. 오차는 서로 독립이고 평균이 0, 일정한 분산을 가짐

 

 

회귀 계수를 추정하기

- 최소제곱법 least sequare method을 사용

- 각 관측치와 회귀 선까지 거리(오차) 제곱의 합을 최소화하는 계수들을 구함.

- 각 회귀 계수 beta_i에 대해 편미분하여 각각의 추정 회귀계수 hat_beta_i를 구함

- 추정해낸 회귀 모델은 아래와 같음.

 

회귀 계수의 의미

- beta_j는 타 변수가 일정할댸 j번째 변수가 변동시 Y의 변동량

- beta_j = Y에 대한 X_j의 기여도

- beta가 양수이면 X가 증가시 Y도 증가

 

 

입력 변수의 중요도

- 선형 회귀 모형에서 변수 중요도는 t value로 측정

- j번째 입력 X_j에 대한 t는 아래와 같이 정의 (SE는 표준 오차)

- SE(hat_beta_j)는 j번째 회귀계수 추정치 hat_beta_i의 표준오차

 ->t의 절대값이 클수록 영향력이 크다고 할 수 있다.

 

 

모형의 적합도 1 - F value

- F value :  모형 상수항 beta_를 제외한 모든 회귀계수가 0인지 아닌지 검정하는 측도

 -> F value는 회귀 직선으로 평균적으로 설명가능한 부분(mean squared regression:MSR)을

     설명할수없는 부분(mean sqared error; MSE)로 나눈값.

=> 에러에 비해서 직선이 얼마나 설명력이 큰가.

 ex. MSE가 매우크다 -> F는 작다 -> p value가 더크다

 -> 귀무 가설(모든 회귀 계수가 0)이다 채택 -> 유용하지 않은 회귀직선

 

- F value가 크면 입력변수들 중에서 하나는 유의(회귀 계수가 0이 아님).

- F value가 작아서 p value가 크다면 모든 입력가 유의하지 않으므로, 회귀 직선이 유용하지 않음.

 

 

모형의 적합도 2 - R-sqaured 결정계수

- 모형의 적합도 goodness of fit를 결정계수 (coefficient of determination) Rsquared로 측정  

- 결정계수 R2 : 직선이 설명하는 부분의 총합/ 변동의 총합으로 0~1값

- R squared는 변수 갯수가 많아질수록 증가함

=> adjusted R square 사용

 

 

 

회귀 모형으로 예측

- 새로운 입력 x_1i*, x_2i*, ..., x_pi*을 회귀식에 대입하여 hat_y_i*를 얻음.

 

예측력

- 회귀 모형이 얼마나 좋은지는 MSE를 주로 사용

 

로지스틱 회귀모형

- 목표 변수가 0, 1인 경우 아래와 같은 선형 회귀모형으로 설명할수가 없음.

- y_i = 0 또는 1은 힘드니 P(y=1) or P(y = 0)으로 다루자.

- 목표변수가 1이 될 확률을 pi_i = P(y_i = 1)이라 할때 아래와 같이 로지스틱 회귀모형 정의

  *성공확률 pi_i는 확률이므로 0~1사이 값

- pi_i의 오즈비는 양수값의 범위를 가짐.

- 로짓의 범위는 실수 영역이 됨. 우리가 구하고자하는 선형 회귀모형이 나옴.

- 성공 확률 pi와 입력변수는 로지스틱 반응함수 형태(S 형태의 곡선으로 나타남)로 표현

- 입력 변수와 로짓의 관계는 직선이 됨.

 

 

로지스틱 회귀모형의 모수 추정

- 로지스틱 회귀모형의 모수는 최대가능도 추정법 maximum likelihood estimation method MLE로 추정

- 가능도 함수를 최대화하는 모수 추정값은 뉴턴 랩슨이나 피셔 스코어링 방법으로 구함.

모형을 이용한 예측

- hat pi_i*이 크면 hat_y_i* = 1, 작은경우 hat_y_i* = 0

- pi_0는 0.5를 사용하나 적용 분야에 따라 달리 결정가능.

분류성능 평가지표  Confusion Matrix

- 볼떄마다 맨날 햇갈린다. 

- TP True Positive : 실제로 참이고 참으로 판단.

- TN True Negative : 실제로 거짓이고 거짓으로 판단.

- FP False Positive : 실제로 거짓이나 참이라 판단.

- FN False Negative : 실제로 참이나 거짓이라 판단.

- 정밀도 precision = TP/(TP+FP) : Positive 정답률. 모델 예측이 실제로 맞은 비율

- 재현율 recall = TP/(TP+FN) : 민감도라고도 하며, 실제 참 중에서 모델이 참이라고 맞춘 비율

- 정확도 accuracy : 옳게 판단한 비율

Fall-OUT

- FPR(False Positive Rate) = FP/(TN + FP)

- 실제 거짓중에 모델이 True라한 비율

-> 낮을수록 좋음.

 

TPR(=Recall 재현율)

- TPR = TP/(TP + FN)

- 실제 참중에 모델이 참이라 한 비율

-> 높을 수록 좋음

 

ROC(Receiver Operating Characterisitc) Curve

- FPR이 작고, 재현률(TPR)이 클수록 좋음

- 곡선이; 왼쪽에 가까울수록 좋은 모델

 

https://www.jtcvs.org/article/S0022-5223(18)32875-7/fulltext

 

 

300x250
728x90

빅데이터

- 정형 + 비정형 데이터. 기존의 방식으로 처리하기 방대한 데이터

- 3V : velocity, volume, variate

 

데이터 분석의 역사

- 로널드 피셔 ronald fisher : 곡물 관련 실험결과를 연구하며 실험 계획법 토대 마련

- 조지 갤럽 george gallup : 사람의 생각을 문항으로 데이터 수집

- 윌리엄 페어 william fair : 고객 행동을 예측하여 의사결정 개념 소개

 

 

다양한 통계적 기법들

- 실험 계획법 : 일원요인 분산분석, 이원요인 분산분석, 공분산분석, 요인배치법 등 

- 다변량 분석법 : 주성분 분석, 인자 분석 , 군집 분석, 판별분석, 로지스틱 회귀분석

- 데이터 마이닝 : 회귀 모델, 나무 모델, 군집 모델, 신경망 모델, 연관성 모델 등

 

 

데이터 마이닝의 등장 배경

- 데이터 웨어하수의 보급과 도입

 -> 복잡한 데이터를 다룰수 있는 새로운 데이터 분석법 필요.

 

 

데이터 웨어하우스 data warehouse

- 중앙 축적 데이터베이스

 

데이터 마트 data mart

- 데이터 웨어하우스와 사용자 사이에 존재.

- 데이터 웨어하우스의 한 주제나 복제

 

 

 

 

데이터 과학자

- 윌리엄 클리블랜드 교수 : 데이터 과학은 향상된 데이터 분석을 위해 통계학이 전산과 융합하여 영역을 확장하는과정

-> 데이터 과학자가 되기 위해 데이터 마이닝같은 통계학이나 전산 지식 뿐만아니라 많은 경험과 스토리 텔링,

   문제해결의지, 시각적 전달 시 사용할 디자인 감각 등 종합적 능력 요구.

 

 

 

데이터 마이닝

- 대용량의 데이터로부터 관계, 패턴을 탐색, 모형화하여 지식을 추출하는 과정

 -> 모수적 모형과 알고리즘 접근 방법을 알아야함.

- 다양한 업무분야에 활용되어 의사결정에 도움줌

 

 

관련 분야

1. KDD knowledge Discovery in Database

- 데이터베이스 안에서 지식 발견 과정

2. 기계 학습 Machine Learning

- 인공지능 한분야, 데이터로부터 판단

 

 

 

데이터마이닝 기법

- 지도 학습 : 목표 값이 존재

  -> 분류 : 판별, 로지스틱 회귀, 최근접이웃, 의사결정나무, 나이브 베이즈

  -> 회귀 : 회귀 분석, 최근접 이웃, 신경망

- 비지도 학습 : 목표 값 없음

 -> 군집 : k-means, 계층적 군집분석, 이중 군집법, 유한혼합모형

 -> 연관 :  장바구니분석, 서열분석, 트랜잭션 데이터분석

 -> 가중치 : 신경망

 

 

데이터 마이닝 활용 분야

1. 고객 관계 관리 CRM

2. 신용 평가

3. 품질 개선

4. 부정행위적발

5. 영상 분석

6. 생명정보학

7. 인터넷 비즈니스

 

 

 

 

 

 

300x250

+ Recent posts