728x90

시계열 분석

- 시계열 : 시간의 변화에 따라 변동하는 변수들

- 시계열 분석 : 시계열 데이터를 이용하여 예측하는 방법

- 접근 방법 : 시간영역분석, 주파수 영역 분석

- 정상성 : 시간에 따라 변동해도 분산이 일정한 성질

 

시계열 데이터의 패턴

- 추세 : 데이터가 점점 증가 혹은 감소해나가는 형태

- 계절성 : 계절에 따라 영향을 받는 패턴

- 주기성 : 일정 주기를 갖는 패턴 ex. 경졔

- 자기 상관 : 시계열 데이터 사이 선형적사이 선형적 관계

 

 

시계열 분석 모형

1. 선형 회귀 모형

- 아래는 단순 선형회귀 모형과 다중 선형회귀모형

- 최소 제곱법을 통해 구함. 오차 제곱 합이 최소가 되는 beta들을 구하여야함.

 

2. 자기회귀 모형 AR Auto Correlation 모형

- 현 시점을 과거 데이터들의 선형 결합으로 구하는 모형

 

3. 이동평균 모형 MA Moving Average 모형

- 각 시간들의 데이터의 평균으로 현 시점을 추정하는 모형

 

4. 자기회귀 평균이동 모형 ARMA Auto Regressive Moving Average 모형

- AR, MA모형의 결합으로 시간별 평균 데이터로 회귀로 추정하는 모형

 

5. 자기회귀 누적이동평균 모형 ARIMA Auto Regressive Intergrated Moving Average 모형

- ARMA 모델은 ARMA 모델에 적분 연산을 통해 과거 데이터들의 추세성 까지 반영한 모델

300x250
728x90

가설 hypothesis

- 추정량에 대한 검정을 위한 명제

- 추정량이 올바른지 검정하는 과정을 가설 검정이라고 함.

- 귀무 가설 null hypothesis H0 : 발생할 확률이 희박하다고 생각되는 가설로, 일어날지 검증하고자 하는 가설

- 대립 가설 alternative hypothesis H1 : 귀무 가설에 반대되는 가설.

 

 

가설 검정의 오류

- 제 1종 오류(유의 수준) : 귀무 가설이 참이지만, 기각할 확률

- 제 2종 오류 : 귀무 가설이 거짓이지만, 채택할 확률

 

 

검정 통계량과 기각역

- 귀무가설의 채택 여부를 결정할때 사용하는 통계량

- 기각역 rejection(critical) area  : 가설의 기각 여부를 판단하기 위한 영역. 검정통계량이 기각역에 속하면 귀무가설기각

- 귀무 가설에 따른 검정 통계량과 기각역의 범위(표본이 클떄, 평균 검정 시)

 

 

 

유의확률 p  value

- 귀무 가설을 기각할수 있는 최소의 유의 수준으로 한계 유의 수준이라고도 함.

- 유의 확률 p value가 유의 수준 alpha(일반적으로 0.05)보다 작은 경우 귀무가설을 기각

 

 

 

 

카테고리형 데이터 분석하기(카이 제곱 검정)

- 카테고리마다 도수가 주어질때, 카테고리 간의 유의미한 차이가 존재하는지 검정을 통해 분석

- 적합도 검정, 동질성 검정, 독립성 검정 등 존재

- 카이제곱 통계량을 이용하므로 카이 제곱 검정이라고도 함.

- 적합도 검정 : 개별 카테고리가 유의미한 수치를 가지고 있는지에 대한 가설 검정

- 동질성 검정 : 카테고리 간에 유의미한 차이가 존재하지 않은지(동질적인지)를 다루는 가설에 대한 검정 

- 독립성 검정 : 카테고리 사이 독립, 의존 여부에 대한 검정

300x250
728x90

 

표본 분포 sample distribution

- 통계량에 대한 확률 분포

- 모집단을 알기 위해 모집단으로부터 샘플, 표본을 추출하여 모집단의 모수를 추정한다.

- 통계량은 표본에 대한 함수로 표본 평균과 표본 분산 등

- 표본 평균과 모집단이 정규분포를 따를때 표본 평균의 통계량

- 표본 분산과 표본 분산의 통계량

 

중심극한정리

- 표본 평균 bar x의 분포는 표본이 많을떄, 모집단의 분포와 상관없이 정규 분포를 따름.

 

 

 

점추정

- 표본으로부터 모수를 추정하는 과정

- 추정자/추정량 estimator : 표본으로부터 모수 추정을 위한 함수 -> 표본 평균, 표본 부난 등 

- 추정치 estiamte : 추정자로 구한 통계량 값

- 점 추정 방법으로 적률 추정법과 가능도 함수를 이용한 방법 등이 존재.

 

 

 

구간 추정

- 점추정과 표본으로부터 모수를 추정하는 방법이나 추정한 모수에 대해 신뢰할수 있는 구간도 같이 구하는 방법

- 일반적으로 유의 기준 alpha = 0.05로 설정하여 95% 확률로 신뢰구간이 모수를 포함하도록 구간을 구함.

 

모평균 구간 추정

- 표본으로 추정한 모평균이 신뢰 구간에 100(1-alpha)%에 들어갈 확률은 다음과 같이 얻는다.

-> 아래는 표본이 충분히 크고, 모분산을 아는경우,

* 표본이 작은 경우는 t분포를 이용하여, 모분산을 모르는 경우 표본 분산을 이용하여 구한다.

 

 

모평균 구간 추정

- 학생 30명을 뽑아 성정 평균이 80, 분산이 8인경우 성적 평균의 95% 신뢰 수준의 신뢰 구간을 구해보자

 

 

 

 

모분산 구간추정

- 모분산 sigma2에 대한 구간 추정을 위해, 자유도가 n - 1인 카이제곱 분포를 이용

 

 

 

 

 

 

두 모집단의 평균차이에 대한 신뢰 구간 구하기

- 표본이 크고 모집단 표준편차를 아는 경우/표본이 작고 모집단 표준편차를 모르는경우/표본이 같고 모집단 표준편차가같은경우

- 위 세가지 경우로 나누어서 구할 수 있다.

 

1. 표본이 크고, 모집단의 표준편차를 아는 경우 평균 차이에 대한 신뢰구간 구하기

2. 표본이 작고, 모집단의 표준 편차를 모르는 경우 평균 차이에 대한 신뢰구간 구하기

3. 표본이 작고, 표준 편차가 같아 공통 분산 pooled variance S_sigma_p를 갖는 경우

 

 

 

 

 

표본의 최소 크기

- 유의 수준 alpha에서 정확도 d를 보장하는 표본의 최소 크기는 아래의 공식으로 구할 수 있다.

 

 

추정량 결정하기

- 추정량 : 추정자 estimator를 통해 얻은 모수의 추정값

- 좋은 추정량 estimates를 구하기 위해 다음의 세가지 기준들이 있음.

- 불편성(불편향성) : 추정량의 기대치가 모수에 가까워야 한다.

- 효율성 : 추정량의 분산이 작아야 한다.

- 일치성 : 표본이 커질수록 추정량이 모수에 가까워져야 한다.

 

 

 

 

 

300x250
728x90

통계학

- 주어진 데이터로부터 의미있는 정보를 추론하고 의사결정에 활용하기 위한 학문

- 추론 이론 : 빈도론자와 베이지안으로 구분

- 데이터의 불확실/불안정/변동성을 고려하여 지식을 일반화함.

 

 

 

 

용어

- 시행 trial : 실험을 수행하는 행위

- 원소 element : 실험의 시행 결과

- 모집단 population : 알고자 하는 전체 집단으로 관심 대상

- 표본 공간 sample space : 모든 원소들의 집합

- 사건 event : 표본 공간의 부분집합.

- 확률 변수 Random Variable : 표본 공간에 발생한 원소들(사건)을 하나의 정수나 실수로 맵핑한 변수.

- 확률 : 확률 변수가 주어질때, 발생할 가능성

- 확률 분포 probability distribution : 확률 변수의 특성을 함수로 나타낸 분포.

- 이산 확률 분포 descrete pd : 확률 변수가 이산적인 확률 분포

- 확률 질량 함수 pmf : 이산 확률 변수의 확률을 나타내는 함수

- 통계량 : 표본을 이용하여 구한 함수

 

 

통계적 추론의 분야

- 확률 이론 : 확률 분포, 표본 분포

- 추론 이론 : 추정법 estimation, 검정법 test

 

 

 

베르누이 분포 bernoulli distribution

- 베르누이 시행을 따르는 이산 확률 분포

- 베르누이 시행 : 상호 배반인 사건인 시행

 

 

이항 분포 binomial distribution

- 베르누이 시행을 독립적으로 여러번 했을때 성공 횟수를 확률 변수 X로 하는 이산확률분포

 

 

 

 

포아송 분포 poison distribution

- 단위 시간 당 일어나기 힘든 사건이 발생한 횟수를 확률 변수 X로 할때의 확률 분포

- 이항 분포가 n이 매우 크고, p가 매우 작은 경우 포아송 분포를 따르게 된다. (lambda = np로 정의)

- 한 시간동안 평균 2명이 대기줄에서 나가는데, 한시간 동안 한명도 나가지 못할 확률

 

 

 

 

기하 분포 geometric distribution

- 첫번째 성공이 일어날떄까지 시행 횟수를 확률 변수 X라 할떄의 확률분포

 

 

 

 

 

 

 

 

 

정규분포 normal distribution

- 평균 mu를 중심으로 분산 sigma2를 갖는 종모양 형태의 확률 분포

- 정규분포를 따르는 모집단에서 추출한 표본들의 분포로 t분포, 카이제곱분포, F분포 등 존재

 

 

 

 

t 분포

- 모집단이 정규분포를 따르나 모표준편차를 모를때, 표본 분산으로 정규화된 확률 표본 X_i는 t분포를 따름.

 * 표본의 크기가 30개 보다 작은경우 사용.

- t검정(평균 검정)에서 사용.

- 모표준편차로 표준화 한 경우

- 표본분산 S2로 표준화 한경우의 확률 분포 -> 자유도 (n-1)인 t분포

 

 

 

 

 

 

지수 분포 exponential distribution

- 사건이 처음 발생할때까지 소요되는 대기시간을 확률변수 X라 할떄의 확률분포

 

감마분포 gamma distribution

- r번째 사건이 발생할떄까지 대기시간 X를 확률 변수로할때의 확률 분포

 

 

카이제곱 분포

- 모분산 추정, 적합도 검정, 교차표 검정에 사용되는 확률 분포

- 왼쪽으로 기울어진 형태이며, 자유도가 커질수록 정규분포와 유사해짐.

- 감마 분포의 특수한 형태 : r= n/2, lambda = 1/2인 경우. -> X ~ chi2(n)을 따름.

- 정규 분포를 따르는 확률 변수를 표준화한 것을 제곱하면 chi2(1)을 따른다.

 

 

F 분포

- 두 모집단의 분산의 비를 확률 변수로 하는 확률 분포

- F 검정과 분산 분석에서 사용됨.

 

 

300x250
728x90

상관 분석 correlation analysis

- 두 변수 사이의 상관 관계를 분석하는 방법

- 관계를 시각적으로 보기 위해 산점도 scatter plot를 이용

- 수치적 지표로 상관 계수 correlation coefficient가 있음.

 

피어슨의 상관계수

- 공분산을 두 변수의 표준편차로 표준화 시킨 값.

- 공분산 : Cov(x, y) = E(xy) - E(x)E(y)

- 상관계수 : Corr(x, y) = Cov(x, y)/(std(x) * std(y))

- -1에서 1사이의 값을 가지며, |corr|이 1에 가까울수록 강한 선형 관계를 가짐.

 

 

 

 

거리

- 데이터 간 차이의 정도

- 거리의 종류 : 유클리디안 거리, 맨해튼 거리, 마할라노비스 거리, 쳬비셰프거리, 민코프스키 거리 등

- 유클리디안 거리 : 일반적으로 사용하는 거리.

- 쳬비셰프 거리 : 모든 거리들 중에서 가장 큰 거리

- 맨해튼 거리 : 각 축과 평행하게 직진하여 얻은 거리

- 민코프스키 거리 : m차원 민코프스키 공간의 거리

 

 

 

 

다중공선성 multicollinearity

- 다중 회귀 분석에서 독립 변수들이 서로 상관관계를 가지는 성질

- 변수들 간에 강한 상관 관계를 갖는 경우 회귀 계수의 분산을 키워 문제가 발생

 

 

 

분산팽창지수 Variance Inflation Factor; VIF

- 다중공선성을 측정하기 위한 지표

 => 다중공선성을 일으키는 독립변수를 제거하여 개선

* R squared 는 모형의 적합도를 나타내는 결정계수

 

 

R sqaured   Coefficient of determination

- 모형이 얼마나 설명령을 잘 가지고 있는가를 나타내는 계수로 0 ~ 1값.

 

 

 

다중 공선성 문제 판단하기

- 상관관계의 유의성을 검증하여 유의성이 있다면 다중공선성 문제 의심을 해야함.

- VIF가 10이상 시 다중 공선성 문제가 있음.

 

 

300x250
728x90

확률적 표본 추출

- 확률에 근거하여 추출하는 방법

- 단순무작위, 층화표본, 집락표본, 계통표본 추줄 방법 등이 있음.

- 단순무작위 추출 방법 : 임의로 표본들을 추출

- 층화 표본 추출 방법 : 층을 나누어 독립적으로 임의 추출하는 방법. 층간 이질성을 가짐.

- 집락표본 추출 방법 : 집락으로 분할하여 무작위로 집락을 추출후 조사하는 방법. 특정 그룹위주 조사

- 계통 표본 추출 방법 : 목록에서 일정 순서, 간격대로 요소들을 추출하는 방법.

 

 

비확률 표본 추출

- 확률을 알고있음을 가정하에 다루는 표본 추출 방법

- 할당 표본, 유의 표본, 임의 표본, 누적 표본 추출 방법 등이 있음.

- 할당 표본 추출 : 층화 표본과 유사하나 비율을 고려하여 추출함.

- 유의 표본 추출 : 주관적 의도에 따라 추출하는 방법

- 임의 표본 추출 : 임의로 편하게 추출

- 누적 표본 추출 방법 : 임의로 선정한 소수의 표본들에게 추천을 받아 표본들을 선정해 추출해나가는 방법.

 

300x250
728x90

탐색적 데이터 분석 EDA Explorary Data Analysis

- 수집된 데이터를 다양한 관점에서 살펴보고 의미를 이해하는 과정

 

데이터 통계 분석 방법들

1. 종속 변수 갯수에 따른 분류

- 단변량 분석

- 다변량 분석

2. 종속관계에 대한 분석들

- 카이 제곱

- 분산 분석

- 판별 분석

- 회귀 분석

3. 상호 관계에 대한 분석

- 요인 분석

- 군집 분석

ref : fullofjoy1108.tistory.com/24

 

 

 

 

빈도 분석 frequency analysis

- 카이 제곱 검정 이용

- 데이터들이 도수 분포표 상에서 어떤 분포 특성을 가지는지 파악에 사용

 => ex. 다음 가정 검증에 사용 : 한달간 여행을 가는 사람 수는 지역에 따라 차이가 있다.

 

교차 분석 crosstab analysis

- 교차표를 이용하여 변수간 독립성과 관련성 분석

- 카이 제곱 검정

=> 성별과 전공 선택 문항 간의 관계

 

분산 분석 Analysis of Variance

- 두 이상 집단을 분석하는 경우, 분산의 비로 만든 F 분포로 가설검정 하는 방법

- 각 집단의 모분산/모평균 차이가 유의한지 검정.

 

평균 분석 T-Test

- 표본 평균/표본평균의 차가 유의미한지 등을 검증 하는 방법

ex. 어느 생물의 평균 체온은 27.3도이다. 

 

판별 분석 discriminants analysis

- 판별식을 이용하여 종속 변수를 판별하는 분석 방법

 

회귀분석 regression analsysis

- 독립 변수와 종속 변수 사이 영향력을 파악하여, 새 데이터가 주어질때 종속변수를 예상하는 분석

 

상관관계 분석 correlation anlaysis

- 변수들 사이에 상관성을 분석하는 기법

- 상관 계수로 선형적 상관관계가 존재하는지 파악.

 

 

요인 분석 factor analysis

- 서로 연관성이 있는 변수들을 묶어 요인이라는 새로운 변수로 만들어 축소시키는 분석기법

 

주성분 분석 primary component analysis

- 요인 분석과 마찬가지로 변수의 수를 효과적으로 줄이는 방법

- 요인 분석은 연관성 있는 변수들을 묶어 요인으로 만들었으나 주성분 분석은 다름

- 주성분 분석은 변수 값들의 분산을 직교성을 이용하여 최대한 보존하도록 하여 차원을 축소시킴.

 

 

군집 분석 cluster analysis

- 어떤 대상들을 군집들로 분할하여 다루는 방법

 

시계열 분석 time series analysis

- 시간 흐름에 따라 데이터가 어떤 변화 추이를 보이는지 다루는 분석방법

300x250
728x90

통계량 추정

- 점 추정 : 모수에 대한 추정

- 구간 추정 : 모수에 대한 추정과 모수를 포함하고 있을것이라 신뢰 할수 있는 범위에 대한 추정

 

 

신뢰 구간 추정

- 표본수가 많은 경우와 표본수가 적은 경우로 구분해서 볼수 있음.

- 모평균 mu에 대하여 100(1- alpha) % 신뢰구간 추정은 아래와 같이 할수 있다.

 

1. 표본 수가 많은 경우 

- 모집단이 정규분포를 따르고 모분산을 알때

 

- 모집단이 정규분포를 따르지 않으나 모분산을 알때,

 -> 표본이 많으므로 중심극한정리에 따라 정규분포를 따름.

 

2. 표본이 적은 경우

- 표본 평균 bar_x에 대한 구간 추정

- 표본 분포가 적을때, 표본 평균을 표준화하면 t분포를 따르게 됨.

 

 

 

 

 

 

 

 

 

 

평균 검정

- 평균과 관련한 귀무가설과 대립가설이 주어질때, 귀무가설의 기각 채택여부를 다루는 검정

 => t검정이라고도 부름,  검정 통계량을 구하여, 기각역에 부합하는지 다룸

- 단일 표본에서의 모평균에 대한 검정 -> ex. 체온의 평균에 대한 가설이 주어질때 주장할수 있는지.

- 두 독립 표본에 대한 평균 검정 -> ex. 두 약성분의 효과에 차이가 존재하는지 비교.

- 대응된 표본에서의 평균 검정 -> ex. 앞다리 평균, 뒷다리 평균에 차이가 존재한다라는 가설

 

 

 

 

 

 

 

 

 

단일 표본 평균 검정의 예시

1. 표본이 큰경우 : 기각역은 표준정규분포를 따르며, 검정 통계량 z0를 사용.

- 다음의 귀무 가설과 대립 가설, 그리고 49개 표본으로 부터 표본 평균이 주어질때

- 위 통계량으로 구한 검정 통계량

- 유의수준 5%에서 기각역

- 검정 통계량이 기각역을 초과하므로 귀무가설 H0에 대한 검정통계량이 기각역에 포함되므로 

 귀무가설은 기각.

 

 

 

2. 표본이 작은 경우 : 기각역은 t분포를 따르며, 검정통계량 t0를 사용.

- 다음의 귀무가설과 대립가설, 그리고 9개의 표본으로 구한 통계량이 주어질때

- 검정통계량 t0는 다음과 같다.

- 유의 수준 alpha = 0.05에서 기각역은 다음과 같다.

 => 검정 통계량 t0는 기각역에 포함되므로 본 귀무가설은 기각된다.

 

 

 

 

 

'

 

두 표본이 주어질때 차이에 대한 평균 검정(두 집단의 표본 평균이 같은가)

- 두 표본의 차에 대한 표준화된 분포는 아래와 같다.

 * Sp는 공통 표준 편차

 

 

 

- 다음의 귀무가설과 대립가설, 그리고 통계량들이 주어질때,

- 표본이 많은 경우 검정 통계량 z0

- 유의 수준 alpha = 0.05에서 기각역

 => 검정 통계량이 기각역에 속하므로 본 귀무가설은 기각한다.

 => 두 집단의 표본 평균에는 유의미한 차이가 존재한다.

 

 

300x250
728x90

통계학의 분류

1. 데이터 활용 방안에 따른 분류

- 기술 통계학 descriptive statistics :  데이터를 통계적으로 어떻게 표현할 것인가에 대한 학문

- 추론 통계학 inference statistics : 데이터로 부터 의미있는 사실을 추론해 나가는 방법에 대한 학문

 

2. 모수의 여부에 따른 분류

- 모수 통계학 parameter statistics : 모집단의 분포 성질을 따르는 표본들로 부터 모수를 추정해나가는 학문

- 비모수 통계학 nonparameteric statistics : 모집단의 분포 성질을 모르는 표본들로부터 모집단의 특성을 추정하는 학문

 

 

통계학 기본 용어

- 모집단 population : 알고자 하는 전체 집단으로 관심 대상.

- 표본집단 sample : 모집단을 추론하기 위해 구한 부분집합

- 모수 parameter : 모집단의 성질을 나타낸 수치

- 통계량 statistics : 표본 집단에 대한 함수로 대표적으로 표본 평균과 표본 분산 등이 있음.

 

 

 

변수의 종류들

1. 기능에 따른 분류

- 독립 변수 independent variable : 설명 변수라고도하며, 종속변수에 영향을 주는 변수

- 종속 변수 dependent variable : 반응 변수라고도 하며, 우리가 알고자하는 변수

2. 성질에 따른 분류

- 연속 변수 continusous variable : 연속된 값을 갖는 변수

- 이산 변수 discrete variable : 이산 값을 가지는 변수

- 가변수 dummy variable : 카테고리형 변수를 독립 변수로 사용시 원핫 인코딩 방식으로 변환한 변수

 

 

 

 

이상치 판단 방법

- 이상치 : 데이터 분포로부터 일정 범위를 벗어난 데이터

- 상자 그림으로 쉽게 확인 가능

- 이상치 범위는 하한 Q1 - 1.5 x IQR, 상한 Q3 + 1.5 x IQR, IQR = Q3 - Q1

 

 

기초 통계량 

- 평균 mean : 데이터 총합/데이터 갯수

- 중위수 median : 데이터의 중앙에 위치한 값

- 4분위수 Quartile : 데이터의 25%, 50%, 75%, 100%에 위치한 값

- 4분위수 범위 IQR InterQuartile Range : Q3 - Q1

- 최빈수 mode : 가장 많은 빈도를 가진 값

- 분산 variable : 데이터의 퍼진 정도

- 표준편차 standard deviation : 분산에 제곱근을 씌운값

- 변동계수 CV coefficient of variance : 표본 평균에 대해 흩어진 정도. CV = 100 * S/bar_x

https://m.blog.naver.com/moses3650/220880815585

 

300x250
728x90

앙상블 모델

- 서로 다른 여러개의 모델들을 생성 후. 모델의 결과를 조합하여 최종 결과를 얻는 방법

- 주로 다수결 voting이 사용되었었음.

- 단순 다수결 : 배깅, 랜덤 포레스트

- 가중 다수결 : 성능이 우수한 분류기에 가중치를 추가 부여. 부스팅

 

 

 

앙상블 모델의 장점

- 분류기들이 다양함

- 부트스트랩 : 반복 확률 랜덤 추출. 기존의 훈련 데이터를 임의 추출하여 훈련용으로 사용. 모델에 학습 후 집계

                   -> 배깅에 사용, 서로 다른 데이터 집합으로 모델을 학습하는 효과

- 트리 모델을 학습 시 분할 방법을 다르게 하여 다양한 모델을 만들 수 있음.

- 후보 분할 임계치를 임의의 부분 변수들을 선정하여 분할 개선도를 최대화 시킴(랜덤 포래스트)

 

 

배깅 bagging

- bootstrap aggregation의 약어

- 부트 스트랩 데이터를 여러개 생성. 각 분류기에 학습하여 결과를 앙상블 함.

- 트리 모델의 단점 : 최초에 선정된 변수에 따라서 불완정성이 존재. -> 이후 모형이 완전히 달라질수 있음.

- 앙상블, 배깅은 트리 모델의 불안정성을 크개 개선시킴.

 

 

 

부스팅 boosting

- 1997년 프로인드와 샤파이어가 개발한 앙상블 기법

- 배깅과 마찬가지로 여러개의 분류기 생성, 결과 결합을 하나 분류기 생성과 결과 결합방식이 다름.

- 분류기를 시퀀스 형태로 배치. 오분류 데이터에 가중치를 높게 선정

 -> 다음 분류기는 가중치 높은 값의 오분류를 줄이도록 학습

 -> 계속 오분류 되는 데이터들은 큰 관심을 가지고 분류할수 있게 됨. 

=> 잘 분류되지 않은 부분을 계속 개선시켜나가는 방법이라 할수 있음.

  *  아다부스트(AdaBoost: adaptive boosting)가 많이 사용됨

 

 

랜덤포레스트 random forest

- 배깅, 부스팅보다 예측력이 좋음

- 트리 모델 생성 시, 임의성을 높이기 위해 부트스트랩과 입력변수를 임의 추출하여 결합한 방법

 

 

 

 

300x250

+ Recent posts