데이터분석 - 10. 다양한 분석 방법과 검정

2020. 10. 21. 14:39

728x90

잠깐 배운 통계 과정을 정리해보자

대강 생각나는대로

1. 데이터 읽기

2. 데이터 시각화

3. 데이터 분석

크게 이정도로 정리할 수 있을거같다.

데이터 분석 시 고려사항

- 보정

- 쪼개기

- 아웃라이어 : 아주 이상한 값

- 결측치 : 빠진 값

통계학 분류

- 기술 통계 descriptive statistics : 수집한 데이터 정리, 묘사

-> 평균, 분산, 표준편차, 왜도(기울어진 정도), 첨도(뾰족한 정도)

- 추론 통계 inference statistics : 수집한 데이터로 예측 함

-> 모집단(알고 싶은 전체 집단)에서 샘플링하여 샘플링(표본) 데이터로 추론

표본 추출 기법

- SRS Simple Random Sampling, 층화, 집락, 계통, PPS

추론 통계

- 점 추정

- 구간 추정

탐색적 자료 분석

- 기술 통계 + 시각화 + 기초 통계 분석 => 전체를 탐색적 자료 분석이라 함.

데이터와 변수 구분

- 데이터 구분 : 문자형(순서형, 명목형), 숫자형

- 변수 구분 : 단변수, 이변수, 다변수

기초 통계 분석->상관관계 분석

- 산점도와 상관계수

- 변수 고려

- 비모수적 접근

상관관계 correlation

- 두변수간 연관성, 선형성, 일관성 이 얼마나 강한가

- 상관관계는 -1 ~ 1사이 값으로 0은 직선이 아님 1일수록 직선에 가까워짐

- 분석 방법 : 산점도 보기, 상관게수 보기

요인과 수준(클래스, class)

- 요인 factor : 범주형 데이터 변수(ex. 계절)

- 클래스 class : 한 요인에 존재하는 집단의 갯수(ex. 계절-4개)

문자 데이터 분석

- 카이 제곱 검정 chi sqaure test

- 정확 검정 exact test

- 트랜드 검정 trend test

카이 제곱 검정

- 교차 테이블 contingency table에 대한 검증으로 다음의 2가지 검정이 존재

* 교차 테이블 : 두개 이상의 독립 변수끼리 눈에 보이게 한 표

- 적합도 검정 coodness of fit test : 관측 값들이 특정 확률을 따르는지 확인

- 독립성 검정 : 요인간에 연관관계 여부에 대한 검정. 독립 여부

정확 검정 exact test

- 기대도수가 작은 경우 사용.

트렌드 검정

- 독립 변수에 순위가 존재하는 경우(고도비만, 비만, 정상) 순위 증가에 따라

- 종속변수 비율 증감에 대한 경향 검정

변수 갯수에 따른 선형 회귀 분류

- 단변수 선형 회귀 : 독립 변수가 한개

- 다변수 선형 회귀 : 독립 변수가 여러개인 경우 선형 회귀

회귀 분석

- 수학적 모형을 가정하고, 이 모델로부터 데이터를 추정하는 기법

- 선형 회귀 모델은 OLS 상최소제곱법으로 만듬

다중공산성 문제

- 독립변수가 여러개인 경우 독립 변수간에 상관관계를 가지는 문제

=> 상관관계를 갖는 독립변수를 조합하여 하나로 만들거나 하나를 없앰

확률, 여사건, 오즈, 로짓, 오즈비

약과 생존 여부에 관한 오즈비

로지스틱 회귀분석

- 링크 함수 f(X) 대신 로짓을 사용한 회귀식

오즈비 구하기

- 일어날 확률에 대한 오즈/일어나지 않을 확률에 대한 오즈

전처리

로지스틱 회귀 분석기 학습 과정

- family 파라미터로 로지스틱 or 포아송 등 회귀분석기 적용

로지스틱 회귀분석 모델 해석

moonBook 라이브러리의 오즈비 플롯

- ORplot(모델)

평가 및 교차 테이블

- ifelse로 0.5넘으면 1 아니면 0으로 판단

- table()함수로 교차 테이블 contingency table 확인

* 카이제곱 검증 -> 교차테이블 검증

caret 라이브러리의 confusionMatrix 함수

- 혼동행렬, 통계값들 출력

p value(probabilistic value)

- 유의 확률 significance probability이라고도 부름

- 귀무가설이 맞다고 가정할때 얻은 결과보다 극단적 결과가 실제 관측될 확률

- 0 ~ 1사이 값

https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0

귀무 가설 null hypothesis

- 또는 영가설이라 부르며 통계학에서 처음부터 버릴것을 예상하는 가설

- 의미없는 경우/실제 있기힘든 경우에 대한 가설

decision tree 의사결정 나무 학습법

- 트리 구조를 이용한 의사 결정 학습법

1) 어느 변수를 가장 먼저 분류해야하는가?

2) 변수 어느지점에서 분류해야할까?

- 엔트로피, 지니계수 등 활용 : 무질서도

=> 모든 변수를 평가해서 무질서도를 가장 낮출수 있는 변수를 맨위에서 분기

3) 언제까지 분류해야하는가 proning

https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC_%ED%95%99%EC%8A%B5%EB%B2%95

결정트리 평가

- 트리 모델 생성 후 플로팅

- 예측 후 평가

SVM Support Vector Machine

- 마진을 가장 크게하는 분류 경계면 decision boundary을 찾음

- 2차원 보다 다차원에서 고차원 평면 hyperplnae으로 잘분할

SVM 평가

- SVM 모델로 predict 시 확률이 아니라 1, 0로 나와 중간 과정은 주석처리

- 바로 confusionmatrix로 확인

앙상블 학습법

- 머신러닝에서 완벽한 모형은 찾기 힘듬 -> 튜닝(파라미터 조절)을 해도 힘듬

- 여러 모델을 활용하여 더 개선된 결과를 획득

http://itwiki.kr/w/%EC%95%99%EC%83%81%EB%B8%94_%ED%95%99%EC%8A%B5

랜덤 포래스트

- 트리들의 집합

- 임의의 트리들을 사용

- 가장 잘 분류하는 트리들의 집합을 구함

- 평가

ROC 커브

- x축에 1- 특이도specificity, y축에 민감도 sensitivity

- 0.8 정도면 좋다.

300x250

저작자표시

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 11. 확률기초 2 (0)	2020.10.21
데이터분석 - 11. 확률기초 (0)	2020.10.21
데이터분석 - 9. 회귀모형 (0)	2020.10.21
데이터분석 - 8. 베이즈 이론 (0)	2020.10.20
데이터분석 - 7. 시각화 2 (0)	2020.10.20

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

집밖은 위험해

데이터분석 - 10. 다양한 분석 방법과 검정

'수학 > 통계' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역