잠깐 배운 통계 과정을 정리해보자
대강 생각나는대로
1. 데이터 읽기
2. 데이터 시각화
3. 데이터 분석
크게 이정도로 정리할 수 있을거같다.
데이터 분석 시 고려사항
- 보정
- 쪼개기
- 아웃라이어 : 아주 이상한 값
- 결측치 : 빠진 값
통계학 분류
- 기술 통계 descriptive statistics : 수집한 데이터 정리, 묘사
-> 평균, 분산, 표준편차, 왜도(기울어진 정도), 첨도(뾰족한 정도)
- 추론 통계 inference statistics : 수집한 데이터로 예측 함
-> 모집단(알고 싶은 전체 집단)에서 샘플링하여 샘플링(표본) 데이터로 추론
표본 추출 기법
- SRS Simple Random Sampling, 층화, 집락, 계통, PPS
추론 통계
- 점 추정
- 구간 추정
탐색적 자료 분석
- 기술 통계 + 시각화 + 기초 통계 분석 => 전체를 탐색적 자료 분석이라 함.
데이터와 변수 구분
- 데이터 구분 : 문자형(순서형, 명목형), 숫자형
- 변수 구분 : 단변수, 이변수, 다변수
기초 통계 분석->상관관계 분석
- 산점도와 상관계수
- 변수 고려
- 비모수적 접근
상관관계 correlation
- 두변수간 연관성, 선형성, 일관성 이 얼마나 강한가
- 상관관계는 -1 ~ 1사이 값으로 0은 직선이 아님 1일수록 직선에 가까워짐
- 분석 방법 : 산점도 보기, 상관게수 보기
요인과 수준(클래스, class)
- 요인 factor : 범주형 데이터 변수(ex. 계절)
- 클래스 class : 한 요인에 존재하는 집단의 갯수(ex. 계절-4개)
문자 데이터 분석
- 카이 제곱 검정 chi sqaure test
- 정확 검정 exact test
- 트랜드 검정 trend test
카이 제곱 검정
- 교차 테이블 contingency table에 대한 검증으로 다음의 2가지 검정이 존재
* 교차 테이블 : 두개 이상의 독립 변수끼리 눈에 보이게 한 표
- 적합도 검정 coodness of fit test : 관측 값들이 특정 확률을 따르는지 확인
- 독립성 검정 : 요인간에 연관관계 여부에 대한 검정. 독립 여부
정확 검정 exact test
- 기대도수가 작은 경우 사용.
트렌드 검정
- 독립 변수에 순위가 존재하는 경우(고도비만, 비만, 정상) 순위 증가에 따라
- 종속변수 비율 증감에 대한 경향 검정
변수 갯수에 따른 선형 회귀 분류
- 단변수 선형 회귀 : 독립 변수가 한개
- 다변수 선형 회귀 : 독립 변수가 여러개인 경우 선형 회귀
회귀 분석
- 수학적 모형을 가정하고, 이 모델로부터 데이터를 추정하는 기법
- 선형 회귀 모델은 OLS 상최소제곱법으로 만듬
다중공산성 문제
- 독립변수가 여러개인 경우 독립 변수간에 상관관계를 가지는 문제
=> 상관관계를 갖는 독립변수를 조합하여 하나로 만들거나 하나를 없앰
확률, 여사건, 오즈, 로짓, 오즈비
약과 생존 여부에 관한 오즈비
로지스틱 회귀분석
- 링크 함수 f(X) 대신 로짓을 사용한 회귀식
오즈비 구하기
- 일어날 확률에 대한 오즈/일어나지 않을 확률에 대한 오즈
전처리
로지스틱 회귀 분석기 학습 과정
- family 파라미터로 로지스틱 or 포아송 등 회귀분석기 적용
로지스틱 회귀분석 모델 해석
moonBook 라이브러리의 오즈비 플롯
- ORplot(모델)
평가 및 교차 테이블
- ifelse로 0.5넘으면 1 아니면 0으로 판단
- table()함수로 교차 테이블 contingency table 확인
* 카이제곱 검증 -> 교차테이블 검증
caret 라이브러리의 confusionMatrix 함수
- 혼동행렬, 통계값들 출력
p value(probabilistic value)
- 유의 확률 significance probability이라고도 부름
- 귀무가설이 맞다고 가정할때 얻은 결과보다 극단적 결과가 실제 관측될 확률
- 0 ~ 1사이 값
귀무 가설 null hypothesis
- 또는 영가설이라 부르며 통계학에서 처음부터 버릴것을 예상하는 가설
- 의미없는 경우/실제 있기힘든 경우에 대한 가설
decision tree 의사결정 나무 학습법
- 트리 구조를 이용한 의사 결정 학습법
1) 어느 변수를 가장 먼저 분류해야하는가?
2) 변수 어느지점에서 분류해야할까?
- 엔트로피, 지니계수 등 활용 : 무질서도
=> 모든 변수를 평가해서 무질서도를 가장 낮출수 있는 변수를 맨위에서 분기
3) 언제까지 분류해야하는가 proning
결정트리 평가
- 트리 모델 생성 후 플로팅
- 예측 후 평가
SVM Support Vector Machine
- 마진을 가장 크게하는 분류 경계면 decision boundary을 찾음
- 2차원 보다 다차원에서 고차원 평면 hyperplnae으로 잘분할
SVM 평가
- SVM 모델로 predict 시 확률이 아니라 1, 0로 나와 중간 과정은 주석처리
- 바로 confusionmatrix로 확인
앙상블 학습법
- 머신러닝에서 완벽한 모형은 찾기 힘듬 -> 튜닝(파라미터 조절)을 해도 힘듬
- 여러 모델을 활용하여 더 개선된 결과를 획득
랜덤 포래스트
- 트리들의 집합
- 임의의 트리들을 사용
- 가장 잘 분류하는 트리들의 집합을 구함
- 평가
ROC 커브
- x축에 1- 특이도specificity, y축에 민감도 sensitivity
- 0.8 정도면 좋다.
'수학 > 통계' 카테고리의 다른 글
데이터분석 - 11. 확률기초 2 (0) | 2020.10.21 |
---|---|
데이터분석 - 11. 확률기초 (0) | 2020.10.21 |
데이터분석 - 9. 회귀모형 (0) | 2020.10.21 |
데이터분석 - 8. 베이즈 이론 (0) | 2020.10.20 |
데이터분석 - 7. 시각화 2 (0) | 2020.10.20 |