728x90

ggplot

- hadley wickham 이 개발한 데이터 시각화 패키지로 가장 대중적임

- 쉬운 기능 추가

- +geom_point()과 같은 명령으로 산점도나 boxplot 등을 띄울 수 있다.

ex. geom_point, geom_line, geom_boxplot

 

- 색상 속성 추가 : aes(color=변수)

- 형태 지정 : aes(shape=factor(변수)

 

- 크기 변환: aes(size=변수)

 

 

 

 

 

facet_grid

- 쪼개기

 

 

 

 

geom_bar

- 바 그래프 그리기

- 막대 폭 지정 geom_bar(width=.5)

- 플립 시키기 -> x축 범주가 많은 경우 플립 시켜서 보는게 좋다.

 

 

 

plotly

- ggplot 결과물이 인터렉티브 반응형이 되도록 하는 패키지

 

 

 

 

 

 

 

 

 

 

 

연습하기

- 목표

 

 

 

결과

 

쪼개봄의 중요성

- 데이터 간 상관관계를 명확하게 파악할 수 있게 됨

 

 

 

 

tableau

- 데이터 시각화 프로그램

- 엑셀 데이터를 바로 시각화

- no coding

 

 

상관관계 분석

- 상관관계 : 두 변수사이의 선형성적 관계를 나타냄

- 공분산 : 두 변수가 같은 방향으로 움직이는 정도

- 상관계수 : 공분산을 표준편차로 나눈값

* 아웃라이어로 인해 상관계수가 크게 변동 될수 있ㅇ므

 => 아웃라이어를 잘 찾아서 제거해야함

 

 

cor 함수

- 상관관계 구함

- 숫자 데이터가 필요 -> str() 함수로 데이터 프레임 확인

 

- 일부 추출하여 확인한 상관관계 결과

 

 

 

corrplot

- corrplot 상관관계를 plot 해주는 패키지, 함수

 

 

상관관계 구분

- spearman의 상관관계 : 단조성

 

 

 

 

문자형 데이터 분석 방법

- 문자형(범주형)자료 분석 -> 빈도 검정

- 카이 제곱 검정

- 정확 검정

- 트렌드 검정

 

 

 

카이제곱 검정 2가지

- 적합도 검정 : 관측값들이 특정 확률을 따르고 있는지 검정

- 독립성 검정 : 요인들이 서로 연관있는지 없는지 검정

- 관측값과 예측값의 차이가 클수록 연관성이 있다고 본다.

 

 

독립성 검정

- 두요인이 연관되어있는지 독립적인지 검정

- 귀무가설 H0 : 알고 있던 사실

- 대립가설 H1 : 알고자 하는 사실

 

 

카이제곱검정 

- 교차 테이블 contingency table에 대한 검정

 

분할표

- 분할표 contingency table or 교차표 cross tabulation 이라고도 부름

- 2개 이상 문자형 독립변수를 상호관련시켜 한눈에 보이게 한 표

  암=양성 암=음성
성별=여성 12 2443
성별=남성 31 5674

 

 

자유도 degree of freedom

- 자유롭게 움직일수 있는 정도

- ex. 10개의 데이터 중 9개의 값을 알고, 평균 값을 안다. => 모르는 1개의 값이 정해짐

 

 

카이제곱 검정 수행

- chisq.test(분할표)

 => 두개의 문자형 변수 데이터에 대한 연관성을 검증

 

 

fisher의 정확 검증 exact test

- 기대도수가 5이하인 cell이 25%이상일 떄 사용.

- 카이제곱 통계량이 불안정할수 있으므로 사용

 

 

 

 

트랜드 검정 trend test

- 독립변수 순위가 있는경우 (고도비만, 비만, 정상체중 등) 순위 증가에 따라

- 종속 변수 비율이 증가/감소 경향 확인함

 

 

 

 

 

회귀 분석

1. 모델링 : 단변수 선형 회구, 다변수 선형 회귀

 + 다중공선성 문제(독립 변수간 영향 주어서, 연관성으로 인해 발생)

2. 모델 해석 result

 - 계수 해석 -> 표준화 계수 \beta

 - 계수의 유의성

3. 모형 설명력 result

 - 어떤 (회귀 모형) 모델이 최적의 모델인가?

 - 모형 유의성 

 - 모델 설명령

 - R^2, adjusted R^2

4. 모형 선택 selection

 - 변수선택 기법

 - 모형 비교

5. 예측 prediction

- 잔차(실제값과 예측값의 차이)와 적합치

6.1 가정체크

6.2 이상치

 

 

 

모형의 종류

- 수학적 모형 : input 에 대한 output 오차가 x

- 통계적 모형 : 오차를 가지고 있는 모델

 

 

 

회귀 분석

- 변수들의 관련성을 규명하기 위해 어떤 수학적 모형 가정

- 이 모형과 측정된 변수들을 이용하여 데이터를 추정하는 통계적 방법

- 독립변수로 종속 변수 값을 예측하는데 사용.

 

단순 선형 회귀 simple linear regression

- 독립변수 1개

다중 선형 회귀 분석 multiple linear regression

- 독립변수 2개

 

 

 

선형 회귀 모델 구하기

- lm 함수 lm(formula= y~x, data= dataframe)

 => cars 내장 데이터 사용한 결과 y절편 -17.579, 기울기 3.932

- abline(lm())으로 plot 결과에 띄울 수 있음

300x250

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 9. 회귀모형  (0) 2020.10.21
데이터분석 - 8. 베이즈 이론  (0) 2020.10.20
데이터분석 - 6. R 시각화  (0) 2020.10.20
데이터분석 - 5. 확률기초  (0) 2020.10.19
데이터분석 - 4. R그래프들  (0) 2020.10.19

+ Recent posts