ggplot
- hadley wickham 이 개발한 데이터 시각화 패키지로 가장 대중적임
- 쉬운 기능 추가
- +geom_point()과 같은 명령으로 산점도나 boxplot 등을 띄울 수 있다.
ex. geom_point, geom_line, geom_boxplot
- 색상 속성 추가 : aes(color=변수)
- 형태 지정 : aes(shape=factor(변수)
- 크기 변환: aes(size=변수)
facet_grid
- 쪼개기
geom_bar
- 바 그래프 그리기
- 막대 폭 지정 geom_bar(width=.5)
- 플립 시키기 -> x축 범주가 많은 경우 플립 시켜서 보는게 좋다.
plotly
- ggplot 결과물이 인터렉티브 반응형이 되도록 하는 패키지
연습하기
- 목표
결과
쪼개봄의 중요성
- 데이터 간 상관관계를 명확하게 파악할 수 있게 됨
tableau
- 데이터 시각화 프로그램
- 엑셀 데이터를 바로 시각화
- no coding
상관관계 분석
- 상관관계 : 두 변수사이의 선형성적 관계를 나타냄
- 공분산 : 두 변수가 같은 방향으로 움직이는 정도
- 상관계수 : 공분산을 표준편차로 나눈값
* 아웃라이어로 인해 상관계수가 크게 변동 될수 있ㅇ므
=> 아웃라이어를 잘 찾아서 제거해야함
cor 함수
- 상관관계 구함
- 숫자 데이터가 필요 -> str() 함수로 데이터 프레임 확인
- 일부 추출하여 확인한 상관관계 결과
corrplot
- corrplot 상관관계를 plot 해주는 패키지, 함수
상관관계 구분
- spearman의 상관관계 : 단조성
-
문자형 데이터 분석 방법
- 문자형(범주형)자료 분석 -> 빈도 검정
- 카이 제곱 검정
- 정확 검정
- 트렌드 검정
카이제곱 검정 2가지
- 적합도 검정 : 관측값들이 특정 확률을 따르고 있는지 검정
- 독립성 검정 : 요인들이 서로 연관있는지 없는지 검정
- 관측값과 예측값의 차이가 클수록 연관성이 있다고 본다.
독립성 검정
- 두요인이 연관되어있는지 독립적인지 검정
- 귀무가설 H0 : 알고 있던 사실
- 대립가설 H1 : 알고자 하는 사실
카이제곱검정
- 교차 테이블 contingency table에 대한 검정
분할표
- 분할표 contingency table or 교차표 cross tabulation 이라고도 부름
- 2개 이상 문자형 독립변수를 상호관련시켜 한눈에 보이게 한 표
암=양성 | 암=음성 | |
성별=여성 | 12 | 2443 |
성별=남성 | 31 | 5674 |
자유도 degree of freedom
- 자유롭게 움직일수 있는 정도
- ex. 10개의 데이터 중 9개의 값을 알고, 평균 값을 안다. => 모르는 1개의 값이 정해짐
카이제곱 검정 수행
- chisq.test(분할표)
=> 두개의 문자형 변수 데이터에 대한 연관성을 검증
fisher의 정확 검증 exact test
- 기대도수가 5이하인 cell이 25%이상일 떄 사용.
- 카이제곱 통계량이 불안정할수 있으므로 사용
트랜드 검정 trend test
- 독립변수 순위가 있는경우 (고도비만, 비만, 정상체중 등) 순위 증가에 따라
- 종속 변수 비율이 증가/감소 경향 확인함
회귀 분석
1. 모델링 : 단변수 선형 회구, 다변수 선형 회귀
+ 다중공선성 문제(독립 변수간 영향 주어서, 연관성으로 인해 발생)
2. 모델 해석 result
- 계수 해석 -> 표준화 계수 \beta
- 계수의 유의성
3. 모형 설명력 result
- 어떤 (회귀 모형) 모델이 최적의 모델인가?
- 모형 유의성
- 모델 설명령
- R^2, adjusted R^2
4. 모형 선택 selection
- 변수선택 기법
- 모형 비교
5. 예측 prediction
- 잔차(실제값과 예측값의 차이)와 적합치
6.1 가정체크
6.2 이상치
모형의 종류
- 수학적 모형 : input 에 대한 output 오차가 x
- 통계적 모형 : 오차를 가지고 있는 모델
회귀 분석
- 변수들의 관련성을 규명하기 위해 어떤 수학적 모형 가정
- 이 모형과 측정된 변수들을 이용하여 데이터를 추정하는 통계적 방법
- 독립변수로 종속 변수 값을 예측하는데 사용.
단순 선형 회귀 simple linear regression
- 독립변수 1개
다중 선형 회귀 분석 multiple linear regression
- 독립변수 2개
선형 회귀 모델 구하기
- lm 함수 lm(formula= y~x, data= dataframe)
=> cars 내장 데이터 사용한 결과 y절편 -17.579, 기울기 3.932
- abline(lm())으로 plot 결과에 띄울 수 있음
'수학 > 통계' 카테고리의 다른 글
데이터분석 - 9. 회귀모형 (0) | 2020.10.21 |
---|---|
데이터분석 - 8. 베이즈 이론 (0) | 2020.10.20 |
데이터분석 - 6. R 시각화 (0) | 2020.10.20 |
데이터분석 - 5. 확률기초 (0) | 2020.10.19 |
데이터분석 - 4. R그래프들 (0) | 2020.10.19 |