다변량 분석
주성분 분석, 인자 분석, 분산분석 등 두 개 이상의 변수들의 관계를 분석하는 모든 통계적 기법
c(a: b)
- a에서 b까지 수 벡터 생성
%/%
- 나누기 연산
%%
- 몫 연산
seq(a, b, length = x)
- a ~ b 사이 10개 간격으로 값 생성
rnorm()
- 난수 생성
- 정규 분포를 따름
ex.1 평균이 10이고, 표준편차가 1인 정규분포를 따르는 난수 10개 생성시
=> rnorm(10, 10, 1)
행렬 생성
- matrix(수열, ncols= 값, byrow=T/F)
- matrix(1, nrow=x, ncol=y)
모든 값이 1인 x y 행렬 생성
서브 행렬 추출
- x가 행렬인 경우
- x[, c(1:3)] : 1 ~ 3열까지 모든 행데이터 추출
전치행렬
- t(행렬)
전치 행렬과 행렬의 곱
- %*%
함수 작성
square = function(x) {x *x}
sqaure(4)
패키지 설치 및 로드
산점도와 상관계수 예시
- 학생 10명의 수학, 물리 점수 사이 상관관계 보기
- 산점도 그리고, 상관계수 보자
- 상관계수는 0.9921232로 수학과 물리 점수사이 강한 선형적 상관관계가 있음을 알 수 있음.
기술 통계량 descriptive statistics 구하기
- 기술통계량 : 통계 데이터를 나타내는 대표적인 통계량들. 평균, 분산, 사분위수, 표준편차, 중앙값 등
엑셀 데이터 읽기
- library(xlsx)
- read.xlsx("경로", 1)
* 여기서 1은 sheet 넘버가 1을 의미
데이터 일부 출력
- head() : 맨위 데이터 일부 출력
기술 통계량 출력
- summary(데이터 프레임) : 변수 그룹별, 평균와4분위수 등 출력
attach(데이터 프레임)
- 데이터 프레임 이름 선언 없이 변수에 접근 가능한 함수
- 이 함수를 사용안하면 데이터프레임$변수명 으로 접근해야함
그룹별 기술 통계량 출력하기
- tapply(기술통계량 구할 값들,그룹,기술통계량)
두 그룹에 대한 기술 통계량을 보고 싶은 경우
- list(그룹 변수1, 그룹 변수2) : 두 그룹에 대한 경우들을 만듬
- table(변수) : 분빈도 보기
두 빈도 변수, 분할표에 대해서 독립성 검증 하기
-> 카이제곱 통계량을 구함.
1. 두 변수에 대한 분할표 작성
2. summary(분할표) 호출
=> 카이제곱 통계량, 자유도, pval(유의 확률, 한계유의기준)을 알수 있음.
성별과 교육 수준에 따른 월 수입 분석
1. 데이터 읽고, 도수 분포표 만들기
2. 교육 별 도수분포표 막대 그림
3. 나이와 월수입에 대한 산점도 그리기
4. 남녀 구별 : 나이와 월 수입에 대한 산점도 그리기
독립변수가 4개인 데이터 회귀 분석
1. 데이터 로드, 회귀 모형 적합
- lsfit(x, y) 함수
2. 잔차와 예측치에 대한 산점도 그리기
'수학 > 통계' 카테고리의 다른 글
다변량분석 - 3. 주성분 분석 (0) | 2020.11.09 |
---|---|
다변량분석 - 2. 다변량 분석과 데이터 시각화 (0) | 2020.11.03 |
회귀모형 - 5. 일반화 선형 모형 (0) | 2020.10.30 |
회귀모형 - 4. 회귀 모형 만들기 (0) | 2020.10.30 |
회귀모형 - 3. 회귀 모형에서 변수 선택 (0) | 2020.10.30 |