728x90

 다변량 분석

주성분 분석, 인자 분석, 분산분석 등 두 개 이상의 변수들의 관계를 분석하는 모든 통계적 기법

 

 

 c(a: b)

- a에서 b까지 수 벡터 생성

 

%/%

- 나누기 연산

 

%%

- 몫 연산

 

seq(a, b, length = x)

- a ~ b 사이 10개 간격으로 값 생성

 

rnorm()

- 난수 생성

- 정규 분포를 따름

ex.1 평균이 10이고, 표준편차가 1인 정규분포를 따르는 난수 10개 생성시

 => rnorm(10, 10, 1)

 

 

행렬 생성 

- matrix(수열, ncols= 값, byrow=T/F)

 

- matrix(1, nrow=x, ncol=y)

모든 값이 1인 x y 행렬 생성

 

 

서브 행렬 추출

- x가 행렬인 경우

- x[, c(1:3)] : 1 ~ 3열까지 모든 행데이터 추출

 

전치행렬

- t(행렬)

 

전치 행렬과 행렬의 곱

- %*%

 

 

함수 작성

square = function(x) {x *x}

sqaure(4)

 

 

 

패키지 설치 및 로드

 

 

 

 

산점도와 상관계수 예시

-  학생 10명의 수학, 물리 점수 사이 상관관계 보기

- 산점도 그리고, 상관계수 보자

 

 

- 상관계수는 0.9921232로 수학과 물리 점수사이 강한 선형적 상관관계가 있음을 알 수 있음.

 

 

기술 통계량 descriptive statistics 구하기

- 기술통계량 : 통계 데이터를 나타내는 대표적인 통계량들. 평균, 분산, 사분위수, 표준편차, 중앙값 등

 

 

엑셀 데이터 읽기

- library(xlsx)

- read.xlsx("경로", 1)

 * 여기서 1은 sheet 넘버가 1을 의미

 

데이터 일부 출력

- head() : 맨위 데이터 일부 출력

 

기술 통계량 출력

- summary(데이터 프레임) : 변수 그룹별, 평균와4분위수 등 출력

 

 

 

attach(데이터 프레임)

- 데이터 프레임 이름 선언 없이 변수에 접근 가능한 함수

- 이 함수를 사용안하면 데이터프레임$변수명 으로 접근해야함

 

 

그룹별 기술 통계량 출력하기

- tapply(기술통계량 구할 값들,그룹,기술통계량)

 

두 그룹에 대한 기술 통계량을 보고 싶은 경우

- list(그룹 변수1, 그룹 변수2) : 두 그룹에 대한 경우들을 만듬

- table(변수) : 분빈도 보기

 

 

 

 

 

두 빈도 변수, 분할표에 대해서 독립성 검증 하기

-> 카이제곱 통계량을 구함.

1. 두 변수에 대한 분할표 작성

2. summary(분할표) 호출

=>  카이제곱 통계량, 자유도, pval(유의 확률, 한계유의기준)을 알수 있음.

 

 

 

 

성별과 교육 수준에 따른 월 수입 분석

1. 데이터 읽고, 도수 분포표 만들기

 

2. 교육 별 도수분포표 막대 그림

 

3. 나이와 월수입에 대한 산점도 그리기

 

4. 남녀 구별 : 나이와 월 수입에 대한 산점도 그리기

 

 

 

독립변수가 4개인 데이터 회귀 분석

1. 데이터 로드, 회귀 모형 적합

- lsfit(x, y) 함수 

 

 

 

2. 잔차와 예측치에 대한 산점도 그리기

 

300x250

+ Recent posts