728x90

기술 통계 descriptive statistic

- 데이터를 어떻게 묘사할것인가에 대한 학문

 

 

기술 통계량 descriptivie statistics

- 중심 위치 측도, 산포 측도 등

 

중심 위치 측도

- 기대값 expectation : 데이터의 무게 중심

 => 표본 평균 bar x = (x1 + ... xn) / n = sigma xi/n

- 중앙값 median : 데이터를 크기 순으로 나열시 중간에 있는 값.

 

 

산포 측도

- 표본 분산 : 표본들이 표본 평균으로부터 흩어진 정도

 S2 = sigma (xi - bar x)2/ (n-1)

- 사분위수 quartile : 통계의 변량을 도수 분포로 정리할떄 1/4 , 2/4, 3/4 자리의 값

 => Q1(25%), Q2(50%), Q3(75%)

 => 사분위수의 범위 IQR interval of Quartile = Q3 - Q1

 

 

 

 

 

데이터 준비

 

 

기술통계값 구하기

- sapply()함수

 

- summary(데이터프레임)

 다섯수치 요약해줌

클래스 보기 - class(변수)

다섯수치보기 - fivenum(변수)

 

 

psych로 기술통계량 보기

- describe(데이터프레임)

-> 갯수, 평균, 표준편차, 중위수, 절삭 편균, 최소 최대, 범위, 첨도 왜도 등

 

 

 

 

변수 확인 -> names()함수

- names(데이터 프레임)

 

 

 

 

 

 

그룹별 기술 통계

- tapply

- aggregate

- by 함수

 

 

 

tapply 함수

- tapply(계산변수, 그룹변수, 통계량)

 

 

 

aggregate 함수

- aggregate(데이터프레임, list(변수목록), 통계량)

 

 

 

 

 

by 함수

- by(데이터프레임, 그루핑 변수, 통계량 or summary)

 

 

 

 

 

psych의 그룹별 통계량 함수

- describeBy(데이터프레임, 그룹핑 변수)

 

 

 

 

 

 

 

 

기술 통계량 시각화 하기

- 줄기잎 그림

- 상자그림

 * Q3 + 1.5*IQR 보다 크거나 Q1 - 1.5 * IQR보다 작으면 이상치로 판단

- 히스토그램

 

 

 

줄기잎 그림

- stem(변수명)

 

 

두 그룹에 대한 줄기 잎 그림 그리기

- aplpack 라이브러리 활용

- (값) 은 중앙값

- 좌우 양끝값은 데이터 갯수

 

 

 

 

 

 

상자 그림

- par(mfrow=c())로 한 페이지에 여러개 그릴수 있음

- boxplot() 함수

 

 

앙케이트 자료 처리하기

 

변수명 변환

 

 

 

그래프 출력, 분할표 만들기

 

 

 

 

 

분할표 만들기 2 xtabs를 이용한

 

 

 

 

대학생. 학년별 앙케이트 결과

 

 

 

 

 

 

 

 

 

카이제곱 검정

- 두범주형 자료의 독립성 검정

 

 

chi2 = sigma (관찰도수 - 기대도수)^2 / 기대도수

       = 12.403

   p-value 유의확률 = 0.006

독립이라는 귀무가설을 기각한다.

 

 

 

 

 

 

300x250

+ Recent posts