기술 통계 descriptive statistic
- 데이터를 어떻게 묘사할것인가에 대한 학문
기술 통계량 descriptivie statistics
- 중심 위치 측도, 산포 측도 등
중심 위치 측도
- 기대값 expectation : 데이터의 무게 중심
=> 표본 평균 bar x = (x1 + ... xn) / n = sigma xi/n
- 중앙값 median : 데이터를 크기 순으로 나열시 중간에 있는 값.
산포 측도
- 표본 분산 : 표본들이 표본 평균으로부터 흩어진 정도
S2 = sigma (xi - bar x)2/ (n-1)
- 사분위수 quartile : 통계의 변량을 도수 분포로 정리할떄 1/4 , 2/4, 3/4 자리의 값
=> Q1(25%), Q2(50%), Q3(75%)
=> 사분위수의 범위 IQR interval of Quartile = Q3 - Q1
데이터 준비
기술통계값 구하기
- sapply()함수
- summary(데이터프레임)
다섯수치 요약해줌
클래스 보기 - class(변수)
다섯수치보기 - fivenum(변수)
psych로 기술통계량 보기
- describe(데이터프레임)
-> 갯수, 평균, 표준편차, 중위수, 절삭 편균, 최소 최대, 범위, 첨도 왜도 등
변수 확인 -> names()함수
- names(데이터 프레임)
그룹별 기술 통계
- tapply
- aggregate
- by 함수
tapply 함수
- tapply(계산변수, 그룹변수, 통계량)
aggregate 함수
- aggregate(데이터프레임, list(변수목록), 통계량)
by 함수
- by(데이터프레임, 그루핑 변수, 통계량 or summary)
psych의 그룹별 통계량 함수
- describeBy(데이터프레임, 그룹핑 변수)
기술 통계량 시각화 하기
- 줄기잎 그림
- 상자그림
* Q3 + 1.5*IQR 보다 크거나 Q1 - 1.5 * IQR보다 작으면 이상치로 판단
- 히스토그램
줄기잎 그림
- stem(변수명)
두 그룹에 대한 줄기 잎 그림 그리기
- aplpack 라이브러리 활용
- (값) 은 중앙값
- 좌우 양끝값은 데이터 갯수
상자 그림
- par(mfrow=c())로 한 페이지에 여러개 그릴수 있음
- boxplot() 함수
앙케이트 자료 처리하기
변수명 변환
그래프 출력, 분할표 만들기
분할표 만들기 2 xtabs를 이용한
대학생. 학년별 앙케이트 결과
카이제곱 검정
- 두범주형 자료의 독립성 검정
chi2 = sigma (관찰도수 - 기대도수)^2 / 기대도수
= 12.403
p-value 유의확률 = 0.006
독립이라는 귀무가설을 기각한다.
'수학 > 통계' 카테고리의 다른 글
파이썬R - 7. 평균 검정 (0) | 2020.10.28 |
---|---|
파이썬R - 6. 파이썬 기술통계 (0) | 2020.10.28 |
파이썬R - 4. 파이썬과 R 그래픽 라이브러리 (0) | 2020.10.28 |
파이썬R - 3. R데이터처리, dplyr (0) | 2020.10.28 |
파이썬R - 2. R 데이터처리 (0) | 2020.10.27 |