728x90

데이터 분석을 하려면 가장 먼저 할 일은?

-> 데이터 수집, 로딩

 

 

데이터 출력

- header =T 옵션 없으면 age, gender, group을 열이 아닌 1행으로 인식

 

 

 

변수 할당시 보기

- ctrl + 변수 명 클릭

 

head 함수

- 상위 6개 행 출력

- 데이터 상당히 많으므로 일부 볼떄 자주 사용

 

 

names 함수

- 열이름 확인하기

 

summary 함수

- 데이터 정리해서 출력

 

str 함수 (structure)

- 해당 데이터의 구조 출력

- 10개의 옵셔베이션, 3개의 바리어블

 

 

 

 

is.na 함수

- 결측치인지 반환

- is.na에 sum : true 가 1, false 는 0이며 true 가 없으므로 0이

colSums 함수

- 열 별로 sum 연산

- 아래의 예시는 각 열별 결측치 sum

 

 

 

 

 

read.csv()

- "tab" 쓰면 해당 wd의 파일 자동완성

- 다음 예시는 6922 옵셔베이션에 20개 변수 가짐

 

 

 

 

 

csv 데이터 훑어보기

- str() : 구조 파악

- summary() : 기초 통계 빈도에 대한 내용 반환

- names : 변수명 확인

- is.na() : 결측값 확인

 

 

 

데이터 형태

- 데이터 프레임 : 엑셀과 같은 데이터

- 스칼라 : 1 x 1 형 데이터

- 벡터 : 1 x N 형 데이터

- matrix : M x N 형 데이터

* c() : concatenate의 약어로 스칼라 값들을 연결하여 벡터로 만듬

=> ex. c(1,2,3,4,10)

 

R 패키지

- CRAN The Comprehensive R Archive Network

- git

 

 

moonBook 설치 및 사용

- 성별을 기준으로 AGE, TEMP, AVPU 데이터 분석

 

 

유용한 R 패키지들

support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages

- 배워야할 필수 패키지 4개

- Dplyr

- ggplot2

- ggvis

- caret

 

 

 

 

latex

- 논문쓸떄 많이 사용하며, html형태로 결과를 만들어줌

 

 

 

데이터 프레임 일부분 추출

- 데이터프레임명[행, 열]

 

 

데이터프레임 특정 변수 접근

- 데이터프레임명$변수

- age에서 1~4 추출

- age가 30보다 큰 추출 -> true false 반환

- age가 30보다 큰 age들 추출

- age가 30보다 큰 행 전체 출력

 

 

문제

# 나이가 30세보다 크고

# 성별이 M인 사람을 뽑자

 

300x250

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 6. R 시각화  (0) 2020.10.20
데이터분석 - 5. 확률기초  (0) 2020.10.19
데이터분석 - 4. R그래프들  (0) 2020.10.19
데이터분석 - 3. R기초 2  (0) 2020.10.19
데이터분석 - 1.개요  (0) 2020.10.19

+ Recent posts