728x90

빅데이터의 오류

- 결측치 : 누락된 변수 값

- 잡음 : 센서 노이즈로 인해 기존 값에서 벗어난 정도.

- 아웃라이어 : 기존의 데이터와 큰 차이를 보이는 데이터

 

 

 

빅데이터 분석 도구

- hadoop : 빅데이터 처리를 위한 자바 기반 오픈소스 프레임워크

- R : 통계 기법, 시각화 함수 제공. 하둡과 연동하여 빅데이터 처리

- presto : 페이스북에서 개발. 하둡 sql 처리 엔진

- bigquery : 구글 개발 빅데이터 처리 엔진.

- 맵리듀스 : 빅데이터 병렬처리 함수

- summingbird :  스톰과 하둡의 결합. 스트리밍 맵리듀스 시스템

 

 

 

빅데이터 솔루션

- 아파치 재단 : 오픈소스 프로젝트 수행

- cloudera : 하둡 배포판 제공

- 애저 : 빅데이터, 모바일, 저장소 등 통합 클라우드 플랫폼

- AWS : 애저와 동일

 

 

 

결측치 처리

- 삭제 : 결측치가 적은경우

- 대체 : 결측치가 많은 경우 다른 값으로 대치하는것이 좋음.

 

결측치 대체법

- 평균 삽입 : 해당 변수의 평균값을 결칙치에 삽입

- 보간법 : 시계열 데이터의 경우 보간하여 삽입

- 추정법 : 누락 값을 추정하여 삽입.

 

 

300x250

+ Recent posts