컴퓨터과학/SW, DB
빅데이터 - 7. 전처리
집밖은위험해
2020. 11. 23. 15:54
728x90
빅데이터의 오류
- 결측치 : 누락된 변수 값
- 잡음 : 센서 노이즈로 인해 기존 값에서 벗어난 정도.
- 아웃라이어 : 기존의 데이터와 큰 차이를 보이는 데이터
빅데이터 분석 도구
- hadoop : 빅데이터 처리를 위한 자바 기반 오픈소스 프레임워크
- R : 통계 기법, 시각화 함수 제공. 하둡과 연동하여 빅데이터 처리
- presto : 페이스북에서 개발. 하둡 sql 처리 엔진
- bigquery : 구글 개발 빅데이터 처리 엔진.
- 맵리듀스 : 빅데이터 병렬처리 함수
- summingbird : 스톰과 하둡의 결합. 스트리밍 맵리듀스 시스템
빅데이터 솔루션
- 아파치 재단 : 오픈소스 프로젝트 수행
- cloudera : 하둡 배포판 제공
- 애저 : 빅데이터, 모바일, 저장소 등 통합 클라우드 플랫폼
- AWS : 애저와 동일
결측치 처리
- 삭제 : 결측치가 적은경우
- 대체 : 결측치가 많은 경우 다른 값으로 대치하는것이 좋음.
결측치 대체법
- 평균 삽입 : 해당 변수의 평균값을 결칙치에 삽입
- 보간법 : 시계열 데이터의 경우 보간하여 삽입
- 추정법 : 누락 값을 추정하여 삽입.
300x250