728x90
빅데이터의 오류
- 결측치 : 누락된 변수 값
- 잡음 : 센서 노이즈로 인해 기존 값에서 벗어난 정도.
- 아웃라이어 : 기존의 데이터와 큰 차이를 보이는 데이터
빅데이터 분석 도구
- hadoop : 빅데이터 처리를 위한 자바 기반 오픈소스 프레임워크
- R : 통계 기법, 시각화 함수 제공. 하둡과 연동하여 빅데이터 처리
- presto : 페이스북에서 개발. 하둡 sql 처리 엔진
- bigquery : 구글 개발 빅데이터 처리 엔진.
- 맵리듀스 : 빅데이터 병렬처리 함수
- summingbird : 스톰과 하둡의 결합. 스트리밍 맵리듀스 시스템
빅데이터 솔루션
- 아파치 재단 : 오픈소스 프로젝트 수행
- cloudera : 하둡 배포판 제공
- 애저 : 빅데이터, 모바일, 저장소 등 통합 클라우드 플랫폼
- AWS : 애저와 동일
결측치 처리
- 삭제 : 결측치가 적은경우
- 대체 : 결측치가 많은 경우 다른 값으로 대치하는것이 좋음.
결측치 대체법
- 평균 삽입 : 해당 변수의 평균값을 결칙치에 삽입
- 보간법 : 시계열 데이터의 경우 보간하여 삽입
- 추정법 : 누락 값을 추정하여 삽입.
300x250
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
데이터마이닝 - 4. 앙상블 모델 (0) | 2020.11.25 |
---|---|
데이터마이닝 - 3. 트리 모델 (0) | 2020.11.25 |
빅데이터 - 6. 수집 및 관리 (0) | 2020.11.23 |
데이터마이닝 - 2. 회귀모형 (0) | 2020.11.19 |
데이터마이닝 - 1. 데이터마이닝이란 (0) | 2020.11.19 |