빅데이터 수집 과정
1. 데이터 유형 파악하기 : 종류, 크기, 수집 주기에 따라 구분 -> RDB data, JSON, img, log
2. 수집 방법 : 유형에 따라 최적
-> 정형 데이터는 Sqoop, Vendor Driver, API
-> 로그/센서는 Scribe, Flume
-> 텍스트/이미지/영상 등 FTP/크롤러 등
3. 수집 솔루션 : 구성요소, 데이터 처리방식, 기본 아키텍처 확인
4. HW 구축 : 서버, 저장소, 네트워크 등 구축, 스펙 검토
5. 실행 환경 호가인 : 수집 프로그램의 동작 환경 확인.
빅데이터 수집 유형
1. 정형 데이터
- 테이블 형테의 데이터 -> RDB 데이터, Excel
2. 반정형 데이터
- 웹 문서 같은 데이터로 내부에 메타 데이터를 가짐.
- HTML, XML, JSON 등
3. 비정형 데이터
- 텍스트, 이미지 같은 데이터
- 그대로 분석하기 힘들어 전처리 과정을 거침
데이터 유형에 따른 수집
1. 정형 데이터
- Apache Scoop, API 등과 같은 수집/소켓프로그램으로 모음
2. 반정형 데이터
- Flume, Scribe, 블루투스, Log collector, 스트리밍
3. 비정형 데이터
- 웹/소셜 -> 크롤러
- 텍스트,이미지 등 -> FTP/API
데이터 형태 별 대표적인 수집 기술
- Apache Sqoop(정형 데이터용) : Hadoop과 연계한 대량 데이터 전송 및 분석, 병렬 데이터 전송
- Apach Flume(반정형 데이터용) : 로그 수집기, 분산 서비스, 대량 이벤트 정보 전송
- Scrapy(비정형) : 웹 크롤링하여 수집 -> 마이닝 등에 활용
텍스트 수집 기법
- scarping : 웹 문서에 대한 정보를 수집
- crawling : url link로 반복 수집
- ftp : 파일 전송 프로토콜
- rss : 사이트 정보를 공유하기 위한 기술로 xml 기반 콘텐츠 배급 프로토콜.
- 개방 api : 외부에서 접근 가능
변수의 분류
- 계량적 변수와 비계량적 변수
- 계량적 변수 : 수치로 측정되는 데이터에 대한 변수. 연속/이산 변수로 또 나뉨 -> 매출액
- 비계량적 변수 : 수치로 측정과는 관련없는 데이터에 대한 변수 -> 성별, 의견
데이터 척도
- 명목 척도 normial scale : 소속 분류. -> 성별, 나라, 구분
- 서열 척도 ordinal scale : 순위 구분 -> 등수, 평점
- 구간 척도 interval scale : 서열과 차이 구분 -> 온도
- 비율 척도 ration scale : 척도간 비율 -> 나이, 길이
빅데이터 분석 기술의 활용 사례
- 머신 러닝 : 영화 구매 패턴으로 다른 영화 추천
- 감정 분석 : 고객 반응 분석
- 소설 네트워크 분석 : 평판이 어떤지 관찰
- 연관 분석 : 관련 상품 구입 여부 분석
- 분류 : 새 고객이 어느 집단에 속하는가
- 회귀 : 고객 연령대에 따라 구입 상품에 어떻게 되는 확인
저장 시스템
1. RDBMS 관계형 데이터베이스 시스템
- 정형 데이터 저장
- 반정형 데이터로부터 추출
- 개념/논리/물리 db 설계
- Mysql, oracle 등
2. nosql dbms
- json 형태의 데이터 관리. 제약이 덜함
- mongodb와 cassandra 등
* 카산드라 : 오픈소스 dbms, 분산 시스템 이용.
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
데이터마이닝 - 3. 트리 모델 (0) | 2020.11.25 |
---|---|
빅데이터 - 7. 전처리 (0) | 2020.11.23 |
데이터마이닝 - 2. 회귀모형 (0) | 2020.11.19 |
데이터마이닝 - 1. 데이터마이닝이란 (0) | 2020.11.19 |
빅데이터 - 5. 빅데이터 분석 (0) | 2020.11.19 |