728x90

빅데이터 수집 과정

1. 데이터 유형 파악하기 : 종류, 크기, 수집 주기에 따라 구분 -> RDB data, JSON, img, log

2. 수집 방법 : 유형에 따라 최적

     -> 정형 데이터는 Sqoop, Vendor Driver, API

     ->  로그/센서는 Scribe, Flume

     ->  텍스트/이미지/영상 등 FTP/크롤러 등

3. 수집 솔루션 : 구성요소, 데이터 처리방식, 기본 아키텍처 확인

4. HW 구축 : 서버, 저장소, 네트워크 등 구축, 스펙 검토

5. 실행 환경 호가인 : 수집 프로그램의 동작 환경 확인.

 

 

 

빅데이터 수집 유형

1. 정형 데이터

- 테이블 형테의 데이터 -> RDB 데이터, Excel

 

2. 반정형 데이터 

- 웹 문서 같은 데이터로 내부에 메타 데이터를 가짐.

- HTML, XML, JSON 등

 

3. 비정형 데이터

- 텍스트, 이미지 같은 데이터

- 그대로 분석하기 힘들어 전처리 과정을 거침

 

 

 

 

 

데이터 유형에 따른 수집 

1. 정형 데이터

- Apache Scoop, API 등과 같은 수집/소켓프로그램으로 모음

 

2. 반정형 데이터

- Flume, Scribe, 블루투스, Log collector, 스트리밍

 

3. 비정형 데이터

- 웹/소셜 -> 크롤러

- 텍스트,이미지 등 -> FTP/API

 

 

 

 

데이터 형태 별 대표적인 수집 기술

- Apache Sqoop(정형 데이터용) : Hadoop과 연계한 대량 데이터 전송 및 분석, 병렬 데이터 전송

- Apach Flume(반정형 데이터용) :  로그 수집기, 분산 서비스, 대량 이벤트 정보 전송

- Scrapy(비정형) : 웹 크롤링하여 수집 -> 마이닝 등에 활용

 

 

 

텍스트 수집 기법

- scarping : 웹 문서에 대한 정보를 수집

- crawling : url link로 반복 수집

- ftp : 파일 전송 프로토콜

- rss : 사이트 정보를 공유하기 위한 기술로 xml 기반 콘텐츠 배급 프로토콜. 

- 개방 api : 외부에서 접근 가능

 

 

 

변수의 분류

- 계량적 변수와 비계량적 변수

- 계량적 변수 : 수치로 측정되는 데이터에 대한 변수. 연속/이산 변수로 또 나뉨 -> 매출액

- 비계량적 변수 : 수치로 측정과는 관련없는 데이터에 대한 변수 -> 성별, 의견

 

 

데이터 척도

- 명목 척도 normial scale : 소속 분류. -> 성별, 나라, 구분

- 서열 척도 ordinal scale : 순위 구분 -> 등수, 평점

- 구간 척도 interval scale : 서열과 차이 구분 -> 온도

- 비율 척도 ration scale : 척도간 비율 -> 나이, 길이

 

 

 

빅데이터 분석 기술의 활용 사례

- 머신 러닝 : 영화 구매 패턴으로 다른 영화 추천

- 감정 분석 : 고객 반응 분석

- 소설 네트워크 분석 : 평판이 어떤지 관찰

- 연관 분석 : 관련 상품 구입 여부 분석

- 분류 : 새 고객이 어느 집단에 속하는가

- 회귀 : 고객 연령대에 따라 구입 상품에 어떻게 되는 확인

 

 

 

저장 시스템

1. RDBMS 관계형 데이터베이스 시스템

- 정형 데이터 저장

- 반정형 데이터로부터 추출

- 개념/논리/물리 db 설계

- Mysql, oracle 등

 

2. nosql dbms

- json 형태의 데이터 관리. 제약이 덜함

- mongodb와 cassandra 등

* 카산드라 : 오픈소스 dbms, 분산 시스템 이용.

 

 

300x250

+ Recent posts