728x90

빅데이터의 생성 위치에 따른 구분

- 내부 데이터 : 업무 과정에 생성되어 db에 저장된 데이터

- 외부 데이터 ; 인터넷에서 구할수 있는 데이터

 

 

외부 데이터 수집 방법

- 정부 : 통계청의 KOSIS 등 통계 DB, 공개 API나 파일로 공개

- 네이버, 다음, 페이스북, 구글 : 보유 데이터 중 일부를 공개 API로 접근

- 검색 허용 홈페이지 : 데이터 수집 기술을 이용하여 정보 수집

 

 

데이터 수집

- 내부/외부 데이터를 검색 수집하여 이를 변환 통합

 -> 반(비)정형 데이터를 분석가능한 정형 데이터로 변환과 통합까지

 

 

내부 데이터 수집

- 로그 데이터 : 스크라이브, 플룸 등의 로그 수집기

 

외부 데이터 수집

- 외부 데이터베이스 : 통계 KOSIS, 세계은행, Yahoo finance 등

- 포털 : 네이버, 다음, 구글, 줌 등

 

 

 

외부 데이터 수집 하기

- 웹 크롤링 : 웹 로봇으로 HTML 데이터 읽고 수집

- 공개 API : 데이터 공개하는 쪽에서 JSON이나 XML 형식에 맞게 가공해서 공개

 

 

 

트위터

-  짧은 문장 공유하는 블로그 서비스

 

트위터 API

- 외부에서 트위터 기능으로 3자 어플리케이션 개발하거나 트위터 데이터 수집할수있도록 공개 API 제공

 

트위터 API 이용

- 트위터 API 사용시 트위터 개발자로 등록하여, 제작 어플리케이션 정보 등록

- 해당 어플리케이션이 트위터 서비스에 접속할 수 있도록 인증키를 받아야함

- REST API : 기본 제공 API

- STREAMING API : 트윗들을 실시간으로 스트리밍 해줌.

  * public stream api: 전체 트윗 데이터중 1%를 무작위로 실시간 전송 -> 트렌드 분석에 사용

  * user stream api : 지정한 트위터 계정의 모든정보를 실시간으로 전송 -> 특정 계정 활동을 모니터링

  * site streaming api : 특정 키워드나 특정 인물의 트윗을 지속적으로 받는 경우 사용하는 api

 

 

 

트위터를 이용한 분석

- 트윗 글들을 API로 수집하여 분석 -> 사람들의 관심사 파악

- 미국 대선 관련 트윗으로 정치 지수, 여론 흐름 파악

- 유엔 글로벌 펄스는 2010~2011년 그로벌 경제위기에 어떻게 사람들이 대처하는지 인도네시아와 미국 공개 트윗 분석

 -> 트윗 텍스트 데이터 수집, 텍스트 카테고리 분류하여 통계적 패턴 분류

  => 미국 주택 구입 가능성, 인도네시아의 식량, 정전 및 연료 부족상황을 언급한 트윗 수 분석

 

 

 

 

페이스북

- 친밀한 그룹 간 메시지, 사진, 영상 등 정보 공유

 

페이스북 API

- 개발자 등록을 마친후, 사용할 어플리케이션 생성후 이용

- Graph API를 제공. 다양한 메소드를 테스트, 데이터 종류, 구조 쉽게 파악

 

 

 

 

공공 데이터

- 정부, 공공기관이 통계, 행정 목적으로 수집한 데이터

 

공공 데이터 활용 사례

- 서울 버스 앱 : 폰으로 버스 정류장에 버스가 몇 분후에 오는지 알 수 있음.

- 심야 버스 노선 : 교통카드 이용량과 통화 데이터 이용으로 심야 교통 수요를 측정하고, 관련된 심야버스 노선 찾음.

 

 

 

 

 

300x250

+ Recent posts