빅데이터의 생성 위치에 따른 구분
- 내부 데이터 : 업무 과정에 생성되어 db에 저장된 데이터
- 외부 데이터 ; 인터넷에서 구할수 있는 데이터
외부 데이터 수집 방법
- 정부 : 통계청의 KOSIS 등 통계 DB, 공개 API나 파일로 공개
- 네이버, 다음, 페이스북, 구글 : 보유 데이터 중 일부를 공개 API로 접근
- 검색 허용 홈페이지 : 데이터 수집 기술을 이용하여 정보 수집
데이터 수집
- 내부/외부 데이터를 검색 수집하여 이를 변환 통합
-> 반(비)정형 데이터를 분석가능한 정형 데이터로 변환과 통합까지
내부 데이터 수집
- 로그 데이터 : 스크라이브, 플룸 등의 로그 수집기
외부 데이터 수집
- 외부 데이터베이스 : 통계 KOSIS, 세계은행, Yahoo finance 등
- 포털 : 네이버, 다음, 구글, 줌 등
외부 데이터 수집 하기
- 웹 크롤링 : 웹 로봇으로 HTML 데이터 읽고 수집
- 공개 API : 데이터 공개하는 쪽에서 JSON이나 XML 형식에 맞게 가공해서 공개
트위터
- 짧은 문장 공유하는 블로그 서비스
트위터 API
- 외부에서 트위터 기능으로 3자 어플리케이션 개발하거나 트위터 데이터 수집할수있도록 공개 API 제공
트위터 API 이용
- 트위터 API 사용시 트위터 개발자로 등록하여, 제작 어플리케이션 정보 등록
- 해당 어플리케이션이 트위터 서비스에 접속할 수 있도록 인증키를 받아야함
- REST API : 기본 제공 API
- STREAMING API : 트윗들을 실시간으로 스트리밍 해줌.
* public stream api: 전체 트윗 데이터중 1%를 무작위로 실시간 전송 -> 트렌드 분석에 사용
* user stream api : 지정한 트위터 계정의 모든정보를 실시간으로 전송 -> 특정 계정 활동을 모니터링
* site streaming api : 특정 키워드나 특정 인물의 트윗을 지속적으로 받는 경우 사용하는 api
트위터를 이용한 분석
- 트윗 글들을 API로 수집하여 분석 -> 사람들의 관심사 파악
- 미국 대선 관련 트윗으로 정치 지수, 여론 흐름 파악
- 유엔 글로벌 펄스는 2010~2011년 그로벌 경제위기에 어떻게 사람들이 대처하는지 인도네시아와 미국 공개 트윗 분석
-> 트윗 텍스트 데이터 수집, 텍스트 카테고리 분류하여 통계적 패턴 분류
=> 미국 주택 구입 가능성, 인도네시아의 식량, 정전 및 연료 부족상황을 언급한 트윗 수 분석
페이스북
- 친밀한 그룹 간 메시지, 사진, 영상 등 정보 공유
페이스북 API
- 개발자 등록을 마친후, 사용할 어플리케이션 생성후 이용
- Graph API를 제공. 다양한 메소드를 테스트, 데이터 종류, 구조 쉽게 파악
공공 데이터
- 정부, 공공기관이 통계, 행정 목적으로 수집한 데이터
공공 데이터 활용 사례
- 서울 버스 앱 : 폰으로 버스 정류장에 버스가 몇 분후에 오는지 알 수 있음.
- 심야 버스 노선 : 교통카드 이용량과 통화 데이터 이용으로 심야 교통 수요를 측정하고, 관련된 심야버스 노선 찾음.
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
데이터마이닝 - 1. 데이터마이닝이란 (0) | 2020.11.19 |
---|---|
빅데이터 - 5. 빅데이터 분석 (0) | 2020.11.19 |
빅데이터 - 3. 하둡 프로그래밍 (0) | 2020.11.17 |
빅데이터 - 2. 빅데이터 기술 (0) | 2020.11.17 |
빅데이터 - 1. 빅데이터, 데이터 과학, 활용 (0) | 2020.11.17 |