데이터
- 정형 데이터 : 형태가 고정된 데이터. 데이터베이스 테이블
-> 데이터베이스 관리 시스템 DBMS 큰 규모 테이블(정형 데이터) 관리
- 비정형 데이터 : 형태가 고정되지 않음. 문자, 영상 등
-> 정보 추출이 필요. 기존의 DBMS에서는 불가
빅데이터
- 데이터 크기가 커. 기존 시스템으로 획득, 저장, 관리, 분석이 불가능한 데이터
- 주로 비정형 데이터 -> 분산 시스템으로 처리
분산 시스템
- 여러 서버가 공통의 문제를 푸는 시스템
-> 한 작업을 여러개로 분할. 각 서버가 할당된 작업을 병렬 수행.
하둡
- 클라우드 빅데이터 처리 기술, 환경
- 데이터 처리 위주 분산 시스템.
- 저비용으로 빅데이터 처리 가능 <- 1. 저가 서버로 분산 시스템, 2. 오픈소스
빅데이터 분석, 표현
- 분석 : 텍스트 마이닝, 데이터 마이닝(소셜 네트워크 분석)
- 표현 : 데이터 시각화
R
- 오픈소스
- 빅데이터 처리 가능
R 기반 비분산 빅데이터 처리
- 분산 시스템이 필요하지 않을만큼 큰 빅데이터의 경우 : 모든 데이터가 메모리에 있어야하는 R의 한계
-> 해결책으로 빅메모리와 빅애널리스틱스 패키지 제공
=> 데이터 구조만 메모리에 저장 : 실제 데이터는 필요한 경우 디스크에서 로드
분산 빅데이터 처리
하둡 구성요소
하둡 공통 hadoop common | 하둡분산파일시스템 HDFS | 하둡 맵리듀스 mapreduce |
다른 구성 요소 지원 유틸리티 모음 | 빅데이터를 다수 컴퓨터에 분산 저장 | HDFS에 저장된 빅데이터를 병렬처리 |
HDFS 접근 등 | 확장, 신뢰, 단순 | 빅데이터 분석 핵심 프로그래밍 모델 |
빅데이터 처리 구현 간소화와 구현 사례
- 기존에는 작업 분할과 분산 처리가 힘들었음. -> 간소화로 데이터와 처리에 집중 가능
1. 대용량 스팸 메일 처리 (자연어 데이터)
2. 다중 염기서열 정렬 (생물 정보)
3. 내용 기반 음악 검색 (음악 데이터)
4. 비디오 트랜스 코딩 (동영상 데이터)
빅데이터 기반 통계 분석 수요 증가
- 빅데이터 처리 간소화에 따른 자연스러운 현상
-> 분석을 통한 새로운 현상의 발견이 빅데이터의 가치
- 마하둡(하둡 기반 기계학습 lib) : 군집분석, 분류, 협업 필터링 구현
R과 하둡을 이용한 빅데이터 통계 분석
- 리퍼 Rhipe : R에서 맵리듀스 프로그래밍 가능
- RHadoop : R에서 편리하게 맵리듀스 프로그래밍 가능. 개인 사용자는 무료. 4개의 R패키지로 제공
rhadoop | rmr | rhbase | plyrmr |
R에서 HDFS 접근 | R에서 맵리듀스 프로그래밍 지원 | 하둡 기반 분산 데이터베이스 HBase 관리 | rmr 패키지에서 생성된 정형 데이터를 plyr 패키지 방식으로 처리 |
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 4. 빅데이터 수집 (0) | 2020.11.18 |
---|---|
빅데이터 - 3. 하둡 프로그래밍 (0) | 2020.11.17 |
빅데이터 - 1. 빅데이터, 데이터 과학, 활용 (0) | 2020.11.17 |
네트워크 (0) | 2020.05.23 |
보안 (0) | 2020.05.23 |