빅데이터 실무자
- 빅데이터 분석 기획, 수집, 저장, 처리, 시각화 수행 실무자
- 분석 기획 : 분석 과제 정리, 데이터 이해, 분석 계획
- 수집과 전처리 : 수집, 추출, 정제
- 탐색과 초기분석 : 탐색, 적재
- 빅데이터 모형 설계 : 연관성과 군집 분석, 확률 모형 검토, 모형과 관련 자료 선정
- 모형 적합 : 자료 전처리, 분석 알고리즘 구축, 적합 결과 도출
- 모형 평가 : 자료 타당성 검토, 모형 타당성 검토, 적합 타당성 검토
- 결과 활용 : 분석 결과 해석, 표현, 적용 및 검증
관련 직무
- 데이터 엔지니어 : 데이터 공급, 처리, 분석, 시각화
- 데이터 과학자 : 통계, 데이터 모델링, 분석, 알고리즘 개발
- 비즈니스 분석가 : 데이터 중심 의사결정 지원
빅데이터
- 기존 데이터베이스로 처리할수 없는 방대한 데이터(정형, 비정형)로부터 가치를 추출하고, 분석하는 기술
- 3V velocity, volume, variate
- 5V value, veracity
빅데이터의 크기
- 단위 데이터 집합 크기가 테라에서 페타바이트에 이름
byte -> kb -> mb -> gb -> tb -> pb -> eb -> zb -> yb
데이터 유형
- 정형 데이터 structuerd data : 업무, 인사 정보와 같이 구조화된 데이터
- 비정형 데이터 unstrucuted data : 그림, 음성 처럼 형태나 구조가 정형되지 않은 데이터
- 반정형 데이터 semi structured data : 데이터 구조에 대한 메타 정보를 가진 데이터
- 빅데이터 : 정형 + 비정형 + 반정형, 형태나 구조에 얽히지 않은 데이터 형식
빅데이터 분석기획
1. 도메인 이슈 도출
2. 분석 목표 수립 - 분석 목표 정의서 수립
3. 프로젝트 계획 - WBS 설계
4. 보유데이터 확인
ETL Extract/Transform/Load
- 도메인 검증, 데이터 요약
- 논리적 데이터/DBMS 데이터 변환
작업 분할 구조도 Work Breakdown Strucure 설계 절차
- 데이터 분석 과제 정의
- 데이터 준비, 탐색
- 데이터 분석 모델링, 검증
- 산출물
데이터 마이닝
- 데이터로부터 의미있는 패턴, 규칙을 찾는 방법
ex. 분류, 군집화(k-means clustering), 연관성, 연속성, 예측(의사 결정 나무)
빅데이터 분석과정
1. 문제인식
2. 조사
3. 모형화(변수 선정)
4. 자료수집(변수 측정)
5. 자료분석(통계적 데이터 분석 기법, 데이터 마이닝)
데이터 분석 과정
1. 이슈 도출
2. 분석 목표 설정
3. 프로젝트 계획 수립
4. 보유 데이터 확인
5. 빅데이터 결과 시각화
개인정보 비식별화 조치 절차
- 사전 검토 -> 비식별조치 ->적정성평가 ->사후관리
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
데이터마이닝 - 2. 회귀모형 (0) | 2020.11.19 |
---|---|
데이터마이닝 - 1. 데이터마이닝이란 (0) | 2020.11.19 |
빅데이터 - 4. 빅데이터 수집 (0) | 2020.11.18 |
빅데이터 - 3. 하둡 프로그래밍 (0) | 2020.11.17 |
빅데이터 - 2. 빅데이터 기술 (0) | 2020.11.17 |