빅데이터
- 정형 + 비정형 데이터. 기존의 방식으로 처리하기 방대한 데이터
- 3V : velocity, volume, variate
데이터 분석의 역사
- 로널드 피셔 ronald fisher : 곡물 관련 실험결과를 연구하며 실험 계획법 토대 마련
- 조지 갤럽 george gallup : 사람의 생각을 문항으로 데이터 수집
- 윌리엄 페어 william fair : 고객 행동을 예측하여 의사결정 개념 소개
다양한 통계적 기법들
- 실험 계획법 : 일원요인 분산분석, 이원요인 분산분석, 공분산분석, 요인배치법 등
- 다변량 분석법 : 주성분 분석, 인자 분석 , 군집 분석, 판별분석, 로지스틱 회귀분석
- 데이터 마이닝 : 회귀 모델, 나무 모델, 군집 모델, 신경망 모델, 연관성 모델 등
데이터 마이닝의 등장 배경
- 데이터 웨어하수의 보급과 도입
-> 복잡한 데이터를 다룰수 있는 새로운 데이터 분석법 필요.
데이터 웨어하우스 data warehouse
- 중앙 축적 데이터베이스
데이터 마트 data mart
- 데이터 웨어하우스와 사용자 사이에 존재.
- 데이터 웨어하우스의 한 주제나 복제
데이터 과학자
- 윌리엄 클리블랜드 교수 : 데이터 과학은 향상된 데이터 분석을 위해 통계학이 전산과 융합하여 영역을 확장하는과정
-> 데이터 과학자가 되기 위해 데이터 마이닝같은 통계학이나 전산 지식 뿐만아니라 많은 경험과 스토리 텔링,
문제해결의지, 시각적 전달 시 사용할 디자인 감각 등 종합적 능력 요구.
데이터 마이닝
- 대용량의 데이터로부터 관계, 패턴을 탐색, 모형화하여 지식을 추출하는 과정
-> 모수적 모형과 알고리즘 접근 방법을 알아야함.
- 다양한 업무분야에 활용되어 의사결정에 도움줌
관련 분야
1. KDD knowledge Discovery in Database
- 데이터베이스 안에서 지식 발견 과정
2. 기계 학습 Machine Learning
- 인공지능 한분야, 데이터로부터 판단
데이터마이닝 기법
- 지도 학습 : 목표 값이 존재
-> 분류 : 판별, 로지스틱 회귀, 최근접이웃, 의사결정나무, 나이브 베이즈
-> 회귀 : 회귀 분석, 최근접 이웃, 신경망
- 비지도 학습 : 목표 값 없음
-> 군집 : k-means, 계층적 군집분석, 이중 군집법, 유한혼합모형
-> 연관 : 장바구니분석, 서열분석, 트랜잭션 데이터분석
-> 가중치 : 신경망
데이터 마이닝 활용 분야
1. 고객 관계 관리 CRM
2. 신용 평가
3. 품질 개선
4. 부정행위적발
5. 영상 분석
6. 생명정보학
7. 인터넷 비즈니스
'컴퓨터과학 > SW, DB' 카테고리의 다른 글
빅데이터 - 6. 수집 및 관리 (0) | 2020.11.23 |
---|---|
데이터마이닝 - 2. 회귀모형 (0) | 2020.11.19 |
빅데이터 - 5. 빅데이터 분석 (0) | 2020.11.19 |
빅데이터 - 4. 빅데이터 수집 (0) | 2020.11.18 |
빅데이터 - 3. 하둡 프로그래밍 (0) | 2020.11.17 |