728x90

빅데이터

- 정형 + 비정형 데이터. 기존의 방식으로 처리하기 방대한 데이터

- 3V : velocity, volume, variate

 

데이터 분석의 역사

- 로널드 피셔 ronald fisher : 곡물 관련 실험결과를 연구하며 실험 계획법 토대 마련

- 조지 갤럽 george gallup : 사람의 생각을 문항으로 데이터 수집

- 윌리엄 페어 william fair : 고객 행동을 예측하여 의사결정 개념 소개

 

 

다양한 통계적 기법들

- 실험 계획법 : 일원요인 분산분석, 이원요인 분산분석, 공분산분석, 요인배치법 등 

- 다변량 분석법 : 주성분 분석, 인자 분석 , 군집 분석, 판별분석, 로지스틱 회귀분석

- 데이터 마이닝 : 회귀 모델, 나무 모델, 군집 모델, 신경망 모델, 연관성 모델 등

 

 

데이터 마이닝의 등장 배경

- 데이터 웨어하수의 보급과 도입

 -> 복잡한 데이터를 다룰수 있는 새로운 데이터 분석법 필요.

 

 

데이터 웨어하우스 data warehouse

- 중앙 축적 데이터베이스

 

데이터 마트 data mart

- 데이터 웨어하우스와 사용자 사이에 존재.

- 데이터 웨어하우스의 한 주제나 복제

 

 

 

 

데이터 과학자

- 윌리엄 클리블랜드 교수 : 데이터 과학은 향상된 데이터 분석을 위해 통계학이 전산과 융합하여 영역을 확장하는과정

-> 데이터 과학자가 되기 위해 데이터 마이닝같은 통계학이나 전산 지식 뿐만아니라 많은 경험과 스토리 텔링,

   문제해결의지, 시각적 전달 시 사용할 디자인 감각 등 종합적 능력 요구.

 

 

 

데이터 마이닝

- 대용량의 데이터로부터 관계, 패턴을 탐색, 모형화하여 지식을 추출하는 과정

 -> 모수적 모형과 알고리즘 접근 방법을 알아야함.

- 다양한 업무분야에 활용되어 의사결정에 도움줌

 

 

관련 분야

1. KDD knowledge Discovery in Database

- 데이터베이스 안에서 지식 발견 과정

2. 기계 학습 Machine Learning

- 인공지능 한분야, 데이터로부터 판단

 

 

 

데이터마이닝 기법

- 지도 학습 : 목표 값이 존재

  -> 분류 : 판별, 로지스틱 회귀, 최근접이웃, 의사결정나무, 나이브 베이즈

  -> 회귀 : 회귀 분석, 최근접 이웃, 신경망

- 비지도 학습 : 목표 값 없음

 -> 군집 : k-means, 계층적 군집분석, 이중 군집법, 유한혼합모형

 -> 연관 :  장바구니분석, 서열분석, 트랜잭션 데이터분석

 -> 가중치 : 신경망

 

 

데이터 마이닝 활용 분야

1. 고객 관계 관리 CRM

2. 신용 평가

3. 품질 개선

4. 부정행위적발

5. 영상 분석

6. 생명정보학

7. 인터넷 비즈니스

 

 

 

 

 

 

300x250

+ Recent posts