728x90

통계를 배워야 하는 이유

- 무엇이 최선의 선택인가?

=> 데이터 주도 의사결정

 

통계학

- 실험으로 발견된 차이가 우연으로 예측된 차이보다 큰 것을 증명

- 통계 분석 : 그 결과가 우연인지 아닌지, 의미잇는 것은지 아닌지 분석하는 과정

 

통계학 배워서 할것들

- 데이터 시각화

- 통계적 시험

- 통계 개념 이해

- 여러 방법론 사용

 

 

 

고전과 현대 통계학

- 고전 통계학 : 수식과 알고리즘으로 소통

- 현대 통계학 : 데이터 기반

 

 

빅데이터 정의

- 4v도 있지만.

- 타임 스탬프(이 데이터가 언재)와 로케이션(어디서 생성되었는가)을 갖는 데이터

 

 

데이터 분석시 고려사항들

- 보정 adjust 

- 쪼개기 faceting

- 아웃라이어

- 결측치 

 

보정

- 해당 변수의 영향을 고려하는 것

ex) 폐암과 연관성이 높은 요소라고해서 무조건 암의 원인이라고 판단할수는 없음

 

보정의 예시

- 교회가 많아지면 범죄율도 증가한다

 => 인구가 늘면 교회도 늘고 범죄율도 증가

- 냉장고 보급률과 위암 환자에는 큰 관계가 있다

 => 사실 소득이 늘면서 냉장고 보급과 의료 서비스가 좋아짐. 위암 환자수가 증가

 

 

심슨의 역설

- 쪼개서 보아야 함. => 하위 그룹 분석

 

아웃라이어의 문제점

- 이상치로 인해 추정 값이 너무 심하게 변함

=> 평균, 회귀계수

 

 

결측치 NA Not Available

- 데이터에 결측치가 있는경우 분석되지 않을수도 있다.

- 데이터에 결측치가 포함된 경우 모든 통계값은 NA를 리턴하게되어 없애주도록 해야함

 

 

 

 

 

 

 

 

 

통계 분류

- 기술 통계 descriptive statistics : 수집한 데이터를 요약, 묘사

- 추론 통계 inference statistics : 모집단(알려고하는집단, 전체 집단)을 대표할수 있는 표본집합(모집단을 샘플링)으로 추론

 

기술 통계

- 수집된 데이터를 요약, 묘사(수치적, 시각화 등)

- 수치적 묘사 : centering 지표 ( 평균, 중앙값, 최빈값), spread 지표(분산, 표준편차), 웨도, 첨도 등

 

centering 지표

- 평균mean : 데이터의 합/ 데이터 갯수

- 중앙값 median : 데이터 정렬 후 가운데 값

- 절삭 평균 truncated mean : 양끝값을 제거 후 평균

=> 자료의 중심 측도 만으로 내용을 설명하기에는 부족함. spread 지표로 묘사

 

 

spread 지표

- 분산 variance : 평균에서 얼마나 멀어지는지. 데이터가 퍼진 정도

 

그 외 지표

- 왜도 skewness : 자료의 치우친 정도. 자료 대칭성 측도.

- 첨도 kurtosis : 얼마나 뾰족한가. 봉오리 높이 측도

 

 

 

 

 

추론 통계 inference statistics

- 수집 데이터로 추론, 예측하는 기법

- 전체 집단을 알수없기 때문 ->제한된 데이터 표본

- 모집단 population : 알고자 하는 전체 집단

- 표본집합 sampling : 모집단으로부터 추출한 집단

 

 

 

다양한 표본 추출 방법

- SRS Simple Random Sampling : 단순 랜덤 샘플링

- 층화

- 집락

- 계통

- PPS Proportional to Population Size : 모집단 크기에 비례하도록 추출

 

구간 추정

- 신뢰 구간

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 6. R 시각화  (0) 2020.10.20
데이터분석 - 5. 확률기초  (0) 2020.10.19
데이터분석 - 4. R그래프들  (0) 2020.10.19
데이터분석 - 3. R기초 2  (0) 2020.10.19
데이터분석 - 2.R 기초  (0) 2020.10.19

+ Recent posts