통계를 배워야 하는 이유
- 무엇이 최선의 선택인가?
=> 데이터 주도 의사결정
통계학
- 실험으로 발견된 차이가 우연으로 예측된 차이보다 큰 것을 증명
- 통계 분석 : 그 결과가 우연인지 아닌지, 의미잇는 것은지 아닌지 분석하는 과정
통계학 배워서 할것들
- 데이터 시각화
- 통계적 시험
- 통계 개념 이해
- 여러 방법론 사용
고전과 현대 통계학
- 고전 통계학 : 수식과 알고리즘으로 소통
- 현대 통계학 : 데이터 기반
빅데이터 정의
- 4v도 있지만.
- 타임 스탬프(이 데이터가 언재)와 로케이션(어디서 생성되었는가)을 갖는 데이터
데이터 분석시 고려사항들
- 보정 adjust
- 쪼개기 faceting
- 아웃라이어
- 결측치
보정
- 해당 변수의 영향을 고려하는 것
ex) 폐암과 연관성이 높은 요소라고해서 무조건 암의 원인이라고 판단할수는 없음
보정의 예시
- 교회가 많아지면 범죄율도 증가한다
=> 인구가 늘면 교회도 늘고 범죄율도 증가
- 냉장고 보급률과 위암 환자에는 큰 관계가 있다
=> 사실 소득이 늘면서 냉장고 보급과 의료 서비스가 좋아짐. 위암 환자수가 증가
심슨의 역설
- 쪼개서 보아야 함. => 하위 그룹 분석
아웃라이어의 문제점
- 이상치로 인해 추정 값이 너무 심하게 변함
=> 평균, 회귀계수
결측치 NA Not Available
- 데이터에 결측치가 있는경우 분석되지 않을수도 있다.
- 데이터에 결측치가 포함된 경우 모든 통계값은 NA를 리턴하게되어 없애주도록 해야함
통계 분류
- 기술 통계 descriptive statistics : 수집한 데이터를 요약, 묘사
- 추론 통계 inference statistics : 모집단(알려고하는집단, 전체 집단)을 대표할수 있는 표본집합(모집단을 샘플링)으로 추론
기술 통계
- 수집된 데이터를 요약, 묘사(수치적, 시각화 등)
- 수치적 묘사 : centering 지표 ( 평균, 중앙값, 최빈값), spread 지표(분산, 표준편차), 웨도, 첨도 등
centering 지표
- 평균mean : 데이터의 합/ 데이터 갯수
- 중앙값 median : 데이터 정렬 후 가운데 값
- 절삭 평균 truncated mean : 양끝값을 제거 후 평균
=> 자료의 중심 측도 만으로 내용을 설명하기에는 부족함. spread 지표로 묘사
spread 지표
- 분산 variance : 평균에서 얼마나 멀어지는지. 데이터가 퍼진 정도
그 외 지표
- 왜도 skewness : 자료의 치우친 정도. 자료 대칭성 측도.
- 첨도 kurtosis : 얼마나 뾰족한가. 봉오리 높이 측도
추론 통계 inference statistics
- 수집 데이터로 추론, 예측하는 기법
- 전체 집단을 알수없기 때문 ->제한된 데이터 표본
- 모집단 population : 알고자 하는 전체 집단
- 표본집합 sampling : 모집단으로부터 추출한 집단
다양한 표본 추출 방법
- SRS Simple Random Sampling : 단순 랜덤 샘플링
- 층화
- 집락
- 계통
- PPS Proportional to Population Size : 모집단 크기에 비례하도록 추출
구간 추정
- 신뢰 구간
'수학 > 통계' 카테고리의 다른 글
데이터분석 - 6. R 시각화 (0) | 2020.10.20 |
---|---|
데이터분석 - 5. 확률기초 (0) | 2020.10.19 |
데이터분석 - 4. R그래프들 (0) | 2020.10.19 |
데이터분석 - 3. R기초 2 (0) | 2020.10.19 |
데이터분석 - 2.R 기초 (0) | 2020.10.19 |