728x90

모집단

- 우리가 알고자 하는 대상으로 불확실

- 불확실성을 확률, 확률 분포를 이용하여 측정

 

 

확률

- 확률 실험으로 나오는 일정한 비율(빈도론)을 확률 이해하기 시작

 ex. 동전 던지기, 주사위 던지기 등

 

표본공간 sample space의 예시

- 자동차 수명 

- 동전 던지기 실험

-> 확률 실험으로 구할수 있는 모든 케이스

 

 

사건

- 표본 공간의 부분집합

 

 

조건부 확률

- 사건 B가 발생한다고 가정할떄 A가 발생할 확률

 

 

조건부 확률 예시

- 주사위 눈이 짝수(A)가 나왔을때 3이하 수(B)가 나올 확률

S = {1, 2, 3, 4, 5, 6}

A = {2, 4, 6}

B = {1, 2, 3}

A 교 B = {2}

-> P(B|A) = 1/3

 

역확률 inverse probability

- P(A|B)를 P(B|A)로 바꿔주는것

 

 

베이즈 정리

- 표본 공간 B1, .. Bk로 나누고, A 발생을 가정할떄 Bi에 대한 조건부 확률

- "원인 B -> 결과 A"에서 "결과 A -> 원인 B"

 

배반

- 교사건이 존재하지 않는것

- 사건 A와 사건 B가 동시에 일어날 일이 없는 경우

 

독립 

- 교사건과 각 사건의 곱이 같은것

- 사건 A와 사건 B에 서로 영향을 주지 않음

P(A 교 B) = P(A) P(B)

 

 

독립 예제

- 500원 동전, 100원 동전을 던질때 사건 A, B가 독립인지 보자

* A: 500원이 앞면, B: 100원이 앞면

S = {HH, HT, TH, TT}

A = {HH, HT} -> P(A) = 1/2

B = {HH,TH}  -> P(B) = 1/2

교사건 = HH -> P(교) = 1/4

=> P(A) P(B) = 1/4 = P(교)

사건 A와 B는 독립

 

 

확률 변수 random variable

- 사건을 숫자로 변환해주는 함수

- 표본 공간을 정의역, 실수를 공역으로 하는 함수

확률 질량 함수

- 이산 확률변수 X의 분포

- f(x) = P(X = x), x = 0, 1, 2, ...

 

확률 밀도 함수

- 연속 확률 변수 X의 분포

- f(x) = d/dx F(x)

 

 

기대값 E(X)

- 확률 분포의 무게 중심

 

분산

- 모집단이 중심(기대값)으로부터 흩어진 정도)

 

 

 

결합 확률 분포 joint probability distribution

- 여러 가지의 확률 변수가 동시에 관측

 => 여러 확률 변수에 대한 결합 확률 밀도/질량 함수로 파악

 

결합 확률 질량/밀도 함수

- f(x, y) = P(X = x, Y = y)

 

 

주변 확률 질량/밀도 함수 marginal probability mass/density function

 

주변확률밀도함수 예시

 

기대값 성질

- E(aX + bY) = aE(X) + bE(Y)

- E(X1 + X2 + .. Xn) = E(X1) + . . . + E(Xn)

 

 

한개의 확률 변수를 다룰때

무게중심 기대값과 모집합이 퍼진 정도인 분산에 관심을 가짐

 

하지만 두개 이상의 변수인 경우

두 변수 간의 관계에 관심을 가져야 함

 

 

공분산 Covariance

- 두 확률 변수가 선형적으로 같이 변하는 정도의 측도

Cov(X, Y) = E([X - E(X)] [Y - E(Y)] )

             = E(XY) - E(X) E(Y)

 

 

 

 

상관관계 Correlation

- X의 단위는 명, Y의 단위는 kg 인 경우 공분산 값은 명 kg이 됨 => 표준화가 필요

- 표준화된 두 변수간 선형관계 척도

 

공분산 구하기 예제

 

 

 

 

X, Y가 독립 인 경우

- Cov(X, Y) = 0, Corr(X, Y) = 0

 

 

 

적률 Moment 생성함수

- E(X^K)승과 관련있는것을 만들어줌

- E(X)와 관련 있는것 -> 기대값

- E(X^2)와 관련 있는것 ->분산

- E(X^3) -> 왜도

- E(X^4) -> 첨도

=> 적률 :  기대값, 분산, 왜도, 첨도과 같은 것들

 

 

적률 생성 함수

- 모집단의 적률을 생성하는 함수

 

적률

- 확률 변수 X의 k승에 대한 기대값.

- 적률 생성함수를 k승 미분하고 t를 0으로 하면 구할 수 있다.

 

 

적률 예제 1

적률 예제 2 - X의 적률 생성 함수와, 1차 적률인 기대값

 

조건부 확률 밀도함수의 정의

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 4.연속 확률분포  (0) 2020.10.24
통계 - 3.이산 확률 분포  (0) 2020.10.24
통계 - 1. 통계 개요  (0) 2020.10.23
데이터분석 - 13. 확률기초 4  (0) 2020.10.22
데이터분석 - 12. 확률기초 3  (0) 2020.10.22
728x90

통계학

- 주어진 데이터를 추론, 검정(통계폐키지 -> R, SAS 등)해서 의사 결정에 사용하는것

 

 

통계학의 원리를 수학과 시뮬레이션으로 일반화

- 통계적 추론에 대한 기본적인 이론과 구조 이해

- 확률 분포 이론에 대해서

- 추론 이론 : 빈도론자, 베이즈주의자(베이지안)

 

 

 

 

통계적 추론을 알려면?

- 수학을 이용한 연역적 방법

- 컴퓨터 시뮬레이션

- 통계학의 역사와 철학 :  어떤 원리로 발견되고 사용되었는지..

 

어떻게 통계적인 사고체계를 만들어갈것인가?를 중심으로 ...

 

 

 

 

 

통계적 추론을 하는 이유

- 세상은 불확실하다고 생각. 세상 일부를 관측해서 세상을 추론

- 통계적 추론의 예시 : 100만개의 꽃 씨가 있다. 어느 색 꽃의 씨인지 알수없으나 보라색 꽃의 씨 비율은?

- 불확실한 세상 : 확률로 나타냄

- 세상 일부 측정(표본, 실험, 관측 등) : 불확실한 세상 추론

 

 

이안 해킹

"통계학자는 생각하는 방법, 자기 견해를 내세우는 방법을 변화시켜서 세상을 바꾸었다."

 

 

 

통계학의 정의

- 데이터 측면 적 정의

 -> kendal, stuart : 자연 현상 성질을 측정한 데이터를 다루는 학문

- 불확실성 측면 정의

 -> Cox : 변동성, 불확실성 하에서 의사결정과 관련된 학문

 -> savage : 불확실성에 대한 학문

=> 불확실성, 불안전성, 변동성을 포함한 데이터로부터 지식을 일반화하고 효율적으로 사용할 수 있는 학문

- 통개학 개론에서의 정의 : 관심 대상에 대한 데이터를 요약 정리하여,

                                  불확실한 사실에 대한 결론이나 규칙성을 유도하는 방법

 

 

용어

- 통계학 출발점 : 관심 대상 전체가 아닌 일부만을 조사하여 전체를 파악

- 모집단 population : 알고자 하는 전체 집단(관심 대상)

- 표본 sample : 모집단 일부

- 모집단의 불확실성 -> 확률과 확률 분포로 나타냄

- 확률 : 0 ~ 1 값으로 사건 발생 가능성

  -> 빈도론적 확률 : 그 사건 횟수/ 전체 사건 횟수 => 빈도론자

  -> 인식론적 확률 (주관주의 확률) : 개인적 믿음 확률  => 베이지주의자

- 확률 변수 : 사건을 숫자로 바꿔주는 함수.

      ex. 동전 3개를 던질때, 앞면의 수(확률 변수 : 0, 1, 2, 3)

          주사위를 던질떄 나오는 수( 확률 변수 : 1, 2, 3, 4, 5, 6)

- 확률 변수 probability variable의 불확실성은 확률 분포로 표현

- 확률 분포 probability distribution : 몇개의 모수 parameter를 갖는 수학적 함수로 나타냄

   ex. N(mu, sigma^2), U(b, a)

 

통계량과 표본분포

- 통계량 statistic : 표본의 함수(표본 평균, 표본 분산)

- 표본 분포 sampling distribution : 통계량의 분포( 표본 평균의 평균과 분산, 표본 분산의 평균[=모 분산]과 분산)

 

 

 

추론 inference

- 알고있는 증거로부터 일정한 결론을 도출하는 방법

- 귀납적 추론 : 다수의 관측 증거로 결론을 도출하는것

- 연역적 추론 : 이미 밝혀진 명제로부터 결과를 도출하는것

 

 

통계적 추론 statistic inference

- 모집단으로부터 추출한 표본에서 모집단의 확률 분포(모수) 추측

- 이론적 부분 : 연역적 추론 

- 데이터 분석 : 귀납적 추론 ex. 여론 조사

 

 

 

통계 이론

- 내부를 알고있는 상자에서 공을 임의로 꺼냈을때 주황색 공 x개 나올 확률

 => 주사위를 던졋을때 1이 나올 확률

 

데이터 분석

- 내부를 모르는 상자에 공을 n개 꺼냇을때 x개가 주황색이라면, 상자에서 주황색공 비율

 => 여론조사 : 일부 사람들의 여론을 조사하여 전체 여론을 파악함

 

 

 

 

추론 inference 의 구분

- 추정 estimation

- 검정 test

 

통계적 추론 분야

- 확률 이론 : 확률 분포, 표본 분포

- 추론 이론 : 추정법, 검정법

 

 

빈도론자의 추론

- 2명의 인턴 중 1명 채용 예정. 

- 6개월 동안 20개 과제를 주고 성과의 평균을 비교

 

베이즈주의자 추론

- 과제를 순차적으로 주고, 과제별로 중요성을 다르게 봄.

- 중요성 높은 과제들을 많이 한 사람을 채용

 

 

Lindley의 통계적 추론 정의

- 통계학은 불확실성을 다루는 학문

- 불확실성은 확률로 측정

- 데이터 불확실성은 모수 조건에 따라 측정됨

- 모수 불확실성을 확률로 측정 -> 베이즈 추론, 이게 안하면 빈도론적 추론

- 추론은 확률 분포에 의해 수행

 

 

 

통계적 추론

- 모집단의 확률 변수 X ~ f(x|theta) (ex. N(mu, sigma^2)

- 표본 추출 : X1, X2, .. Xn ~ f(x|theta)

 * 서로 독립이고 동일한 분포를 갖는 확률 표본

- 모수에 적합한 통계량(추정량) 이용 : 대표적으로 표본 평균 bar{X}

- 통계량의 분포(표본분포)로 추정과 검정 수행 : 추정량 bar{X}의 분포 -> 정규분포, t분포

 

 

가능도의 원리 likelihood principle

- 표본의 가능도 함수에 표본으로부터 나타 수 있는 모수의 모든 정보를 가지고 있는 원리

 -> 모수의 정보를 가지고 있다고 생각.

     L(theta | x) = PI f(x_i | theta)

 

충분의 원리 sufficiency principle

- 표본을 요약한 통계략이 모수의 정보를 읽지 않는다는 원리

 

 

베이즈주의자와 빈도론자

- 빈도론자 : 모수는 고정

- 베이지안 : 모수는 확률적으로 분포

 

 

 

 

통계량 선택

- 평균제곱오차 MSE : 모수와 추정량 사이 손실함수의 기댓값

- 모집단이 정규분포일때, 표본 평균은 모평균을 추정하는데 있어 불편성과 효율성을 갖춘 좋은 통계량

 

 

 

 

통계 검정

- 귀무 가설 H0(기존의 사실)과 대립 가설H1(밝히고자하는 가설)

- 제 1종 오류(귀무 가설이 참인데, 이를 기각)와 제 2종 오류(대립 가설이 맞는데 이를 기각하지 못하는)

=> 최적검정 : 제 1종의 오류 기준 하에서 제 2종의 오류를 최소화 하는 검정

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 3.이산 확률 분포  (0) 2020.10.24
통계 - 2. 확률 이론  (0) 2020.10.23
데이터분석 - 13. 확률기초 4  (0) 2020.10.22
데이터분석 - 12. 확률기초 3  (0) 2020.10.22
데이터분석 - 11. 확률기초 2  (0) 2020.10.21
728x90

확률 과정 -> 마르코브 연쇄 -> 전이 연쇄

- 확률 과정 : 시간의 흐름에 따른 확률 변수 모임

- 마르코브 가정 : 미래에서의 확률 분포는 현재에 의존하지 과거에는 의존하지 않음

- 전이 확률 transition probability : 현재 상태에서 타 상태로 변화하는 확률

 

 

확률 과정 stochastic process

- X(t) : {X_0, X_1 ...}

- 시간 변화에 따르는 확률 변수의 모임

 

확률 과정의 예시

- 이산형 : 이용 손님 수

- 연속형 : GDP, 기온

 

확률 과정을 사용하는 이유

- X_{n+1}일때의 상태를 알고싶다!

 

 

마르코브 연쇄

- 간단한 확률 가정의 예시

- 미래의 상태는 현재 상태에 의존,

 

 

 

방통대 확률 과목을 듣고 있는데

 

내용은 몬테카를로 시뮬레이션 까지이긴 한데

 

이 확률 과목 내용들이 빅데이터 분석기사 시험 범위에서 기술 통계에 속하더라

 

그런데 여기는 표본 분포까지 다루지 확률 과정이나 몬테카를로 시뮬레이션까지는 다루질 않는다.

 

예전에 SLAM 공부 한답시고 원서를 시도때도없이 반복해서 보긴햇는데 여전히 잘 생각나지 않는다.

 

아무튼 확률 수업은 여기까지 대충 하고 다음은



 

통계학 부분에 대해서 공부하면 될거같다.

 

통계학 교과목 내용들 대부분이

 

추론 통계 파트와 많이 매치되더라

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 2. 확률 이론  (0) 2020.10.23
통계 - 1. 통계 개요  (0) 2020.10.23
데이터분석 - 12. 확률기초 3  (0) 2020.10.22
데이터분석 - 11. 확률기초 2  (0) 2020.10.21
데이터분석 - 11. 확률기초  (0) 2020.10.21
728x90

표본 비율의 분포

표본 분산의 분포

중심 극한정리

??

 

 

- 표본비율 : 원소가 0, 1로 구성된 모집단에서 추출한 표본들의 평균

 ex. 지지율, 찬성율

- 표본분산 : 모집단에서 추출된 표본의 변동성을 나타내는 통계량

 -> 모분산 추정시 사용

- 중심극한정리 : 표본 수가 증가하면 표본 평균이 정규 분포에 가까워진다.

 

 

 

 

표본 비율 분포 예시 - 지지율

- 1,000명 마을에 대표자 100명 선출.

- 정책 지지도를 구하였더니 100명중 60명이 찬성

- 한사람 한사람은 확률 변수. 각 확률 변수는 베르누이 시행 B(1,p)을 따른다. 

=> 모집단 : 1000명, 표본 : 100명. 지지율(표본 비율) : 60%

 

표본 비율

- 모집단 원소값이 0, 1인 경우에서의 표본 평균

 

 

 

 

 

표본 비율의 분포 구하기

표본 비율 기대값/분산 구하기

 

 

표본 비율

- 이항 분포 B(n, p)을 따르는 확률 변수 Sn(Sigma X_i)를 표본수로 나눈것

- 표본수가 커지면서 S_n은 정규분포에 가까워짐

 

 

 

 

이항 분포

- n이 큰 경우

 

표본 비율의 분포

- n이 클떄 정규분포에 근접해짐

 

 

이항분포의 예시

- 주사위 180번 던질떄 6이 나올 획수가 40이상일 확률

 

 

 

표본 비율 확률의 예시

- 모집단 흡연 비율 0.4인 학생 100명의 흡연 여부조사시. 흡연 비율이 50%보다 클 확률

 

 

 

표본 분산

 

카이제곱 분포 chi square distribution

https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EB%B6%84%ED%8F%AC

 

- 정규 분포 N(mu, sigma^2)인 모집단에서 n개의 확률 변수 X1, X2 ..., Xn

- 정규 모집단에서 표본을 뽑았다는 가정

 

 

 

잠깐 중간부터 좀 꼬이기 시작하는데

 

표본 분산이고, 표본 평균의 분산, 표본 분산의 분산 왜이렇게 얘기되는지 햇갈려서

 

존이 님의 블로그 참고

blog.naver.com/mykepzzang/220850395100

 

 

 

1. 모집단에서 확률 표본 x1, ... , xn을 추출

2. 표본평균과 표본 분산을 다음과 같이 구할 수 있음.

 

 

3. 표본 평균을 새로운 확률 변수로 보자 -> 표본 평균의 평균과 표본 평균의 분산을 구할 수 있음.

ex. 평균 신장

 -> 서울 평균 신장, 대구 평균 신장 등 다 다르므로, 지역별 평균 신장으로 평균과 분산을 또구해볼 수 있다.

 

* 표본 분산의 기댓값은 모집단의 분산과 같다고 한다!

 

 

중심극한정리 total central theorem

- 평균 mu와 분산 omega^2인 모집단에서 n개의 표본을 뽑았을때

- 표본이 커질수록 표본 평균은 정규 분포를 따르게 된다.

 

300x250
728x90

 

 

연속 확률 변수를 따르는 확률 분포

- 연속 균등 분포

- 지수분포

- 정규분포

 

 

 

연속 균등 분포

- 구간에 의해 결정되며, 균등한 확률값을 가지는 확률 분포

 

 

지수 분포와 포아송 분포

- 일정 기간 사건 발생 횟수에 대한 확률 분포 -> 포아송

- 사건 발생 시간 사이 시간(수명)에 대한 확률 분포 -> 지수

 

지수 분포 exponential distribution

- 수명에 대한 확률 분포

- 람다가 작아질수록 평균수명이 길어짐.

예제

- exp(3) 을 따르는 지수분포에서 x<1일 확률

- 어느 지역에서 교통사고가 평균 5시간 간격으로 발생. 다음 사고가 5시간 이후 발생 할 확률?

 

 

정규 분포 normal distribution

- 일반적으로 사용되는 확률 분포로 기대값을 중심으로 좌우 대칭인 확률 분포

 

 

 

 

 

확률 분포 대강 정리?

 

균등분포 : 모든 확률이 동일한 분포

배르누이 분포 : 한 사건이 서로 배반인 사건에 대한 분포

이항 분포 : 배르누이 시행을 독립적으로 n번했을때 성공한 경우에 대한 확률분포

초기하분포 : 모집단 크기가 N에서 표본 n개를 비복원 추출한 경우에 대한 확률 분포

포아송분포 : 일정기간동안 시행횟수가 크나 발생할 확률이 극히 적은 경우에 대한 확률분포

지수분포 : 사건 발생 사이 시간(수명)에 대한 확률 분포

정규분포 : 기댓값을 중심으로 분포한 확률분포

 

 

 

 

 

 

 

 

다변량 확률 분포

- 결합 확률 분포 joint probability distribution : 두개이상의 확률 변수로 이루어진 확률분포

- 주변 확률 분포 marginalized probability distribution : 결합 확률 분포를 구성하는 확률 변수에 대학 확률분포

- 공분산 covariance : 두 확률 변수간 선형관계성을 나타내는 지표

- 상관계수 correlation : 공분산을 표준편차로 나누어 표준화한것

- 다변량 정규분포 : 다변수로 이루어진 정규분포

- 다항분포 ; 다변수 이행분포

 

 

결합 분포

- 두 개이상의 확률 분포로 이루어진 확률 분포

 ex. 키와 몸무게의 관계?

 

결합확률질량 함수와 주변 확률 분포

 

결합확률밀도 함수와 주변 확률 분포

 

 

 

 

공분산 covariance

- 두 변수간의 선형적 관계

- Cov(X, Y) = E([X - E(X)][y-E(Y)]) = E(XY) - E(X)E(Y)

공분산 계산

공분산 특성

- Cov(X, 상수 a) = 0

- 두 확률 변수 X, Y가 독립 -> Cov(X, Y) = 0

 

상관 계수 Correlation

- 두 변수간 선형 관계를 나타내는 공분산을 두 변수의 표준편차로 나누어 표준화 시킨것

 

 

조건부 분포?

- Y값이 주어질떄 X에 대한 확률 분포 

 

정규분포

 

 

 

통계량과 관련된 분포 -> 표본 분포

 

 

통계 관련 용어

- 모집단 population : 알고자 하는 전체 집단

- 표본 sample : 모집단에서 추출한 일부분. 모집단을 잘 나타낼수있도록 임의로 잘 추출되어야 한다.

- 표본 분포 sample distribution : 표본들로 이루어진 확률 분포

- 대수의 법칙 : 표본의 수가 많아질수록 표본 평균이 모집단의 평균, 실제 평균에 수렴함.

- t 분포 : 정규 분포를 따르는 모집단의 분산을 모르는 경우 표본 평균의 분포

 

 

 

통계적 추론

- 통계 이론 : 안을 아는상자에서 n개의 공을 임의로 꺼냈을떄 빨간공이 x개 나올 확률?

- 통계 분석 : 안을 모르는 상자에서 n개의 공을 꺼냇을때 x개가 빨간공이라면 상자에서 공은 %나 있을까?

    => 모집단에서 표본을 추출하여 모집단의 통계량을 추정해보자

  ex. 국의 맛을 알려면 한숫가락만 마셔도 되지..?

 

 

 

모수와 통계량

- 모수 parameter : 모집단의 특성을 나타내는 미지의 상수 

 ex) 정규 분포의 평균 mu 과 분산  sigma^2

 => 우리는 모집단의 모수를 추정해야한다.

- 통계량 statistic : 모수를 추정하기 위한 표본의 함수

 ex) 표본 평균과 표본 분산

 => 표본이 갱신될떄마다 통계량. 즉 표본 평균과 표본 분산은 달라질 수 있다!

 

통계적 추론 과정

 

 

주사위로 모수 추정하기

- 모집단의 평균과 분산

 

- 표본 평균과 표본 분산 계산

- 모평균 mu, 분산 sigma^2인 모집단에서 샘플을 임의로 뽑았을떄 표본 평균과 표본 분산

 

 

대수의 법칙

- 표본의 수가 클수록 표본평균 bar{X}는 모평균 mu에 수렴

 

 

 

 

표본 평균의 분포?

- 표본 평균의 분포가 정규분포를 따르지 않는 경우가 많음 => t분포가 나옴

 

t분포

- X1, X2, ..., Xn이 서로 독립, N(mu, sigma^2)에서 분산을 모를때

- 정규분포를 따르는 정규분포의 분산을 모를떄 => 표본 평균은 t분포를 따른다.

- 자유도가 커질수록 정규 분포에 가까워 진다.

https://ko.wikipedia.org/wiki/%EC%8A%A4%ED%8A%9C%EB%8D%98%ED%8A%B8_t_%EB%B6%84%ED%8F%AC

 

 

 

 

 

300x250
728x90

용어

- 기댓값 expectation : 확률 변수 평균. 중심의미의 지표

- 분산 variance : 확률 변수의 변동성. 즉 흩어진 정도를 나타냄

- 표준 편차 standard deviation : 분산을 제곱근하여 확률 변수와 같은 단위로 표준화한것

 

 

기댓값

- 확률 분포의 중심

- 확률 변수 기댓값을 모집단 평균 \mu로 표기

 

 

 

 

기댓값 구하기- 복권

 

주사위 기댓값

 

연속 확률 변수/ 이산 확률 변수의 기댓값

 

 

연속 확률 변수 기대값 계산 예시

 

 

 

 

분산

- 확률 변수 값들이 기댓값을 중심으로 퍼져있는정도로 \sigma^2

표준편차 standard deviation

- 분산을 제곱근하여 구함

 

동전을 한번 던져서 나오는 확률에 대한 분산과 표준 편차를 구하시오

 

 

 

주사위 눈금 변수와 분산의 표준 편차

 

 

연속 확률 변수의 분산과 표준편차를 구하라

 

 

이산 확률 분포

- 이산 균일 분포 : 이산 확률 변수 모든 값의 확률이 같은 확률 분포. ex : 동전 던지기, 주사위 던지기

- 초기하 분포 : 2개의 군으로 구성된 모집단에서 표본을 비복원 추출시 분포. ex 불량품 갯수

- 베르누이 분포 : 한 실험이 두 배반사건으로 구분될떄 사건 발생 여부에 대한 확률 분포

 

 

이산확률 변수

- 셀수있는 값인 확률 변수

- 주사위 눈, 앞/뒤, 불량품 개수

<-> 연속형

- 이산 확률 분포 : 이산 균등분포, 초기하 분포, 이항 분포, 포아송 분포

 

 

이산 균일 분포

 

 

 

초기하분포

- 모집단에서 표본을 비복원 추출하는 분포

-> 불량여부,  공색깔, 실패여부

- 모집단 크기 N, 표본 갯수 n, 불량 수 D 인 경우 불량품 갯수에 대한 확률 분포

초기하 분포 예제

 

 

베르누이 시행

- 실험이 두가지 서로배반인 사건 뿐일때 시행

-> 동전 앞면 뒷면, 성공/실패, 합격/불합격

 

베르누이 분포

 

 

이항 분포

- 베르누이 분포를 따르는 시행이 독립적으로 이루어졌을때 성공 횟수에 대한 분포

 

 

이항분포와 초기하 분포의 관게

- 초기하 분포에서 표본수가 커질수록 이항분포로 근사화됨

- 비복원 추출을 하면 초기화 분포, 복원하면 이항분포.

 

 

포아송 분포

- 이항 분포의 특이한 경우. 일정 기간동안 희귀하게 발생하는 사건 건수의 분포

- 발생 가능성 p은 매우 작으나 시행 횟수 n이 굉장히 큰 경우에 대한 확률 분포

ex. 교통사고 사망자, 희귀질병 사망자 등

 

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250
728x90

잠깐 배운 통계 과정을 정리해보자

 

대강 생각나는대로

 

1. 데이터 읽기

2. 데이터 시각화

3. 데이터 분석

 

크게 이정도로 정리할 수 있을거같다.

 

데이터 분석 시 고려사항

- 보정 

- 쪼개기 

- 아웃라이어 : 아주 이상한 값

- 결측치 : 빠진 값

 

 

 

통계학 분류

- 기술 통계 descriptive statistics : 수집한 데이터 정리, 묘사

 -> 평균, 분산, 표준편차, 왜도(기울어진 정도), 첨도(뾰족한 정도) 

- 추론 통계 inference statistics : 수집한 데이터로 예측 함

 -> 모집단(알고 싶은 전체 집단)에서 샘플링하여 샘플링(표본) 데이터로 추론

 

 

표본 추출 기법

- SRS Simple Random Sampling, 층화, 집락, 계통, PPS

 

추론 통계

- 점 추정

- 구간 추정

 

탐색적 자료 분석

- 기술 통계 + 시각화 + 기초 통계 분석 => 전체를 탐색적 자료 분석이라 함.

 

데이터와 변수 구분

- 데이터 구분 : 문자형(순서형, 명목형), 숫자형

- 변수 구분 : 단변수, 이변수, 다변수

 

 

 

기초 통계 분석->상관관계 분석

- 산점도와 상관계수

- 변수 고려

- 비모수적 접근

 

 

상관관계 correlation

- 두변수간 연관성, 선형성, 일관성 이 얼마나 강한가

- 상관관계는 -1 ~ 1사이 값으로 0은 직선이 아님 1일수록 직선에 가까워짐

- 분석 방법 : 산점도 보기, 상관게수 보기

 

 

요인과 수준(클래스, class)

- 요인 factor : 범주형 데이터 변수(ex. 계절)

- 클래스 class : 한 요인에 존재하는 집단의 갯수(ex. 계절-4개)

 

 

문자 데이터 분석

- 카이 제곱 검정 chi sqaure test

- 정확 검정 exact test

- 트랜드 검정 trend test

 

카이 제곱 검정

- 교차 테이블 contingency table에 대한 검증으로 다음의 2가지 검정이 존재

  * 교차 테이블 : 두개 이상의 독립 변수끼리 눈에 보이게 한 표

- 적합도 검정 coodness of fit test : 관측 값들이 특정 확률을 따르는지 확인

- 독립성 검정 : 요인간에 연관관계 여부에 대한 검정. 독립 여부

 

정확 검정 exact test

- 기대도수가 작은 경우 사용.

 

트렌드 검정

- 독립 변수에 순위가 존재하는 경우(고도비만, 비만, 정상) 순위 증가에 따라

- 종속변수 비율 증감에 대한 경향 검정

 

 

변수 갯수에 따른 선형 회귀 분류

- 단변수 선형 회귀 : 독립 변수가 한개

- 다변수 선형 회귀 : 독립 변수가 여러개인 경우 선형 회귀

 

회귀 분석

- 수학적 모형을 가정하고, 이 모델로부터 데이터를 추정하는 기법

- 선형 회귀 모델은 OLS 상최소제곱법으로 만듬

 

 

다중공산성 문제

- 독립변수가 여러개인 경우 독립 변수간에 상관관계를 가지는 문제

 => 상관관계를 갖는 독립변수를 조합하여 하나로 만들거나 하나를 없앰

 

 

 

 

확률, 여사건, 오즈, 로짓, 오즈비

약과 생존 여부에 관한 오즈비

로지스틱 회귀분석

- 링크 함수 f(X) 대신 로짓을 사용한 회귀식

 

오즈비 구하기

- 일어날 확률에 대한 오즈/일어나지 않을 확률에 대한 오즈

 

 

 

 

전처리

 

 

 

로지스틱 회귀 분석기 학습 과정

- family 파라미터로 로지스틱 or 포아송 등 회귀분석기 적용

 

 

로지스틱 회귀분석 모델 해석

 

 

moonBook 라이브러리의 오즈비 플롯

- ORplot(모델) 

 

 

 

평가 및 교차 테이블

- ifelse로 0.5넘으면 1 아니면 0으로 판단

- table()함수로 교차 테이블 contingency table 확인

* 카이제곱 검증 -> 교차테이블 검증

 

 

caret 라이브러리의 confusionMatrix 함수

- 혼동행렬, 통계값들 출력

 

p value(probabilistic value)

- 유의 확률  significance probability이라고도 부름

- 귀무가설이 맞다고 가정할때 얻은 결과보다 극단적 결과가 실제 관측될 확률

- 0 ~ 1사이 값

https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0

귀무 가설 null hypothesis

- 또는 영가설이라 부르며 통계학에서 처음부터 버릴것을 예상하는 가설

- 의미없는 경우/실제 있기힘든 경우에 대한 가설

 

 

decision tree 의사결정 나무 학습법

- 트리 구조를 이용한 의사 결정 학습법

1) 어느 변수를 가장 먼저 분류해야하는가?

2) 변수 어느지점에서 분류해야할까?

- 엔트로피, 지니계수 등 활용 : 무질서도

=> 모든 변수를 평가해서 무질서도를 가장 낮출수 있는 변수를 맨위에서 분기

3) 언제까지 분류해야하는가 proning

 

https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC_%ED%95%99%EC%8A%B5%EB%B2%95

 

결정트리 평가

- 트리 모델 생성 후 플로팅

- 예측 후 평가

 

 

 

SVM Support Vector Machine

- 마진을 가장 크게하는 분류 경계면 decision boundary을 찾음

- 2차원 보다 다차원에서 고차원 평면 hyperplnae으로 잘분할

 

 

 

SVM 평가

- SVM 모델로 predict 시 확률이 아니라 1, 0로 나와 중간 과정은 주석처리

- 바로 confusionmatrix로 확인

 

 

앙상블 학습법

- 머신러닝에서 완벽한 모형은 찾기 힘듬 -> 튜닝(파라미터 조절)을 해도 힘듬

- 여러 모델을 활용하여 더 개선된 결과를 획득

http://itwiki.kr/w/%EC%95%99%EC%83%81%EB%B8%94_%ED%95%99%EC%8A%B5

 

랜덤 포래스트

- 트리들의 집합

- 임의의 트리들을 사용

- 가장 잘 분류하는 트리들의 집합을 구함

 

- 평가

 

 

ROC 커브

- x축에 1- 특이도specificity, y축에 민감도 sensitivity

- 0.8 정도면 좋다.

300x250

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 11. 확률기초 2  (0) 2020.10.21
데이터분석 - 11. 확률기초  (0) 2020.10.21
데이터분석 - 9. 회귀모형  (0) 2020.10.21
데이터분석 - 8. 베이즈 이론  (0) 2020.10.20
데이터분석 - 7. 시각화 2  (0) 2020.10.20
728x90

MSE vs LSE

- MSE와 LSE를 볼때마다 수식이 똑같다보니 햇갈리곤 한다. 누가 그래서 stack overflow에 질문 글을올렷더라

- LSE는 직선과 데이터 사이 총 유클리디안 거리 최소화에 활용 => 모델 생성용

- MSE는 모델 성능 평가 지표

ref : stats.stackexchange.com/questions/146092/mean-squared-error-versus-least-squared-error-which-one-to-compare-datasets

 

 

 

OLS, RMS, MSE, LSE

- Ordinary Least Square : 선형 회귀 모델을 만들기 위한 선횡 최소 제곱법

- Root Mean Sqaure : 제곱 평균 제곱근 (실효값, 집단의 특성을 나타냄)

- Mean Square Error : 모델 성능 평가 지표

- Least Square Error : 모델 생성용. 거리 최소화에 사용

 

 

 

R 연산자

- a ~ b : b 독립변수, a 종속변수

- a$b : a데이터 프레임의 b 변수

ref : m.blog.naver.com/PostView.nhn?blogId=tjsqjavmfh&logNo=221316941091&proxyReferer=https:%2F%2Fwww.google.com%2F

 

 

geom_smooth()

- 디폴트로 국소 회귀방식 사용

 ref : m.blog.naver.com/je1206/220804412313

 ref : kuduz.tistory.com/1118

 

- 선형 회귀 구함

 

다중 공선성 문제 multicollinearity

- 독립 변수들이 상관관계가 클수록 회귀 계수 추정이 힘듬

ex)

 y: 악력의세기

 x1 : 태어난 날짜

 x2 : 나이

=> 독립 변수를 하나만 사용하던가, 조합해서 새로운 변수를 만들거나 결정을 해야함

 

 

 

독립변수간 상관관계가 높은지 파악하는 방법

1. 독립 변수들 간의 산점도를 그려 파악

2. 수치적인 파악 :  VIF variation inflation factor 분산 팽창 지수 혹은 Tolerance 계산하여 파악

 

 

 

str() 함수

- 데이터 구조 확인

 

선형 회귀 모델 생성

- lm(종속변수~독립변수, data= 데이터프레임)

=> speed 기울기 intercept y절편

 

 

 

summary() 함수

- 모델 요약

- Multiple R-sqaure : 설명 유역 => 0~1사이 값으로, 이 모델로 65% 정도 설명가능

- Adjusted R-Square 

 

 

 

R_j^2의 의미

- 모델에서 j번쨰 변수를 종속변수로 하였을때의 결정계수

 

단변수 선형회귀 모델과 다변수 선형 회귀 모델

- lm(종속변수~독립변수(+독립변수 ...),data=데이터프레임)

 

앞으로 해야할일

- 결과 해석 방법

- 문자 데이터 해석 방법

 

 

 

총 변동 SST Sum of Square of Total

- 총 변동 = 회귀 직선으로 설명가능한 변동(분산) + 회귀선으로 설명 불가 변동

  => 두 변동의 비율로 예측 변수 효과 판단

- SST = SSR + SSE

- SSR sum of square of regression : 회귀 직선으로 설명 가능한 변동

- SSE sum of square of error : 회귀 선으로 설명하고 남은 나머지 변동

 

 

 

결정계수 R^2

- R^2 = SSR/SST

- 추정 회귀선이 변동을 얼마나 잘 나타내는지 표현

adjusted R^2 수정 결정계수

- 다중 회귀 분석에서 독립변수가 증가시키면 결정계수가 증가하는문제의 대안으로 사용

 

 

 

계수 해석 방법?

- 숫자형 데이터 : x에 대한 y의 증감

- 범주형 데이터 : 기준ref을 정하여 기준값 ref에 비례 -> 더미 변수 dummy variable

 

 

더미 변수

- 범주형 변수를 연속형 변수처럼 만들며 0,1의 값을 가짐

 

성별 예시

- 성별 변수 gender의 값을 F, M으로 표현

1. 더미 변수로서 성별 변수 gender를 더미 변수 Female로 변환

2. Female 변수에서 1은 여성 0은 남성이 됨

 

계절 더미변수 해석

- 봄인 경우에 어떻더라, 여름인 경우에 어떻더라

 

 

 

 

 

유의성

- 변수에 대한 유의성

- 모델에 대한 유의성

=> P-value

 

 

 

다중 공산성 문제 해결 방법

1. 적절한 변수 선택

2. 데이터, 모델 보완

3. 추가적 관측치 구하기

 

 

 

변수 선택법

- 과적합 overfitting 문제로 좋은 변수들만 선택하는 것이 중요

- 1. 전진 선택법 forward selection : 가장 유의한 변수부터 하나씩 추가하는 방법

- 2. 후진 제거법 backward selection : 모든 변수로 변수만든후, 가장 유의하지 않은 변수부터 제거하는 방법

=> 문제점 : 한번 선택되면 다시 들어가거나 빠지기 힘듬

- 3. 단계적 방법 stepwise selection : 들어가거나 빠질 수 있음

 

 

 

 

로지스틱 회귀분석 logistic regression

- 선형 회귀분석에서 종속변수는 연속형 변수(키, 몸무게 등)

- 종속 변수가 변주형 범주형인 경우를 다룸(남/여, YES/NO 등)

 => 범주가 2개라면 이분형 로지스틱 회귀 분석

 

 

 

오즈 odds

- 일어날 확률과 일어나지 않은 확률의 비율

=> 실패에 비해 성공할 확률

 

 

 

 

300x250
728x90

베이즈 정리

- 역확률이라고 할수있음.

- 주어진 정보로 모르는 확률을 구함.

 

 

조건부 확률이란?

- 어떤 사건이 발생했다고 가정할때 다른 사건이 발생할 확률

 

주사위를 던질때 1이 나올 확률?

- S = {1, 2, 3, 4, 5, 6}

- A = {1}

- P(A) = 1/6

 

주사위를 던질때 짝수가 나올 확률

- B = {2, 4, 6}

- P(B) = 1/2

 

주사위 눈이 1, 2, 3 뿐이라는 정보를 알때 1이 나올 확률

- S = {1, 2, 3}

- A = {1}

=> P(A) = 1/3

 

주사위 눈이 1, 2, 3뿐일때 짝수가 나올 확률

- S = {1, 2, 3}

- B= {2}

=> P(B)=1/3

 

사건 B가 주어질때 사건 A가 일어날 확률

=> P( A | B) 조건부 확률 conditional probability

 

 

 

추론 방식? 확률을 다루는 두가지 관점

- 빈도론자 : 평균이 높은 사람이 우수

- 베이지안 :  조건부 확률 계산

 

 

빈도론 Frequentism, 빈도론자 Frequentist

- 빈도론적 확률론

- 사건의 빈도에 중점을 둠

 

 

베이지안 bayesian

- 사전지식의 불확실성을 다룸

- 확률을 믿음의 정도 belief of degree로 다룸

 

 

 

베이즈 정리

- 주어진 정보(사건 A, 사전 확률)로 또 다른 정보(사건 B일 확률, 사후 확률)을 구하는 것

- ex. A번 라인에서 불량품이 나올 확률 -> 불량이 나왔는데 A번 라인일 확률

 

 

전체 불량률

 

 

 

불량품이 나왔는데 B1 라인의 경우?

 

 

통계 수강생중 10%가 A학점, 비전공자중 A 받은 학생이 전체의 5%, A학점 받은 학생이 비전공자일 확률

베이즈 정리

1. 주어진 정보로 전체 확률을 구함

2. 역확률 계산

 

 

 

전체 인구 중 질병에 걸릴 확률, 진단 시약이 질환자 중 98% 양성, 비질환자중 90% 음성

- 진단 결과가 양성일때 질병에 걸릴 확률

 

- 진단 결과 음성인데 질병에 안걸렷을 확률

 

 

독립

- 사건 A에 대한 정보로 사건 B에 관한 정보를 얻을수 없음

배반

- 사건 A와 사건 B가 공통이 없는 경우

 

 

확률 변수 관련 개념

- 확률 변수 random variable : 확률 실험에서 실험을 수로 표현한 변수

- 확률 분포표 : 확률변수값에 확률을 대응한 표

- 누적확률분포함수 cumulative probability distribution funtion :확률 변수 어느값 이하로 누적하여 구한 함수

- 확률 질량함수 : 이산 확률변수(셀수 있는)의 확률 표현

- 확률 밀도 함수 : 연속 확률 변수(셀수 없는)확률 표현

 

 

300x250
728x90

ggplot

- hadley wickham 이 개발한 데이터 시각화 패키지로 가장 대중적임

- 쉬운 기능 추가

- +geom_point()과 같은 명령으로 산점도나 boxplot 등을 띄울 수 있다.

ex. geom_point, geom_line, geom_boxplot

 

- 색상 속성 추가 : aes(color=변수)

- 형태 지정 : aes(shape=factor(변수)

 

- 크기 변환: aes(size=변수)

 

 

 

 

 

facet_grid

- 쪼개기

 

 

 

 

geom_bar

- 바 그래프 그리기

- 막대 폭 지정 geom_bar(width=.5)

- 플립 시키기 -> x축 범주가 많은 경우 플립 시켜서 보는게 좋다.

 

 

 

plotly

- ggplot 결과물이 인터렉티브 반응형이 되도록 하는 패키지

 

 

 

 

 

 

 

 

 

 

 

연습하기

- 목표

 

 

 

결과

 

쪼개봄의 중요성

- 데이터 간 상관관계를 명확하게 파악할 수 있게 됨

 

 

 

 

tableau

- 데이터 시각화 프로그램

- 엑셀 데이터를 바로 시각화

- no coding

 

 

상관관계 분석

- 상관관계 : 두 변수사이의 선형성적 관계를 나타냄

- 공분산 : 두 변수가 같은 방향으로 움직이는 정도

- 상관계수 : 공분산을 표준편차로 나눈값

* 아웃라이어로 인해 상관계수가 크게 변동 될수 있ㅇ므

 => 아웃라이어를 잘 찾아서 제거해야함

 

 

cor 함수

- 상관관계 구함

- 숫자 데이터가 필요 -> str() 함수로 데이터 프레임 확인

 

- 일부 추출하여 확인한 상관관계 결과

 

 

 

corrplot

- corrplot 상관관계를 plot 해주는 패키지, 함수

 

 

상관관계 구분

- spearman의 상관관계 : 단조성

 

 

 

 

문자형 데이터 분석 방법

- 문자형(범주형)자료 분석 -> 빈도 검정

- 카이 제곱 검정

- 정확 검정

- 트렌드 검정

 

 

 

카이제곱 검정 2가지

- 적합도 검정 : 관측값들이 특정 확률을 따르고 있는지 검정

- 독립성 검정 : 요인들이 서로 연관있는지 없는지 검정

- 관측값과 예측값의 차이가 클수록 연관성이 있다고 본다.

 

 

독립성 검정

- 두요인이 연관되어있는지 독립적인지 검정

- 귀무가설 H0 : 알고 있던 사실

- 대립가설 H1 : 알고자 하는 사실

 

 

카이제곱검정 

- 교차 테이블 contingency table에 대한 검정

 

분할표

- 분할표 contingency table or 교차표 cross tabulation 이라고도 부름

- 2개 이상 문자형 독립변수를 상호관련시켜 한눈에 보이게 한 표

  암=양성 암=음성
성별=여성 12 2443
성별=남성 31 5674

 

 

자유도 degree of freedom

- 자유롭게 움직일수 있는 정도

- ex. 10개의 데이터 중 9개의 값을 알고, 평균 값을 안다. => 모르는 1개의 값이 정해짐

 

 

카이제곱 검정 수행

- chisq.test(분할표)

 => 두개의 문자형 변수 데이터에 대한 연관성을 검증

 

 

fisher의 정확 검증 exact test

- 기대도수가 5이하인 cell이 25%이상일 떄 사용.

- 카이제곱 통계량이 불안정할수 있으므로 사용

 

 

 

 

트랜드 검정 trend test

- 독립변수 순위가 있는경우 (고도비만, 비만, 정상체중 등) 순위 증가에 따라

- 종속 변수 비율이 증가/감소 경향 확인함

 

 

 

 

 

회귀 분석

1. 모델링 : 단변수 선형 회구, 다변수 선형 회귀

 + 다중공선성 문제(독립 변수간 영향 주어서, 연관성으로 인해 발생)

2. 모델 해석 result

 - 계수 해석 -> 표준화 계수 \beta

 - 계수의 유의성

3. 모형 설명력 result

 - 어떤 (회귀 모형) 모델이 최적의 모델인가?

 - 모형 유의성 

 - 모델 설명령

 - R^2, adjusted R^2

4. 모형 선택 selection

 - 변수선택 기법

 - 모형 비교

5. 예측 prediction

- 잔차(실제값과 예측값의 차이)와 적합치

6.1 가정체크

6.2 이상치

 

 

 

모형의 종류

- 수학적 모형 : input 에 대한 output 오차가 x

- 통계적 모형 : 오차를 가지고 있는 모델

 

 

 

회귀 분석

- 변수들의 관련성을 규명하기 위해 어떤 수학적 모형 가정

- 이 모형과 측정된 변수들을 이용하여 데이터를 추정하는 통계적 방법

- 독립변수로 종속 변수 값을 예측하는데 사용.

 

단순 선형 회귀 simple linear regression

- 독립변수 1개

다중 선형 회귀 분석 multiple linear regression

- 독립변수 2개

 

 

 

선형 회귀 모델 구하기

- lm 함수 lm(formula= y~x, data= dataframe)

 => cars 내장 데이터 사용한 결과 y절편 -17.579, 기울기 3.932

- abline(lm())으로 plot 결과에 띄울 수 있음

300x250

'수학 > 통계' 카테고리의 다른 글

데이터분석 - 9. 회귀모형  (0) 2020.10.21
데이터분석 - 8. 베이즈 이론  (0) 2020.10.20
데이터분석 - 6. R 시각화  (0) 2020.10.20
데이터분석 - 5. 확률기초  (0) 2020.10.19
데이터분석 - 4. R그래프들  (0) 2020.10.19

+ Recent posts