728x90

변수 바꾸기, 결측치처리, 이름바꾸기, 라벨, 라벨 변환 등

 

 

 

 

 

 

 

 

 

 

 

 

 

 

결측치 제거

na.omit(데이터프레임)

 

 

 

변수명 변경

names(dataframe)[index]

 

 

 

변수명 바꾸기

 

 

colnames(dataframe)

 

 

 

 

값 라벨 value label

- 숫자로 입력된 값을 라벨로 바꾸기

ex. job 1 = 근로자, 2= 사무직

   edu 1=무학자, 2=초졸 3=중졸

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250
728x90

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 3. R데이터처리, dplyr  (0) 2020.10.28
파이썬R - 2. R 데이터처리  (0) 2020.10.27
통계 - 16. 실험계획법과 검정  (0) 2020.10.27
통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
728x90

용어 

- 요인 factor : 결과값의 산포에 영향을 주는 원인들 중 실험에서 직접 취급되는 원인

- 반응 response : 실험의 결과로 얻어지는 양적자료

- 수준 level : 실험을 하기 위한 요인의 속성 

- 처리 treatement : 요인의 수준 혹은 요인 수준의 좋바

- 실험 단위 experimental unit EU : 처리받는 대상, 다른 처리가 가해지는 최소 단위

- 관측 단위 Observational unit OU

 

 

 

 

일원 배치법 One-way ANOVA

- 고려하는 요인이 하나인 경우로 완전 랜덤화 설게를 전제로함

- 각 처리에 대한 데이터들은 정규분포를 따르는것을 가정

- mu_i = i번쨰 처리의 모평균

- 공통분산 sigma2를 가정

- 균형자료(등반복실험)을 가정

- 데이터 구조  => i번째 처리에서 j번째 반복을 함

- 모형

- 가설

- 분산분석표

- 총변동 등 정리

 

 

 

 

 

 

MS 제곱평균 Mean Square

 

 

 

 

 

 

완전 랜덤화 설계 CRD Completely Randomized Design

- N = rt 개의 EU를 사용하여 t개의 처리 비교

 

 

 

 

이원배치법

- 고려하는 변수가 2가지 있을떄.

 

 

 

범주형 자료분석

 

 

적합도 검정 goodness of fit test

- 관측 결과가 가설에 의해 주어진 확률분포를 잘 따르는지 확인하는 검정방법

 => 관측 도수의 기대도수에 대한 적합성여부 판정

- 가설 

 H0 : 관측 도수는 기대 도수를 잘 따른다.

 H1 : 관측 도수는 기대 도수를 잘 따르지 않는다.

- 검정 통계량 

 

 

 

 

 

 

1. 범주형 자료분석 (독립성 검정)

- 범주형 대 범주형

- 귀무 가설 h0 : 두 범주형 변수간 차이 x, 관계 x, 영향 x

- 대립가설 h1 : 두 범주형 변수간 차이 o, 관계 o, 영향 o

 => 우리는 두 변수간에 관계, 영향이 있는지 알고싶기 때문

 

2. 분산 분석

- 범주형 vs 연속형

- 귀무가설 h0 : 범주형 변수의 수준별로 연속형 변수의 평균이 같다. 동일하다.

- 대립가설 H1 : 범주형 변수의 수준별로 연속형 변수의 평균이 같지 않다.차이가 있다.

 

 

3. 상관 분석

- 연속형 vs 연속형

- H0 : 두 변수는 관계가 없다. 독립이다.

- H1 : 두 변수는 관계가 있다. 의존이다.

 

 

4. 회귀 분석

- 연속형 vs 연속형

- 상관 분석과 차이점은 X, Y가 존재하여 X가 Y에 영향을 주느냐가 중요

- H0 : 독립변수가 종속변수에 영향을 미치지 않는다.

- H1 : 독립변수가 종속변수에 영향을 미친다.

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 2. R 데이터처리  (0) 2020.10.27
파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
728x90

표본 분포

- 임의 현상에 대한 추론을 위해 모집단 population을 설정하는것은 통계분석에서 중요

 -> 구성 원소 sampling unit 전체를 조사 census 하는것은 불가능

 

확률 분포 random sample

- 모집단의 각 구성원이 고르개 추출한 표본

- 특정한 확률 분포를 따르는모집단으로부터 독립적으로 관측(추출)된 표본

 

 

 

 

통계량 statistics

- 관측 가능한 확률 표본에 댛나 함수

- 확률 변수들을 대입하는 함수로, 통계량 또한 확률 변수가 된다.

 -> 통계량의 확률 분포 : 표본 분포 sample distribution

- 모수는 관측하지 못하므로 모수는 통계량은 아님

- 표본의 함수인 통계량을 이용하여 통계적 추론을 수행

 ex. 표본평균과 표본 표준 편차

 

 

검정 통계량 test statistic, T0 T(X)

- 모수에 대한 가설 검정에서 사용하는 통계량

 

 

 

중심극한정리 central limit theorem

- 평균이 mu, 분산 sigma2인 모집단으로부터 n개의 확률표본 추출시 n이 충분히 큰 경우

-> 표본 평균은 모집단 분포에 상관없이 평균mu, 분산 sigma2/n인 정규분포에 근사

 

통계적 검정 오류

- alpha 가 더 중요 하므로 1종 오류를 어느정도 줄인뒤 2종오류를 최소화함

 

 

예시

- H0 : 약품에 효과가 없다

  => 1종 오류 : 약품에 효과가 없지만 있다고 결론

- H1 : 약품의 효과가 있다.

 => 2종 오류 : 약품의 효과가 있지만 없다고 결론

위 경우 1종 오류가 더 크게 위험

 

 

유의 수준 significance level : alpha

- H0이 사실일떄, 이를 기각하는  제1종오류를 범할 확률

- 유의수준은 연구자가 상황에맞게 설정. 0.1, 0.05(흔하게), 0.01 등 주로 사용

 

 

기각역 ciritical region, reject region : C, Calpha

- 유의수준 alpha 하에서 귀무가설 H0을 기각하는 검정통계량의 값의 범위

 => 귀무가설을 기각하는 영역

 

 

유의 확률 p value

- 귀무가설을 기각할수 있는 최소 유의수준 = 귀무가설의 타당성정도

- 유의 확율이 크다면 타당성도 크다 =-> 채택

- 유의확률이 작다면 타당성이 낮아서 귀무가설 기각

 

 

 

 

가설검정의 의사걸졍방법

1. 검정통계량과 기각역 비교

 -> 귀무가설하에서 검정통계량의 값이 기각역에 속하는가?

 : T0 가 C_alpha에 속하면 H0를 기각

 

2. 유의수준과 유의확률 비교

 : p-value < alpha이면 H0 기각

 

 

 

가설 검정 절차

1. 가설 설정 : H0, H1 

2. 유의수준 설정 : alpha

3. 표본 관측 : X1, ..., Xn

4. 검정 통계량 선정 및 귀무가설 하에서 계산 : T0

5. 유의수준 alpha인 기각역 설정 : C_alpha

6. 의사결정 : T0가 C_alpha에 속하면 귀무가설을 기각, 아니면 채택

 

 

 

 

가설 검정하기 - 평균 검정

- X1, ..., Xn이 N(mu, sigma2)를 따를때

   * iid : 독립, 동일 분포 independently identicaly distributed (즉, 표본을 의미)

- 귀무가설 H0 : mu = mu0 vs

- 대립가설 H1 : mu > mu0(우측단측가설/검정)

               H1 : mu < mu0(좌측단척가설/검정)

              H1: mu != mu(양측 가설/검정)

 

- 분산 sigma2가 알려진 경우

  H0하에서 검정통계량

- 기각역

 1) H1 : mu > mu0, Calpha = {T0 > Z_alpha} => T0 > z_alpha 이면 H0 기각 

   => 대립가설 mu > m0이면  기각역은 T0> Z_alpha.   검정통계량 T0가 z_alpha이면 기각역에속함 귀무가설 H0기각

 2) H1 : mu < mu0, Calpha = {T0 < Z_alpha} => T0 < z_alpha 이면 H0 기각

 3) H1 : mu != mu0, Calpha = {T0 > z_alpha/2 or T0 < z_alpha/2}

               => T0 > z_alpha/2 or T0 <  z_alpha/2 이면 H0를 기각

 

 

 

 

 

가설 검정 -평균 검정 2

- 분산 sigma2가 알려지지 않는 경우

 - H0하에서 검정 통계량은

- 기각역

 1. H1 : mu > mu0, T0 > t(alpha, n - 1)이면 H0 기각

 2. H1 : mu < mu0, T0 < t(alpha, n - 1)이면 H0 기각

 3. H1 : mu != mu0, |T0| > t(a/2, n-1)이면 H0를 기각.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

상관 분석

- 분석에 사용될 변수들이 연속적인 값이며, 이들 간 관련성 확인하는 분석

 ex. 키와 몸무게 관련성, 상품 광고액과 매출액 관계

- 두 변수의 산점도 이용(2차원 평면상 관측값 표기)

- 상관계수 사용(두 변수간 관계에 대한 수학적 정의)

 

 

 

 

 

 

분석의 종류

- 상관 분석 : 상관 관계 를 다룸-> 두변수간에 상관관계가 있는가

- 회귀 분석 : 인과 관계를 다름 -> x가 y에 영향을 미치는가...

- 범주형 분석

 

 

 

상관계수 correlation coefficient, rho

- 두 변수사이 선형 관계가 얼마나 강한지 나타냄

- 상관 계수의 정의

 corr(x,y) = cov(x,y)/sqrt(var(x)) sqrt(var(y))

- -1 ~ 1의 값.

 => 1일 수록 양의 선형, -1일수록 음의 선형 관계, 0인 경우 무상관관계

 

 

 

회귀분석

- 독립 변수 : 조절할 수 있는 변수로, 원인이자 입력

- 종속 변수 : 독립변수에 영향을 받음, 결과이자 출력

- 종속 변수와 독립 변수 사이 (선형) 함수 관계를 회귀모형으로 구하고, 이에 대한 통계적 분석

 => 회귀분석 : 회귀 모형에대한 통계적 분석

 

 

 

회귀 분석에서 변수 설정의 중요성

- 회귀분석에서 가장 중요한것은 독립변수와 종속변수가 바뀌어선 안됨!!

=> 결과가 완전히 달라지므로 변수를 잘 설정해야함

- 범죄율과 경찰관의 수

- 경찰관(독립변수), 범죄율(종속변수)로 설정

 -> 경찰관이 늘어날수록 범죄율이 늘어났다..로 잘못 해석

 

 

 

회귀 분석의 종류

- 선형 linear, 비선형 nonlinear : 함수 관계 형태

- 단순 simple, 중 multiple 회귀분석 : 독립변수(설명 변수)의 갯수

- 일변량 univariate, 다변량 multivariate 회귀변수 : 종속변수(반응 변수)의 개수

 

 

 

 

회귀 모형 regression model

- 종속변수 Y와 독립변수 X1, ..., Xp 사이의 관괴를 (비)선형 함수로 표헌하는것

- 변수로 독립변수와 종속변수

- 아래와 같은 형태

회귀 분석의 4가지 가정

1. 선형성

2. 독립성

3. 등분산성

4. 정규성

 

 

 

회귀 모형 추정하기 - LSM Least Squared Method 최소제곱법

- hat{y_i}와 yi에 최대한 가까운 b_k*를 찾음

- 잔차 residual를  최소화 하는 b_k* 찾아야함.

- 잔차들의 제곱합 sum of the squared residuals, SSE

=> SSE를 최소로 하는 b_k들을 구함.

 

 

 

회귀 모형의 적합도

- 독립변수가 종속변수를 얼마나 잘 나타내는가. 관측값의 평균에 대한 변동성 이용

- 총 제곱합 : 관측값들의 총 변동성(SST)

- 잔차 제곱합 : 적합된 값들의 총 변동성(SSR; residual sum of squares). 설명 안된 변동  residual ss

- 오차 제곱합 : 적합안된 값들의 총 변동성(SSE; explained sum of sqaured) 설명된 변동 model ss

 

https://igija.tistory.com/256

 

 

 

 

 

자유도 df degree of freedom

- 정해지지않은 데이터 수. 

결정 계수 coefficient of determinant

- 총 변동 SST 중에서 회귀 모형에서 설명되는 변동 SSR의 비율을 나타낸 것

- 0 ~ 1사이 값을 가짐

- 1에 가까울수록 관측값이 회귀선 주위에 밀집되며, 추정된 회귀모형이 관측값을 잘 설명

 

 

 

 

 

 

 

 

분산 분석

- 총 변동을 분해하여 모형에 의한 변동과 모형 이외의 변동 비를 확인하는것

- 각 변동을 각각의 자유도로 나누어주면 분산형태가 됨

- 이를 토대로 회귀모형 적합도에 대한 가설검정 수행

 => 회귀 분석의 적합도 기준이 됨

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
통계 - 16. 실험계획법과 검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
통계 - 12. 통계적 추정 1  (0) 2020.10.26
728x90

점추정에서는 모수의 한 값만을 추정하였다면

모수만 아니라 모수를 포함하는 구간 또한 추정이 가능함

-> 모평균, 모분산 구간추정방법

 

 

점 추정 point estimation

- 모집단이 정규분포를 따를때 모평균 mu에 대한 추정시

- mu의 최대가능도 추정량은 표본 평균과 동일하다

=> 주어진 자료로 모수 추정값 획득.

 

 

예제

- 다음 5개 데이터가 주어질떄 모평균 추정량을 구하자

- 10, 15, 5, 10, 15

 -> 표본이 작을때 표본에 따라 모평균 추정량이 크게 바뀜

 

 

구간 추정 interval estimation

- 모수를 포함할 것으로 기대되는 구간을 제시하여 모수 추정

 

 

신뢰 구간 confidence interval

- 95% 신뢰구간 : theata에 대한 95% 신뢰구간을 구하는 과정을 100번 반복시, 100개의 신뢰 구간 중 95개가 모수포함

 

신뢰구간 예시

- sigma = 2, 최대가능도 추정량 theta = 15인 경우, 모수 theta에 대한 95% 신뢰구간은 아래와 같다.

 

신뢰 수준

- 신뢰구간을 구하는 과정을 반복 시, 모수를 포함하는 신뢰 구간의 비율의 극한

 

 

 

 

 

 

 

 

정규 모집단에서 모평균에 대한 구간 추정

- X1, ..., Xn ~ N(mu, sigma2), sigma2을 알때

 

 

정규 모집단 모평균에서 구간 추정 2

- X1, ..., Xn ~ N(mu, sigma2), sigma2을 모를때(t분포) 

 

 

 

 

 

정규분포를 따른는 모집단에서 모평균 mu에 대한 신뢰구간 추정하기

- X1, ..., X16 ~ N(mu, sigma2) 이고

- sigma가 10, 모평균에 대한 95%신뢰구간 

- 모표준편차가 알려져있지 않을때, 모평균에 대한 95% 신뢰구간 구하기

 

 

 

 

 

 

일반 모집단 모평균에 대한 구간 추정하기

- X1, ... Xn이 주어질때 모평균은 mu, 분산은 sigma2, sigma2는 미지

- 아래는 근사적으로 표준정규분포를 따름

- mu에 대한 100(1-alpha)% 신뢰구간

 

 

 

 

일반 모집단 모평균에 대한 구간 추정 예제

- X1, .., X100 의 확률 표본이 주어지고 아래의 경우

- 모평균에 대한 95%신뢰구간

 

 

 

 

 

 

 

 

모분산에 대한 구간 추정

- 모집단이 N(mu, sigma2)를 따르는 경우, sigma2는 표본분산 S2로 구하기 가능.

- 확률 표본 X1, ..., Xn의 모집단이 위와같은경우 표본 분산의 확률 분포는 다음과 같음.

 

 

모분산 구간추정 예제

- 모집단이 정규분포를 따르고, 표본크기가 10, 표본분포 S2 = 9.8인경우 sigma2에 대한 95%신뢰구간

 

 

 

 

 

 

구간추정 interval estimation과 가설검정 hypothesis tset 사이 관계

- 유의수준 alpha에서 가설 H0 : mu = mu0 기각 못하는 범위

   => 모평균 100(1-alpha)% 신뢰구간과 일치

- mu 신뢰구간 = {mu | H0 : mu = mu0 기각하지 못함}

 

 

 

100(1-alpha) % 신뢰구간

- 유의수준 alpha에서 H0 : theta = theta0에 대한 채택역 A(theta0)

 * 채택역 acceptance region : 귀무 가설을 기각하지 못하는 관측값의 영역

- 유의수준 alpha에서 채택역 A(theta0)일때 다음 식 성립

- theta에 대한 100(1-alpha)% 신뢰구간 이며, 주어진 X에 대해 모수의 집합 C(X)는 다음과 같다.

300x250
728x90

가능도비검정. 최강력검정을 확장, 일반화

분할표를 이용하는 카이제곱검정

유의성 검정

 

 

 

최강력 검정

- 단순 가설이 존재

- 최강력 검정의 기각역 (R)

 

복합 가설에서의 가설검정

- 복합 가설하의 확률 밀도함수가 하나로 결정할 수 없음

 -> 확률밀도함수 비를 바탕으로 최강력 검정 사용에 제약

- 하나로 결정되지 않는 확률 밀도함수 대신 각 가설하의 최대가능도를 이용

 

 

최대 가능도비

- 귀무가설 하 theta의 최대가능도 추정량 hat theta0

- 대립가설 하 theta의 최대가능도 추정량 hat theta1

 

 

 

 

 

가능도비 검정 likelihood ratio test

- 귀무 가설하 최대가능도와 모수 전체에서 구한 최대가능도의 비에 의해 기각역이 정해지는 검정

- 최대가능도비를 사용한 기각역 R (k' <1)

- 상수 k' : 주어진 유의수준 alpha에 따라 결정

- 다시 정리하면. 귀무 가설 (H0: theta가 omega0에 속한다) 하 최대가능도와

 모수 전체(omega = omega0 합집합 omega1)의 최대 가능도의 비에 의해 기각역이 정해지는 검정

 

 

 

 

 

가능도비 검정 예제

- X1, ..., Xn ~ N(theta, 1)의 확률 표본

- H0: theta = theta0 vs H1: theta != theta0에 대한 유의수준 alpha에서 가능도비 검정을 구하자

 

가능도비 검정의 기각역

- 귀무가설이 참일떄 가능도비의 로그변환된 식의 근사적 분포는 카이제곱 분포를 따른다.

- 자유도 d.f : (모수 전체 영역에서 추정하는 모수의 수) - (귀무가설이 참인 영역에서 추정하는 모수의 수)

 

 

 

 

 

분할표 검정 contingency table test

- m개의 범주에서 빈도수를 N1, .... , Nm

- 각 범주에 속할 확률을 P1, ..., Pm

- 전체 빈도수를 n이라 할때 빈도수는 다항분포를 따름. 확률질량 함수는 다음과 같다.

  * 이항분포가 2개중 1개를 선택한다면 다항분포는 m개중 1개를 선택

- 귀무가설과 대립 가설이 다음과 같을때

- 모수 전체 영역에서 pi의 최대가능도 추정량은 다음과 같다.

- 가능도비

 

- 유의수준 alpha 가능도비 검정의 기각역

- 테일러 급수를 이용한 근사

 

 

카이제곱 검정

- 다음의 귀무가설과 대립가설이 주어질떄

- 테일러 급수 근사한 유의수준 alpha 에서 가능도비검정의 기각역은 다음과 같다.

- 이 검정을 칼 피어슨이 처음 제안하여, 피어슨의 카이제곱 검정.

- 이것을 이용하여 적합도 검정, 독립성 검정 수행.

 

 

통계적 가설검정 이야기

- 피셔의 유의성 검정 : 귀무가설에 대하여 p 값 이용

- 네이만과 피어슨의 가설검정 : 귀무가설과 대립가설에 있어서 1종 오류를 발생시킬 확률과 2종 오류를 발생시킬 확률에 기반한 방법

 

 

피셔의 유의성 검정

- p value : 귀무가설 하에 주어진 관측값보다 극단적인 값을 얻을 확률 -> 귀무가설에 반대되는 근거

- 귀무 가설만 설정, 주어진 관측값에 이 가설이 부합하는지 알아봄.

=> 네이만과 피어슨이 피셔의 검정을 개선함

 

네이만과 피어슨의 검정 방법

- 귀무가설과 대립가설 설정

 -> 1종 오류 확률 alpha, 2종오류 확률 beta, 검정력

- 주어진 alpha에 대해 대립가설을 고려하여 최적의 기각역을 구함.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 12. 통계적 추정 1  (0) 2020.10.26
통계 - 11. 통계적 가설 검정  (0) 2020.10.26
통계 - 10. 점추정량 비교2  (0) 2020.10.26
728x90

용어

- 추정 : 표본으로부터 모집단에 대한 값을 구해나가는 것

- 추정량 : 모수를 추정하기위한 표본의 함수

- 모수 : 모집단에 대한 특성을 나타내는 값

- 점 추정 : 모수에 대한 추정

- 구간 추정 : 점 추정 + 정확도 추정

- 신뢰 수준 : 모수의 참값이 속할것으로 기대되는 구간안에 모수가 포함될 가능성 확률

 

 

 

 

통계적 추론

- 우리 주위에 대한 데이터 수집, 요약

- 수집한 데이터로부터 일반성을 찾음

- 불확실한 사실에 대한 결론, 예측

 

 

 

기술 통계학 descriptive statistics

- 데이터의 특성들을 요약, 정리

(표본 평균, 표본 분산 등)

- 판단하기 힘듬

 

 

 

통계적 추론 구조

- 모집단 : 알고자 하는 관측 대상 -> 모든 관측값의 집합. 전체다 알기 힘듬

- 표본 : 모집단의 일부 -> 모집단에서 임의추출하여(모집단을 잘 대표하도록) 모집단을 추측한다.

- 모집단의 변수들은 어느 확률 분포를 따름

- 확률 분포 : 몇개의 모수(평균, 분산, 첨도, 왜도, 람다 등)으로 구성된 수리적 함수

 -> 이항 분포, 정규 분포 등

 

 

모집단의 파악

- 정규 분포의 모수 : 모 평균과 모분산

- 이항분포의 모수 : 모비율

- 카이제곱 분포, t분포는 자유도에 의해 결정

 

 

 

통계적 추론 구조

- 통계량 : 표본의 함수 -> 모수를 추정 

 -> 표본 평균, 표본 비율, 표본 분산 등

- 추정량 : 모수를 추정하는데 사용되는 통계량

- 추정값 : 관측된 데이터를 추정량(통계량)에 대입하여 얻은 값

 

 

 

추정량의 분포

- 추정량은 추출한 표본들에 따라 변화하게 됨

 => 표본 분포 sampling distribution

 * 표본 분포는 추출한 샘플들에 따라 달라짐

 

여론조사의 분포?

- 표본들이 매번 바뀌기 때문에 표본 분포는 다름

 

 

 

 

추정과 검정

- 추정 : 표본으로부터 모집단에 대한 정보인 모수를 추측함.

- 검정 : 모집단과 관련된 주장에 대한 타당성을 표본으로 점검

 -> 표본으로 얻은 증거가 우연인지 아닌지 점검

 

 

추정

- 점추정 : 모수에 대한 하나의 추정값을 구함

- 구간 추정 : 모수에 대한 추정값과 정확도를 구함

  ex. 3% +- 1%

- 모수 theta에 대해 두 통계량 (L, U) : theta의 (1-alpha) x 100% 신뢰구간

 P(L < theta< U) = 1 - alpha

 * Lower bound 하한, Upper bound 상한

 

 

 

 

적합한 추정량

- 불편성, 일치성, 효율성

- 불편향성 : 가능한 모든 통계값의 평균이 모수가 됨

 -> 표본 평균은 모평균의 불편향 추정량

- 일치성 : 표본 크기가 커질수록 추정량의 값과 모수가 더 가까워짐

  -> 표본 평균의 분산은 표본크기가 커지면 0, 표본 평균은 모평균에 근점

- 효율성 : 추정량중 분산이 작은것을 의미

 

 

 

 

바람직한 추정량을 구하는 방법

- 최대가능도 추정법

- 적률 추정법 

- 최소제곱 추정법

 

최대 가능도 추정법

- 미지의 모수를 가지는 모집단의 분포에서 확률 표본을 추출하여 추정량찾음

- 표본의 몯느 정보는 결합확률밀도함수인 가능도 함수에 있으므로 최대 가능도 추정법으로 찾음

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
통계 - 11. 통계적 가설 검정  (0) 2020.10.26
통계 - 10. 점추정량 비교2  (0) 2020.10.26
통계 - 9. 복습?  (0) 2020.10.26
728x90

피셔의 밀크티 실험 

- 주장 : 우유에 차를 넣은 홍차와 차에 우유를 넣은 홍차의 맛을 감별할 수 있다.

- 전체 8개의 잔 중에서 차를 먼저 넣은 잔이 4잔이 있음.

- a는 홍차를 먼저 넣었다고 올바르게 판단한 잔의 수. a는 0~4 중 한가지 값.

 

 

- 해당 주장이 근거가 없다는 가정하에 여덟 잔중에 먼저 4잔을 찾아낼 확률

- 차를 넣은 네 잔을 정확히 찾을 확률을 1/70으로 매우 작음.

 => 통계적인 관점에서도 주장이 틀렷다고 말하기는 힘들다

 - 정확히 4잔을 찾기도 힘듦으로

 

 

밀크티 실험 가설

- 가설 1 : 차와 우유 둘 중 무엇을 먼저 넣었는지 알수 있다.

- 가설 2 : 차와 우유 둘 중 무엇을 먼저 넣었는지 알 수 없다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

가설 검정 개요

- 통계적 가설검정 : 확률 표본으로 모집단의 배반적인 두 가설중 무엇이 타당한지 판단

- 대립가설 H1 : 입증하려는 가설

- 귀무가설 H0 : 대립가설에 반대되는 가설

 

 

 

통계적 가설검정

- 실험을 통해 얻은 자료, 데이터로 어느 가설이 타당한지 판단하는 것.

- 귀무 가설이 참이라는 가정 하에 주어진 관측값보다 더 벗어난 값을 얻을 확률이 작다면

  -> 귀무 가설이 참이라는 가정은 올바르지 않다고 판단.

 

 

 

가설 검정 hypothesis testing 의 개요

- p-값 : 귀무 가설 하에서 주어진 관측값보다 더 극단적인 값을 얻을 확률

 -> p값이 작다는 것의 의미 : 귀무가설이 참이 아니거나 귀무가설이 참이라면 매우 희귀한 사건이 발생

- 기각역 R : 귀무가설을 기각하는 관측값의 영역

 -> 관측값이 기각역 R에 속하면 귀무가설 기각

 -> 관측값이 기각역에 속하지 않으면 귀무가설을 기각할수없음

 

 

검정 오류

- 제 1종 오류 alpha : 귀무가설이 참이라는 하에서 기각하는 확률

- 제 2종 오류 beta : 대립가설이 참이라는 가정하에서 기각하지 못하는 확률

 

- 검정력 :  대립가설이 참일때 귀무가설을 기각할 확률

 

 

검정력 예제

- 다음의 조건 하에 제1 종 오류, 제 2종 오류를 범할 확률, 검정력을 구해보자

- 제 1종 오류 alpha : 귀무 가설이 참이라는 가정 하여 기각하는 확률

- 제 2종 오류 beta : 대립 가설이 참이라는 가정하에 기각하지 않을 확률

- 검정력 power : 대립가설이 참일때 귀무 가설을 기각할 확률로 1 - beta

 

 

 

 

 

 

 

검정

- 기각역 R에 의해 결정

- R = {x | x>=c}, 제 1종 오류와 제 2종 오류

 -> c의 값에 따라 alpha가 커지고 beta가 작아지거나. 반대의 현상이 나타날 수 있음

 

검사 특성 곡성 operating characteristic curve

- 제 1종 오류를 작게하면 검정력이 작아짐(제 2종 오류가 커짐)

-> 제 1종 오류 alpha를 x축, 검정력 power를 y축에 둔 그래프

- 오류의 상충 : 제 1종 오류를 범활 확률을 작게하는 검정은 제 2종 오류 확률을 높임

 

 

 

검정의 선택

- 제 1종 오류 범확 확류이 일정 수준 이하인 검정 중 제 2 오류 범할 확률을 가장 작게하는 검정 선택

- 유의 수준 : 제1 오류를 범할 확률의 최대 한계

- 수준 alpha 검정 : 제 1종 오류를 범활 확률이 alpha이하인 검정

 

 

 

 

 

검정 함수

 

 

검정 함수 일반화

- 연속형에서는 괜찬으나 이산형인경우 검정 함수가 5%에 딱맞는 유의수준이 존재하지 않을수있음. 

- delta(x) = 1 : 귀무가설 기각

- delta(x) = 0 : 귀무가설 기각 x

- delta(x) = 1/2 : 귀무가설 기각확률 0.5

 

 

 

 

최강력 검정 개요

- UMVUE와 같은 개념으로 볼수 있음

- 단순 가설 simple hypothesis : 귀무가설이나 대립가설하에 X의 확률분포가 하나로 결정.

 ex. H0: theta =1

- 복합 가설 composite hypothesis : 확률분포가 하나로 결정되지 않을때 가설

 ex. H1: theta >1 , H1:theta != 1

 

귀무가설과 대립 가설이 모두 단순 가설인 경우

- 아래와 같이 표현 가능

 H0: theta = theta0    vs     H1: theta=theta1

 

 

 

최강력 검정 most powerful test

- 기각역이 R인 검정이 아래의 조건을 만족하는 경우 유의수준 alpha에서의 검정

=> 제 1종 오류를 범할 확률이 alpha 이하인 검정 중에서 제 2종 오류를 최소로 하는 검정

 

 

 

 

네이만-피어슨의 보조정리 neyman-pearson lemma

- 최강력 검정을 구하는 구체적인 방법

 

- 상수 k에 대해 주어지는 기각역 R이 P(X는 R의집합 | H0) = alpha일때,

 기각역 R인 검정이 유의수준 alpha에서의 최강력 검정

- f(x |theta0), f(x|theta1)은 귀무가설과 대립가설이 참인 경우 확률 밀도 함수

 

 

 

 

 

가능도비 검정

- 최강력검정은 귀무가설과 대립가설이 모두 단순 가설인 경우 사용 가능

- 귀무가설, 대립가설이 복합가설인 경우 사용되는 검정으로 가능도비 검정

 

 

 

 

 

 

일단 통개학 개론을 모르고 바로 수리 통계학을 하다보니 어려움을 많어서 잠깐 여기서 멈추고

개론 부터다시 시작해야될듯 싶다.

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
통계 - 12. 통계적 추정 1  (0) 2020.10.26
통계 - 10. 점추정량 비교2  (0) 2020.10.26
통계 - 9. 복습?  (0) 2020.10.26
통계 - 8. 점추정량 비교  (0) 2020.10.26
728x90

일치성

- 표본 크기가 증가할 수록 추정량의 분포가 모수로 수렴하는 성질

 

일치 추정량

- Tn = T(X1, ..., Xn) n개의 표본을 사용한 추정량

- {T1, ..., T_inf}는 모수 theta에 대한 점추정량 수열

- Tn을 일치 추정량이라 함.

 

 

 

 

 

 

 

 

충분성 sufficiency

- 모수에 대해 더이상 정보를 제공하는 통계량이 없는 경우.

 => 그 추정량은 충분성을 가짐

- 통계량이 표본 모수에 대한 정보를 읽지않고 모수를 추정할 수 있는 성질

- 충분통계량 : 충분성을 같는 통계량

 

 

충분 통계량

- theta에 대한 추정량 T에 대해 T가 주어졌을때 X1, X2, ..., Xn의 조건부 분포가 모수 theta에 의존하지 않을때 T

피셔-네이만 인수분해 정리

- 확률 표본 X1, ..., Xn에서 theta의 추정 통계량 T = h(X1, ..., Xn)이 충분 통계량일 필요 충분조건

=> 결합확률밀도함수가 함수 g와 h로 표현되는것.

 

 

 

충분 통계량 예제 1

- X1, ..., Xn이 정규분포 N(mu, 1)을 따르는 확률 표본인경우 mu에 대한 충분 통계량 구하기

 

 

 

 

 

 

 

완비 통계량 complete statistics

- 완비성을 갖는 통계량

- 통계량 함수의 기대값이 모든 모수에서 0인 경우 통계량 함수 값 자체가 0인 통계량

- 충분 통계량이면서 완비 통계량인경우 => 완비충분통계량(complete and sufficient statistic, CSS)

 

완비 통계량

- 모든 theta와 통계량 T(X)의 함수 g에 대해 아래가 성립하는경우 T(X)

- 모든 theta와 함수 g에 대해 다음이 성립 -> T(X)가 완비통계량

 

 

완비통계량 예제

- 확률 표본이 베르누이분포 Ber(P)를 따르는 경우, Sigma Xi가 p에 대한 완비통계량 증명

 

완비 통계량 복습

 

 

 

 

 

 

 

 

지수족 exponential family

- 확률 밀도/질량 함수가아래와 같은 형태인 경우

=> 쉽게 완비 충분 통계량을 구할 수 있다.

 

 

완비충분통계량 구하기

- X1, ..., Xn이 Poisson(lambda)를 따른는 경우. lambda의 완비충분통계량

 

- 확률 표본 X1, .. ,Xn이 N(0, sigma2). sigma2에 대한 완비충분통계량

 

 

 

 

Basu의 정리

- T(X)가 완비 충분 통계량이면 T(X)는 모든 보조 통계량에 독립적

 

 

 

 

좋은 추정량

- 모수 theta의 불편향 추정량 중 최소 분산인 추정량

- 불편향 추정량과 편향 추정량 등 추정량 중에서 평균 제곱 오차를 최소로 하는 추정량

 

 

균일 최소 분산 불편향 추정량 uniformly minimum variance unbiased estimator, UMVUE

- 불편향 추정량에 한정하여 찾은 추정량

- 균일최소분산불편추정량을 찾기 위해 이용되는 개념이 충분성과 완비성

=> 평균제곱오차의 최소값을 갖는 불편향 추정량

 

- 균일최소분산불편추정량을 구하는 방법 => 라오 블랙웰 정리

 

 

라오 블랙왤 정리

 

 

 

균일최소분산불편향추정량 예제

- X1, X2 가 Poisson(lambda)의 확률표본 lambda의 균일최소불편추정량

 

 

레만-쉐페의 정리

- 더 쉽게 UMVUE를 구할수 있음.

 

 

UMVUE 예제 2

- X1, .. Xn ~ Ber(p), p의 UMVUE는?

 

 

UMVUE 예제 3

- X1, .., Xn ~ N(mu,sigma2), mu,sigma2에 대한 UMVUE

 

 

 

크래머-라오 하한

- 모수 theta를 추정하는 2개의 불편향 추정량이 있는 경우, 추정량의 분산이 작은게 더좋을것임

- 최소 분산을 갖는. 그러니 가장 좋은 추정량이 되는걸 알아내는 방식으로 크래머-라오 하한 제안

 

 

크래머-라오 하한 cramer rao lower bound CRLB

- 어느 불편 추정량의 분산이 크래머-라오 하한과 동일하면 이 추정량은 UMVUE

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 12. 통계적 추정 1  (0) 2020.10.26
통계 - 11. 통계적 가설 검정  (0) 2020.10.26
통계 - 9. 복습?  (0) 2020.10.26
통계 - 8. 점추정량 비교  (0) 2020.10.26
통계 - 7. 점추정  (0) 2020.10.25
728x90

확률 관련 기초 용어

- 확률 probability : 확률 변수가 특정한 값/구간에 속할 가능성으로 0 ~ 1의 값으로 표현

- 확률 실함 random experiment : 결과를 알수 있는 실험

- 시행 trial : 확률 실험을 수행하는 행위

- 원소 element : 시행의 결과

- 표본 공간 sample space : 모든 원소들의 집합

- 사건 event : 표본 공간의 부분집합으로 관심 대상(원소)로 구성

 

 

확률의 정의

- 빈도주의 정의  : 관심 사건 횟수/ 전체 실험의 횟수

  => P(A) = lim n(A)/n

- 주관주의 확률 : 믿음의 정도

 

 

확률 변수 random variable

- 확률 실험의 모든 가능한 결과에 일정한 규칙에 따라 특정 값을 부여한 것

- 표본 공간을 실수로 변환하는 함수

- 정의역이 표본공간, 치역이 실수인 함수

 

 

 

확률변수 예제

확률 변수 X ~ B(3, 1/2)

동전 던지기

앞면의 횟수    0     1     2      3

확률           1/8   3/8   3/8   1/8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

복습

 

표본 분산의 확률 분포

- 대표적으로 카이제곱 분포와 t분포가 있음.

 

카이제곱분포

- 모분산 추정, 적합도 검정, 교차표 검정에 사용

- 감마 분포의 특수한 경우 r = n/2, lambda = 1/2인 경우 확률변수 X는 

 => X ~ chi2(n)으로 표현

 

 

카이제곱 분포의 특성

 

 

 

표본분산 S2의 확률분포

 

 

 

 

t분포의 필요성

- 보통 모집단이 정규분포를 따르고, 확률변수들이 독립이면 아래와 같으나

- 보통 확률 표본을 추출한 경우 모집단의 분산을 알수 없음

 => 표본분산 S2를 구하고 sigma2대신 사용. 

- 의문점 : S로 대채한 다음 통계량의 분포는 어떻게 될까?

 

 

t분포

- 위 통계량의 분포는 정규분포가 아니라 t분포를 따름

- t 통계량의 pdf를 구하려면 정규분포와 카이제곱분포를 사용해야함. 

t분포의 확률밀도함수

- 변수 변환법으로 구하면

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 11. 통계적 가설 검정  (0) 2020.10.26
통계 - 10. 점추정량 비교2  (0) 2020.10.26
통계 - 8. 점추정량 비교  (0) 2020.10.26
통계 - 7. 점추정  (0) 2020.10.25
통계 - 6. 표본분포  (0) 2020.10.25

+ Recent posts