728x90

기술 통계

- 개별 기술통계

- 그룹별 기술통계

- 기술통계 플로팅(줄기잎, 박스, 히스토그램)

- 분할표 contingency table

 

 

 

데이터 준비

 

통계량 출력

 

 

 

다변수 접근

 

다변수 기술통계량 출력

- 데이터프레임.describe()

 

 

 

 

왜도, 첨도 확인하기

왜도 skewness

 - E(((X-mu)/sigma)^3) 

 - 한방향으로 치우쳐진 정도

 - 왼쪽으로 치우쳐지면 positive skewness

 - 우측으로 치우쳐지면 negative skewness

 

 

첨도 kurtosis

 - E(((X-mu)/sigma)^4) - 3

 - 분포의 꼬리에 데이터가 몰려있는지에 관한 측도

 

 

 

왜도, 첨도 예제

- skew(a) : 결과 분포가 우측으로 매우 치우쳐짐

- kurtosis(a) : 첨도가 매우 큰걸 볼수있음  

- 999가 빠진 경우 첨도

 => 16에서 1로 크게 줄음

 

 

 

 

그룹별 통계량

1. 성별로 그룹. total 변수, 열에 대한 기술통계량

 

 

2. agg()함수 사용하여 기술 통계량 구하기

 

 

 

 

 

researchpy

- 그룹별 기술통계량 제공하는 라이브러리

- 설치먼저 해주고

 

 

summary_cont 함수

- 바로 total 변수에 대한 통계량

- 성별로 그루핑후 통계량

 

 

 

 

 

 

파이썬  줄기잎 라이브러리(stemgraphic)

-pip로 설치해줍시다.

 

 

 

줄기잎 그림 그리기

stemgraphic.stem_graphic(데이터프레임.변수, scale=스케일크기)

 

 

 

sns 플로팅

1. 단순 박스 플롯

2. 그룹별 box plot

- 범주형 변수인 gender를 x축으로 지정

 

 

 

 

 

 히스토그램 그리기 

1. 단순 히스토그램

 

2. 성별에 따른 히스토그램

 

 

 

앙케이트 데이터 다루기

1. 데이터 로드

2. 교차 텝 만들기

3. 인덱스명 변경

 

 

 

카이제곱검정

- 사이파이에서 가져옴

 

카이제곱통계량

p벨류

기회도수 등

 

 

 

 

 

 

 

300x250
728x90

기술 통계 descriptive statistic

- 데이터를 어떻게 묘사할것인가에 대한 학문

 

 

기술 통계량 descriptivie statistics

- 중심 위치 측도, 산포 측도 등

 

중심 위치 측도

- 기대값 expectation : 데이터의 무게 중심

 => 표본 평균 bar x = (x1 + ... xn) / n = sigma xi/n

- 중앙값 median : 데이터를 크기 순으로 나열시 중간에 있는 값.

 

 

산포 측도

- 표본 분산 : 표본들이 표본 평균으로부터 흩어진 정도

 S2 = sigma (xi - bar x)2/ (n-1)

- 사분위수 quartile : 통계의 변량을 도수 분포로 정리할떄 1/4 , 2/4, 3/4 자리의 값

 => Q1(25%), Q2(50%), Q3(75%)

 => 사분위수의 범위 IQR interval of Quartile = Q3 - Q1

 

 

 

 

 

데이터 준비

 

 

기술통계값 구하기

- sapply()함수

 

- summary(데이터프레임)

 다섯수치 요약해줌

클래스 보기 - class(변수)

다섯수치보기 - fivenum(변수)

 

 

psych로 기술통계량 보기

- describe(데이터프레임)

-> 갯수, 평균, 표준편차, 중위수, 절삭 편균, 최소 최대, 범위, 첨도 왜도 등

 

 

 

 

변수 확인 -> names()함수

- names(데이터 프레임)

 

 

 

 

 

 

그룹별 기술 통계

- tapply

- aggregate

- by 함수

 

 

 

tapply 함수

- tapply(계산변수, 그룹변수, 통계량)

 

 

 

aggregate 함수

- aggregate(데이터프레임, list(변수목록), 통계량)

 

 

 

 

 

by 함수

- by(데이터프레임, 그루핑 변수, 통계량 or summary)

 

 

 

 

 

psych의 그룹별 통계량 함수

- describeBy(데이터프레임, 그룹핑 변수)

 

 

 

 

 

 

 

 

기술 통계량 시각화 하기

- 줄기잎 그림

- 상자그림

 * Q3 + 1.5*IQR 보다 크거나 Q1 - 1.5 * IQR보다 작으면 이상치로 판단

- 히스토그램

 

 

 

줄기잎 그림

- stem(변수명)

 

 

두 그룹에 대한 줄기 잎 그림 그리기

- aplpack 라이브러리 활용

- (값) 은 중앙값

- 좌우 양끝값은 데이터 갯수

 

 

 

 

 

 

상자 그림

- par(mfrow=c())로 한 페이지에 여러개 그릴수 있음

- boxplot() 함수

 

 

앙케이트 자료 처리하기

 

변수명 변환

 

 

 

그래프 출력, 분할표 만들기

 

 

 

 

 

분할표 만들기 2 xtabs를 이용한

 

 

 

 

대학생. 학년별 앙케이트 결과

 

 

 

 

 

 

 

 

 

카이제곱 검정

- 두범주형 자료의 독립성 검정

 

 

chi2 = sigma (관찰도수 - 기대도수)^2 / 기대도수

       = 12.403

   p-value 유의확률 = 0.006

독립이라는 귀무가설을 기각한다.

 

 

 

 

 

 

300x250
728x90

Matplotlib

- john hunter가 개발 시작

- 2012년 사후, michael droettboom 개발자 그룹에서 개발

 

 

일반 사인 그래프

import numpy as np
import matplotlib.pyplot as plt

# inline으로 출력
%matplotlib inline
# 비 대화형
plt.ioff()


x = np.linspace(0, 10, 50)
sinus = np.sin(x)
plt.plot(x, sinus)
plt.show()

 

 

플롯 옵션과 레전드(범례) 추가

cosinus = np.cos(x)
plt.plot(x, sinus, label="sinus", color="blue",
        linestyle="--",linewidth=2)
plt.plot(x, cosinus, label="cosinus", color="red",
        linestyle="-",linewidth=2)
plt.legend()
plt.show()

 

 

 

 

 

 

 

봉급 예제 산포도 그리기

1. csv 읽어오기

import pandas as pd
#봉급 예제 산포도 그리기
url = "https://raw.github.com/neurospin/pystatsml/master/datasets/salary_table.csv"
salary = pd.read_csv(url)
salary.head()

 

2. 색상 지정하고 플로팅

df = salary
colors = colors_edu = {"Bachelor" :"r", "Master":"g", "Ph.D":"blue"}
plt.scatter(df["experience"], df["salary"],
           c=df["education"].apply(lambda x:colors[x]), s = 100)
plt.show()

 

 

 

 

그루핑 후 플로팅 하기

# matplotlib에서 qt5로 그래프 출력
%matplotlib qt5

plt.ion()

symbols_manag = dict(Y="*", N=".")

# group by education x amangement => 6group
for values,d in salary.groupby(["education", "management"]):
    edu, manager = values
    plt.scatter(d["experience"], d["salary"],
               marker=symbols_manag[manager],color=colors_edu[edu],
               s=150,label=manager+"/"+edu)
#set label
plt.xlabel("Experience")
plt.ylabel("Salary")
plt.legend(loc=4) #lower right

 

 

 

fig, subplot 예제

- fig :  캔버스

- subplot : 하부 그래프

 

%matplotlib inline
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)

ax1.hist(np.random.randn(100), bins=20, color="k", alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3*np.random.randn(30))
ax3.plot(np.random.randn(50).cumsum(),"k--")
plt.show()

 

 

 

subplots() 예제

- 그래프 여러개 그리기

#subplots()함수 사용하기
fig, axs = plt.subplots(2,2)
axs[0,0].plot(x, sinus)
axs[0,1].plot(x, -sinus)
axs[1,0].plot(x, cosinus)
axs[1,1].plot(x, -cosinus)

plt.show()

 

Seaborn

- matplotlib은 로우 레벨에서 부터하다보니 다양하게 할수있지만 잘 그리려면 많은 경험과 노력이 필요

=> matplotlib 기반의 간편 시각화 라이브러리

 

 

iris 시각화

1. iris 데이터 로드

- 컬럼 확인

 

2. 히스토그램 플로팅

 

3. 카테고리별 플롯

 

4. 결합 플로팅

 

 

5, 회귀선 플롯

 

import seaborn as sns
sns.set(style="darkgrid")
iris=sns.load_dataset("iris")
print(iris.columns)
iris.columns = ["sl", "sw", "pl", "pw", "sp"]
iris.head()



# sp 별 그리드 생성, 히스토그램으로 sl 플롯
g = sns.FacetGrid(iris,col="sp")
g = g.map(plt.hist, "sl")



#카테고리별 플롯
sns.catplot(x="sp", y="sl", kind="boxen", data=iris)

#결합 분포 플로팅
sns.jointplot(x="sw", y="sl", data=iris, kind="kde", space=0, color="g")


# 회귀선 플롯
sns.lmplot(x="sw", y="sl", data=iris)

# sp별 회귀선과 hue 
sns.lmplot(x="sw", y="sl", data=iris, hue="sp")




 

 

 

 

 

 

 

 

 

R ggplot2

- Hadley Wickham(dplyr도 개발)이 개발

- 데이터 프레임 데이터를 시각화

- grammer of graphics, layered graphics

 

 

나무 데이터로 시작하자

1. 데이터 확인

 

2. Height 4그룹 분리

 

3. geom_point로  산점도로 plot

 col = H로 4그룹으로 분류 가능

 

 

자동차 예제

1. tbl_df 로 출력 

 

 

 

2. 클래스별 displ, hwy 플로팅

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 6. 파이썬 기술통계  (0) 2020.10.28
파이썬R - 5. R 기술통계  (0) 2020.10.28
파이썬R - 3. R데이터처리, dplyr  (0) 2020.10.28
파이썬R - 2. R 데이터처리  (0) 2020.10.27
파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
728x90

값 라벨 바꾸기

- 숫자로 입력된 값을 라벨로 바꾸기

ex. job 1-> 근로자, 2 -> 사무직 3-> 전문가

 

명목형 변수 nomial data로 바꾸기 : factor()함수

 

 

 

순서형 변수 ordered data 로 바꾸기

- ordered()함수

 

 

 

막대 그래프 그리기

 

1. table()함수 : 해당 변수 - 빈도수 출력

2. barplot() : 막대 그래프 출력

3. title() : 그래프 제목

 

 

 

 

 

변수 변환하기 recode

- 그룹별 값주기

 

 

 

 

 

 

변수값 변환하기 recode - car 패키지의 recode() 활용하기

 

 

 

- 레코드 후, 순서형 변수로 라벨을 주어야 그룹의 의미를 알기 편하다.

 

 

 

 

 

값 추출하기

 

 

 

 

dplyr 패키지

- 데이터 처리를 위한 패키지

- 전처리 작업

 1. filtering 데이터 추출

 2. selection columns 변수 선택

 3. adding new variables 변수 추가

 4. sorting 정렬

 5. aggregating 집계

 

 

 

 

 

실무에서 처음 할일

- 변수의 수나 obs가 크므로 분석 전에 전체적으로 보는 것이 좋다

- dim() 함수 : obs 행 와 변수 갯수(열)수 출력

- tbl_df() : 데이터 프레임을 요약해서 출력

 

 

 

 

데이터 추출 filtering

 

 

 

 

 

변수 선택 select

 

 

 

 

 

- filter와 select 동시 사용 가능

-select 로 변수 선택시 콜론 : 사용 가능

 

 

 

 

새 변수 추가 mutate() 함수

- mutate(데이터프레임, 추가할변수명=값)

 

 

정렬하기

- arrange(데이터프레임, 변수, ...) : 오름차순

- arrange(데이터프레임, desc(변수), ...) : 내림차순

 

 

 

 

요약해서 결과보기

- 데이터 정렬한 뒤, 그룹별 요약 결과 보기 : group_by(), summarise() 함수

 

 

체인 기능

- 여려 명령을 연결해서 사용

- %>%으로 수행

 

 

 

 

mtcar 데이터 처리 예제

 

 

- 필터 -> 그룹 -> 요약 -> 정렬

 

nycflight13 데이터 예제

- 뉴욕인근 공한 비행 정보 자료

- ls(패키지명) : 패키지에 있는 데이터프레임 확인

- tbl_df : 데이터프레임 요약

- 출발, 도착이 지연되지 않은 경우

 

 

 

 

 

 

 

300x250
728x90

변수 바꾸기, 결측치처리, 이름바꾸기, 라벨, 라벨 변환 등

 

 

 

 

 

 

 

 

 

 

 

 

 

 

결측치 제거

na.omit(데이터프레임)

 

 

 

변수명 변경

names(dataframe)[index]

 

 

 

변수명 바꾸기

 

 

colnames(dataframe)

 

 

 

 

값 라벨 value label

- 숫자로 입력된 값을 라벨로 바꾸기

ex. job 1 = 근로자, 2= 사무직

   edu 1=무학자, 2=초졸 3=중졸

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250
728x90

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 3. R데이터처리, dplyr  (0) 2020.10.28
파이썬R - 2. R 데이터처리  (0) 2020.10.27
통계 - 16. 실험계획법과 검정  (0) 2020.10.27
통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
728x90

용어 

- 요인 factor : 결과값의 산포에 영향을 주는 원인들 중 실험에서 직접 취급되는 원인

- 반응 response : 실험의 결과로 얻어지는 양적자료

- 수준 level : 실험을 하기 위한 요인의 속성 

- 처리 treatement : 요인의 수준 혹은 요인 수준의 좋바

- 실험 단위 experimental unit EU : 처리받는 대상, 다른 처리가 가해지는 최소 단위

- 관측 단위 Observational unit OU

 

 

 

 

일원 배치법 One-way ANOVA

- 고려하는 요인이 하나인 경우로 완전 랜덤화 설게를 전제로함

- 각 처리에 대한 데이터들은 정규분포를 따르는것을 가정

- mu_i = i번쨰 처리의 모평균

- 공통분산 sigma2를 가정

- 균형자료(등반복실험)을 가정

- 데이터 구조  => i번째 처리에서 j번째 반복을 함

- 모형

- 가설

- 분산분석표

- 총변동 등 정리

 

 

 

 

 

 

MS 제곱평균 Mean Square

 

 

 

 

 

 

완전 랜덤화 설계 CRD Completely Randomized Design

- N = rt 개의 EU를 사용하여 t개의 처리 비교

 

 

 

 

이원배치법

- 고려하는 변수가 2가지 있을떄.

 

 

 

범주형 자료분석

 

 

적합도 검정 goodness of fit test

- 관측 결과가 가설에 의해 주어진 확률분포를 잘 따르는지 확인하는 검정방법

 => 관측 도수의 기대도수에 대한 적합성여부 판정

- 가설 

 H0 : 관측 도수는 기대 도수를 잘 따른다.

 H1 : 관측 도수는 기대 도수를 잘 따르지 않는다.

- 검정 통계량 

 

 

 

 

 

 

1. 범주형 자료분석 (독립성 검정)

- 범주형 대 범주형

- 귀무 가설 h0 : 두 범주형 변수간 차이 x, 관계 x, 영향 x

- 대립가설 h1 : 두 범주형 변수간 차이 o, 관계 o, 영향 o

 => 우리는 두 변수간에 관계, 영향이 있는지 알고싶기 때문

 

2. 분산 분석

- 범주형 vs 연속형

- 귀무가설 h0 : 범주형 변수의 수준별로 연속형 변수의 평균이 같다. 동일하다.

- 대립가설 H1 : 범주형 변수의 수준별로 연속형 변수의 평균이 같지 않다.차이가 있다.

 

 

3. 상관 분석

- 연속형 vs 연속형

- H0 : 두 변수는 관계가 없다. 독립이다.

- H1 : 두 변수는 관계가 있다. 의존이다.

 

 

4. 회귀 분석

- 연속형 vs 연속형

- 상관 분석과 차이점은 X, Y가 존재하여 X가 Y에 영향을 주느냐가 중요

- H0 : 독립변수가 종속변수에 영향을 미치지 않는다.

- H1 : 독립변수가 종속변수에 영향을 미친다.

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 2. R 데이터처리  (0) 2020.10.27
파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
728x90

표본 분포

- 임의 현상에 대한 추론을 위해 모집단 population을 설정하는것은 통계분석에서 중요

 -> 구성 원소 sampling unit 전체를 조사 census 하는것은 불가능

 

확률 분포 random sample

- 모집단의 각 구성원이 고르개 추출한 표본

- 특정한 확률 분포를 따르는모집단으로부터 독립적으로 관측(추출)된 표본

 

 

 

 

통계량 statistics

- 관측 가능한 확률 표본에 댛나 함수

- 확률 변수들을 대입하는 함수로, 통계량 또한 확률 변수가 된다.

 -> 통계량의 확률 분포 : 표본 분포 sample distribution

- 모수는 관측하지 못하므로 모수는 통계량은 아님

- 표본의 함수인 통계량을 이용하여 통계적 추론을 수행

 ex. 표본평균과 표본 표준 편차

 

 

검정 통계량 test statistic, T0 T(X)

- 모수에 대한 가설 검정에서 사용하는 통계량

 

 

 

중심극한정리 central limit theorem

- 평균이 mu, 분산 sigma2인 모집단으로부터 n개의 확률표본 추출시 n이 충분히 큰 경우

-> 표본 평균은 모집단 분포에 상관없이 평균mu, 분산 sigma2/n인 정규분포에 근사

 

통계적 검정 오류

- alpha 가 더 중요 하므로 1종 오류를 어느정도 줄인뒤 2종오류를 최소화함

 

 

예시

- H0 : 약품에 효과가 없다

  => 1종 오류 : 약품에 효과가 없지만 있다고 결론

- H1 : 약품의 효과가 있다.

 => 2종 오류 : 약품의 효과가 있지만 없다고 결론

위 경우 1종 오류가 더 크게 위험

 

 

유의 수준 significance level : alpha

- H0이 사실일떄, 이를 기각하는  제1종오류를 범할 확률

- 유의수준은 연구자가 상황에맞게 설정. 0.1, 0.05(흔하게), 0.01 등 주로 사용

 

 

기각역 ciritical region, reject region : C, Calpha

- 유의수준 alpha 하에서 귀무가설 H0을 기각하는 검정통계량의 값의 범위

 => 귀무가설을 기각하는 영역

 

 

유의 확률 p value

- 귀무가설을 기각할수 있는 최소 유의수준 = 귀무가설의 타당성정도

- 유의 확율이 크다면 타당성도 크다 =-> 채택

- 유의확률이 작다면 타당성이 낮아서 귀무가설 기각

 

 

 

 

가설검정의 의사걸졍방법

1. 검정통계량과 기각역 비교

 -> 귀무가설하에서 검정통계량의 값이 기각역에 속하는가?

 : T0 가 C_alpha에 속하면 H0를 기각

 

2. 유의수준과 유의확률 비교

 : p-value < alpha이면 H0 기각

 

 

 

가설 검정 절차

1. 가설 설정 : H0, H1 

2. 유의수준 설정 : alpha

3. 표본 관측 : X1, ..., Xn

4. 검정 통계량 선정 및 귀무가설 하에서 계산 : T0

5. 유의수준 alpha인 기각역 설정 : C_alpha

6. 의사결정 : T0가 C_alpha에 속하면 귀무가설을 기각, 아니면 채택

 

 

 

 

가설 검정하기 - 평균 검정

- X1, ..., Xn이 N(mu, sigma2)를 따를때

   * iid : 독립, 동일 분포 independently identicaly distributed (즉, 표본을 의미)

- 귀무가설 H0 : mu = mu0 vs

- 대립가설 H1 : mu > mu0(우측단측가설/검정)

               H1 : mu < mu0(좌측단척가설/검정)

              H1: mu != mu(양측 가설/검정)

 

- 분산 sigma2가 알려진 경우

  H0하에서 검정통계량

- 기각역

 1) H1 : mu > mu0, Calpha = {T0 > Z_alpha} => T0 > z_alpha 이면 H0 기각 

   => 대립가설 mu > m0이면  기각역은 T0> Z_alpha.   검정통계량 T0가 z_alpha이면 기각역에속함 귀무가설 H0기각

 2) H1 : mu < mu0, Calpha = {T0 < Z_alpha} => T0 < z_alpha 이면 H0 기각

 3) H1 : mu != mu0, Calpha = {T0 > z_alpha/2 or T0 < z_alpha/2}

               => T0 > z_alpha/2 or T0 <  z_alpha/2 이면 H0를 기각

 

 

 

 

 

가설 검정 -평균 검정 2

- 분산 sigma2가 알려지지 않는 경우

 - H0하에서 검정 통계량은

- 기각역

 1. H1 : mu > mu0, T0 > t(alpha, n - 1)이면 H0 기각

 2. H1 : mu < mu0, T0 < t(alpha, n - 1)이면 H0 기각

 3. H1 : mu != mu0, |T0| > t(a/2, n-1)이면 H0를 기각.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

상관 분석

- 분석에 사용될 변수들이 연속적인 값이며, 이들 간 관련성 확인하는 분석

 ex. 키와 몸무게 관련성, 상품 광고액과 매출액 관계

- 두 변수의 산점도 이용(2차원 평면상 관측값 표기)

- 상관계수 사용(두 변수간 관계에 대한 수학적 정의)

 

 

 

 

 

 

분석의 종류

- 상관 분석 : 상관 관계 를 다룸-> 두변수간에 상관관계가 있는가

- 회귀 분석 : 인과 관계를 다름 -> x가 y에 영향을 미치는가...

- 범주형 분석

 

 

 

상관계수 correlation coefficient, rho

- 두 변수사이 선형 관계가 얼마나 강한지 나타냄

- 상관 계수의 정의

 corr(x,y) = cov(x,y)/sqrt(var(x)) sqrt(var(y))

- -1 ~ 1의 값.

 => 1일 수록 양의 선형, -1일수록 음의 선형 관계, 0인 경우 무상관관계

 

 

 

회귀분석

- 독립 변수 : 조절할 수 있는 변수로, 원인이자 입력

- 종속 변수 : 독립변수에 영향을 받음, 결과이자 출력

- 종속 변수와 독립 변수 사이 (선형) 함수 관계를 회귀모형으로 구하고, 이에 대한 통계적 분석

 => 회귀분석 : 회귀 모형에대한 통계적 분석

 

 

 

회귀 분석에서 변수 설정의 중요성

- 회귀분석에서 가장 중요한것은 독립변수와 종속변수가 바뀌어선 안됨!!

=> 결과가 완전히 달라지므로 변수를 잘 설정해야함

- 범죄율과 경찰관의 수

- 경찰관(독립변수), 범죄율(종속변수)로 설정

 -> 경찰관이 늘어날수록 범죄율이 늘어났다..로 잘못 해석

 

 

 

회귀 분석의 종류

- 선형 linear, 비선형 nonlinear : 함수 관계 형태

- 단순 simple, 중 multiple 회귀분석 : 독립변수(설명 변수)의 갯수

- 일변량 univariate, 다변량 multivariate 회귀변수 : 종속변수(반응 변수)의 개수

 

 

 

 

회귀 모형 regression model

- 종속변수 Y와 독립변수 X1, ..., Xp 사이의 관괴를 (비)선형 함수로 표헌하는것

- 변수로 독립변수와 종속변수

- 아래와 같은 형태

회귀 분석의 4가지 가정

1. 선형성

2. 독립성

3. 등분산성

4. 정규성

 

 

 

회귀 모형 추정하기 - LSM Least Squared Method 최소제곱법

- hat{y_i}와 yi에 최대한 가까운 b_k*를 찾음

- 잔차 residual를  최소화 하는 b_k* 찾아야함.

- 잔차들의 제곱합 sum of the squared residuals, SSE

=> SSE를 최소로 하는 b_k들을 구함.

 

 

 

회귀 모형의 적합도

- 독립변수가 종속변수를 얼마나 잘 나타내는가. 관측값의 평균에 대한 변동성 이용

- 총 제곱합 : 관측값들의 총 변동성(SST)

- 잔차 제곱합 : 적합된 값들의 총 변동성(SSR; residual sum of squares). 설명 안된 변동  residual ss

- 오차 제곱합 : 적합안된 값들의 총 변동성(SSE; explained sum of sqaured) 설명된 변동 model ss

 

https://igija.tistory.com/256

 

 

 

 

 

자유도 df degree of freedom

- 정해지지않은 데이터 수. 

결정 계수 coefficient of determinant

- 총 변동 SST 중에서 회귀 모형에서 설명되는 변동 SSR의 비율을 나타낸 것

- 0 ~ 1사이 값을 가짐

- 1에 가까울수록 관측값이 회귀선 주위에 밀집되며, 추정된 회귀모형이 관측값을 잘 설명

 

 

 

 

 

 

 

 

분산 분석

- 총 변동을 분해하여 모형에 의한 변동과 모형 이외의 변동 비를 확인하는것

- 각 변동을 각각의 자유도로 나누어주면 분산형태가 됨

- 이를 토대로 회귀모형 적합도에 대한 가설검정 수행

 => 회귀 분석의 적합도 기준이 됨

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

파이썬R - 1. 파이썬 pandas  (0) 2020.10.27
통계 - 16. 실험계획법과 검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 13. 통계적 가설 검정 2  (0) 2020.10.26
통계 - 12. 통계적 추정 1  (0) 2020.10.26
728x90

점추정에서는 모수의 한 값만을 추정하였다면

모수만 아니라 모수를 포함하는 구간 또한 추정이 가능함

-> 모평균, 모분산 구간추정방법

 

 

점 추정 point estimation

- 모집단이 정규분포를 따를때 모평균 mu에 대한 추정시

- mu의 최대가능도 추정량은 표본 평균과 동일하다

=> 주어진 자료로 모수 추정값 획득.

 

 

예제

- 다음 5개 데이터가 주어질떄 모평균 추정량을 구하자

- 10, 15, 5, 10, 15

 -> 표본이 작을때 표본에 따라 모평균 추정량이 크게 바뀜

 

 

구간 추정 interval estimation

- 모수를 포함할 것으로 기대되는 구간을 제시하여 모수 추정

 

 

신뢰 구간 confidence interval

- 95% 신뢰구간 : theata에 대한 95% 신뢰구간을 구하는 과정을 100번 반복시, 100개의 신뢰 구간 중 95개가 모수포함

 

신뢰구간 예시

- sigma = 2, 최대가능도 추정량 theta = 15인 경우, 모수 theta에 대한 95% 신뢰구간은 아래와 같다.

 

신뢰 수준

- 신뢰구간을 구하는 과정을 반복 시, 모수를 포함하는 신뢰 구간의 비율의 극한

 

 

 

 

 

 

 

 

정규 모집단에서 모평균에 대한 구간 추정

- X1, ..., Xn ~ N(mu, sigma2), sigma2을 알때

 

 

정규 모집단 모평균에서 구간 추정 2

- X1, ..., Xn ~ N(mu, sigma2), sigma2을 모를때(t분포) 

 

 

 

 

 

정규분포를 따른는 모집단에서 모평균 mu에 대한 신뢰구간 추정하기

- X1, ..., X16 ~ N(mu, sigma2) 이고

- sigma가 10, 모평균에 대한 95%신뢰구간 

- 모표준편차가 알려져있지 않을때, 모평균에 대한 95% 신뢰구간 구하기

 

 

 

 

 

 

일반 모집단 모평균에 대한 구간 추정하기

- X1, ... Xn이 주어질때 모평균은 mu, 분산은 sigma2, sigma2는 미지

- 아래는 근사적으로 표준정규분포를 따름

- mu에 대한 100(1-alpha)% 신뢰구간

 

 

 

 

일반 모집단 모평균에 대한 구간 추정 예제

- X1, .., X100 의 확률 표본이 주어지고 아래의 경우

- 모평균에 대한 95%신뢰구간

 

 

 

 

 

 

 

 

모분산에 대한 구간 추정

- 모집단이 N(mu, sigma2)를 따르는 경우, sigma2는 표본분산 S2로 구하기 가능.

- 확률 표본 X1, ..., Xn의 모집단이 위와같은경우 표본 분산의 확률 분포는 다음과 같음.

 

 

모분산 구간추정 예제

- 모집단이 정규분포를 따르고, 표본크기가 10, 표본분포 S2 = 9.8인경우 sigma2에 대한 95%신뢰구간

 

 

 

 

 

 

구간추정 interval estimation과 가설검정 hypothesis tset 사이 관계

- 유의수준 alpha에서 가설 H0 : mu = mu0 기각 못하는 범위

   => 모평균 100(1-alpha)% 신뢰구간과 일치

- mu 신뢰구간 = {mu | H0 : mu = mu0 기각하지 못함}

 

 

 

100(1-alpha) % 신뢰구간

- 유의수준 alpha에서 H0 : theta = theta0에 대한 채택역 A(theta0)

 * 채택역 acceptance region : 귀무 가설을 기각하지 못하는 관측값의 영역

- 유의수준 alpha에서 채택역 A(theta0)일때 다음 식 성립

- theta에 대한 100(1-alpha)% 신뢰구간 이며, 주어진 X에 대해 모수의 집합 C(X)는 다음과 같다.

300x250
728x90

가능도비검정. 최강력검정을 확장, 일반화

분할표를 이용하는 카이제곱검정

유의성 검정

 

 

 

최강력 검정

- 단순 가설이 존재

- 최강력 검정의 기각역 (R)

 

복합 가설에서의 가설검정

- 복합 가설하의 확률 밀도함수가 하나로 결정할 수 없음

 -> 확률밀도함수 비를 바탕으로 최강력 검정 사용에 제약

- 하나로 결정되지 않는 확률 밀도함수 대신 각 가설하의 최대가능도를 이용

 

 

최대 가능도비

- 귀무가설 하 theta의 최대가능도 추정량 hat theta0

- 대립가설 하 theta의 최대가능도 추정량 hat theta1

 

 

 

 

 

가능도비 검정 likelihood ratio test

- 귀무 가설하 최대가능도와 모수 전체에서 구한 최대가능도의 비에 의해 기각역이 정해지는 검정

- 최대가능도비를 사용한 기각역 R (k' <1)

- 상수 k' : 주어진 유의수준 alpha에 따라 결정

- 다시 정리하면. 귀무 가설 (H0: theta가 omega0에 속한다) 하 최대가능도와

 모수 전체(omega = omega0 합집합 omega1)의 최대 가능도의 비에 의해 기각역이 정해지는 검정

 

 

 

 

 

가능도비 검정 예제

- X1, ..., Xn ~ N(theta, 1)의 확률 표본

- H0: theta = theta0 vs H1: theta != theta0에 대한 유의수준 alpha에서 가능도비 검정을 구하자

 

가능도비 검정의 기각역

- 귀무가설이 참일떄 가능도비의 로그변환된 식의 근사적 분포는 카이제곱 분포를 따른다.

- 자유도 d.f : (모수 전체 영역에서 추정하는 모수의 수) - (귀무가설이 참인 영역에서 추정하는 모수의 수)

 

 

 

 

 

분할표 검정 contingency table test

- m개의 범주에서 빈도수를 N1, .... , Nm

- 각 범주에 속할 확률을 P1, ..., Pm

- 전체 빈도수를 n이라 할때 빈도수는 다항분포를 따름. 확률질량 함수는 다음과 같다.

  * 이항분포가 2개중 1개를 선택한다면 다항분포는 m개중 1개를 선택

- 귀무가설과 대립 가설이 다음과 같을때

- 모수 전체 영역에서 pi의 최대가능도 추정량은 다음과 같다.

- 가능도비

 

- 유의수준 alpha 가능도비 검정의 기각역

- 테일러 급수를 이용한 근사

 

 

카이제곱 검정

- 다음의 귀무가설과 대립가설이 주어질떄

- 테일러 급수 근사한 유의수준 alpha 에서 가능도비검정의 기각역은 다음과 같다.

- 이 검정을 칼 피어슨이 처음 제안하여, 피어슨의 카이제곱 검정.

- 이것을 이용하여 적합도 검정, 독립성 검정 수행.

 

 

통계적 가설검정 이야기

- 피셔의 유의성 검정 : 귀무가설에 대하여 p 값 이용

- 네이만과 피어슨의 가설검정 : 귀무가설과 대립가설에 있어서 1종 오류를 발생시킬 확률과 2종 오류를 발생시킬 확률에 기반한 방법

 

 

피셔의 유의성 검정

- p value : 귀무가설 하에 주어진 관측값보다 극단적인 값을 얻을 확률 -> 귀무가설에 반대되는 근거

- 귀무 가설만 설정, 주어진 관측값에 이 가설이 부합하는지 알아봄.

=> 네이만과 피어슨이 피셔의 검정을 개선함

 

네이만과 피어슨의 검정 방법

- 귀무가설과 대립가설 설정

 -> 1종 오류 확률 alpha, 2종오류 확률 beta, 검정력

- 주어진 alpha에 대해 대립가설을 고려하여 최적의 기각역을 구함.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

300x250

'수학 > 통계' 카테고리의 다른 글

통계 - 15. 표본 분포와 가설검정  (0) 2020.10.27
통계 - 14. 구간추정  (0) 2020.10.27
통계 - 12. 통계적 추정 1  (0) 2020.10.26
통계 - 11. 통계적 가설 검정  (0) 2020.10.26
통계 - 10. 점추정량 비교2  (0) 2020.10.26

+ Recent posts