728x90

판별 분석 discriminant analysis

- 측정 변수들로 각 행, 개체들이 어느 그룹에 속하는지 판별하는 방법

- 주어진 데이터로 가장 잘 판별할수 있는 판별식을 만들어, 새로운 데이터를 분류함

 

 

 

판별 분석의 예시

- 은행이 기업에 대출 시, 대출 전 기업의 도산 가능 여부를 판별하는 경우

- 과거 도산 기업과 도산하지 않은 기업에 대한 데이터(자산, 부채, 이익 등)을 관측

- 도산 여부 판별할수 있는 판별식, 판별함수를 만들어 대출 받으려는 기업의 도산 가능 여부를 판별

 

 

 

선형 판별 함수 Linear Discriminant Function

- 판별 오류가 최소가 되는 선형 함수

- 람다 = 그룹 간 분산/그룹 내 분산, 람다가 최대가 되는 계수벡터 b를 구해야 함

 => 그룹 내부는 잘 뭉치고, 그룹 간에는 잘 떨어지는 판별식 계수를 구하라는 말.

- 선형 판별함수 식 Y = b' X

 

 

 

정준판별분석 canonial discriminant analysis

- 여러개 집단으로 분류하는 경우 판별분석.

 -> 분류하고자 하는 집단이 3개 이상인 경우도 판별 분석이 가능하며, 판별식이 여러개가 됨.

- 정준 판별 함수는 정준 상관 분석으로 구할 수 있다.

 

참고 : 정준 상관분석 수행 과정

 - X의 선형 결합 변수 W와 Y의 선형결합 변수 V 준비 -> Corr(W,V)

 - Corr(W, V)가 최대로 하는 계수 벡터 b를 추정

 

정준 상관 분석의 판별 분석

- X의 선형 결합 변수 W와 라벨 Y에 대한 정준 상관분석 수행

 -> 제1 정준 변수 = b1은 Y를 가장 잘 이진분류하는 판별함수의 계수벡터가 됨.

- 모든 그룹으로 나눌수 있도록 여러개의 정준 변수들은 생성

 

300x250
728x90

상관계수 Correlation

- 두 변수 간의 선형적 상관 관계를 나타내는 통계량

- 피어슨의 상관계수 = Corr(x,y) = Cov(x, y)/(std(x)*std(y))

- -1 ~ 1사이 값을 가짐

- |corr(x,y)|가 1에 가까울수록 선형적 관계를 가짐

 

 

정준상관분석Canonical Correlation Analysis

- 상관 계수가 두 변수의 관계를 다루었다면

- 정준상관분석은 독립 변수들과 한개 이상의 종속변수의 연관성을 다루는 분석

 => 상관분석과 회귀분석의 결합

- 독립변수들과 종속변수들의 상관계수가 최대가 되는 선형 결합을 유도하여 분석하는 방법

 

 

 

정준상관분석의 예시

- 독립 변수 : 신체조건에 대한 변수 -> x1 : 키, x2, : 앉은키, x3: 가슴 둘레

- 종속 변수 : 운동능력에 대한 변수 -> y1 : 50m 달리기, y2 : 공던지기 

 => 신체조건과 운동 능력 간의 연관성을 구해보자

- 방법 1. 각 독립변수와 종속변수의 상관계수 구하기 -> 종합적인 독립변수와 종속변수간 연관성을 구하기 힘듬

- 방법 2. 독립 변수의 선형 결합으로 변수 W 만들고 Y 변수의 선형결합으로 변수 V 만들어, 두 변수간 상관계수로 파악

 => 정준 상관 분석

 

 

정준상관분석 정리

- 독립 변수들과 종속 변수들간 상관관계를 분석

- 독립변수들의 선형 결합 변수 W = a1x1 + ... + bpxp

- 종속 변수들의 선형 결합 변수 V = b1y1 + ... + bqyq

- 정준상관분석 -> Corr(W, V)

 

 

 

300x250
728x90

다차원 척도법

- 개채들의 특징, 변수들을 측정 후, 개채들 간의 거리(유사성), 비유사성을 측정하여 다차원 공간에서 점으로 표현.

- 일반적으로 2/3차원 공간상의 점으로 표현하여 개체들간 관계표현.

- 클러스터링에 많이 사용.

 

 

다차원 척도법의 예시

- 국내 도시들의 인구수, 면적, 학교 수 등 통계들을 조사 후 다차원 척도법을 사용하는 경우

 -> 도시들간 유사한 정도, 가까운 정도를 2차원 공간 상에서 표현할수 있음.

 -> 위 통계로 어느 도시와 어느 도시가 가까운지 알수 있다.

 

MDS 분석 과정

1. 변수 측정

2. 거리, 비유사성 측정

3. 2/3차원 공간상에서 시각화

4. 최적 표현 결정 : 개체들 간 거리를 가장 잘 나타내는 위치 구함. 스트레스를 이용.

 * 스트레스 : 개체 간 비유사성이 얼마나 부적합한가 측정 척도

 

 

거리 측정 방법

- 비유사성, 유사성은 거리를 이용하여 판단

- 유클리디안 거리, 채비셰프거리, 맨해튼거리 등이 있음.

- 측정 단위의 영향을 제거하기위해 변수들을 표준화한 뒤 거리측정

 

 

 

  

300x250
728x90

인자 factor : 숨어있는 요인 

 

 

주성분 분석과 인자분석의 차이

- 주성분 분석 : 서로 관련있는 변수간의 선형결합으로 새로운 변수, 주성분을 만들어 분석

- 인자 분석 : 서로 관련있는 변수들을 설명할수있는 새로운 공통 변수를 파악하는 방법

 

 

인자분석의 예시

- 고등학교 학생 대상으로 국어, 영어, 수학, 사회, 지리, 역사 등 10개 과목 시험 실시

=> 과목들을 공통적으로 설명할수 있는 공통 인자들을 유도하여 분석

=> 공통인자 : 추상적 개념, 이해력, 분석력 등을 나타내는 변수로 각 과목은 인자들의 선형결합으로 표현

=> 인자분석에선 인자들을 생성하는데 해석은 주관적으로 자료에 적절하도록 해석해야함

 

 

 

주성분 분석과 인자분석

- 관측된 변수들로 소수의 새로운 변수들을 생성하는 통계적 방법

- 분석 과정이 유사하지만 접근 방법은 다름.

- 주성분 분석 : 변이(분산)에 구조적 해석이 힘드나 상관관계가있는 변수들을 적절히 선형변환시킴

- 인자 분석 목적 : 직접적으로 해석 힘든 변수간 구조적 관계와 개념적 의미를 부여할수 있는 적은 수의 공통인자 유도

 => 개념적 의미를 부여하는 변수 생성

 

 

 

공통 인자

- 변수들이 구조적 측면서 공유하는 확률적 인자.

- 변수간 상관관계를 생성시키는 가설, 이론, 관찰불가한 변수를 말함.

 

 

주성분 분석과 인자 분석의 차이점

- 주성분 분석 : 변수들의 선형 결합. 인자 분석 : 가공의 인자를 만든 후, 가공 인자들의 선형 결합식

- 주성분 분석 : 주성분들이 갖는 크기에 따라 순서 있음. 인자 분석 : 인자들엔 순서 없음

- 주성분 분석 : 관측 변수들의 선형 결합. 오차항이 없다.

    인자분석 : 인자들이 선형식으로 설명. 설명불가한 부분을 오차항/특수인자가 있음.

 

 

 

인자분석 모형

- 인자 분석에서 p개의 변수 X = (X1, X2, .., Xp)가 있을때, X의 공분산 행렬과 기대값은 아래와 같음

- 인자 모형 : 각 변수 X에서 평균 mu을 뺀 값이 q개의 가공 인자들의 선형 결합 lf과 오차항 e으로 표현되는모형

 

- 관심 가져야하는 부분 : 계수 l_ij의 추정과 각 변수와 인자들의 선형 결합으로 설명되는 수준

 

 

 

 

 

인자분석 기본 가정

- 변수벡터 X는 다변량 정규분포 따름

- 인자 f와 오차항 e 평균은 모두 0, 인자들의 분산은 1

- 인자 쌍의 공분산은 0, 인자 f와 특수인자 e는 서로 독립

- 오차항은 각각의 분산을 가지나, 오차항 쌍의 공분산은 0

 

 

 

 

 

 

공통성 communality

- 수식

- Sigma의 분산 = L L'의 대각 원소들의 합과 오차항 분산의 합

- 공통성의 의미 : q개의 인자에 의해 설명할수 있는 정도. -> q개 인자로 획득가능한 정보의 비율을 측정하는 척도

- 공통성 h_i^2는 [0, 1]사이 값으로 1에 가까울 수록 변수 Xi가 가지고 잇는 정보 중에서 인자가 확보하는 비율이 큼

 

 

 

인자 분석 초점

- 인자 부하값(l11, ..., l1q)을 추정하여 변수 Xi와 q개의 인자사이 관계 추정

- 공통성 hi2를 구하여 변수 xi 정보를 어느정도 확보되는가 추정

=> 가능한 적은 q개의 인자들로 최대한 정보를 확보해야함.

 

 

 

 

 

인자 모형 추정 방법

1. 주성분 분석 방법 principal compoent method

- 주성분 분석을 통해 인자를 구한느 방법.

- 상관계수행렬 R의 대각 요소에 1대신 공통성 추정치를 대치하여 사용. 많이사용

2. 최우추정법(최대가능성방법)

- 가능성 함수를 구하고, 가능성을 최대화 하는 인자부하 (l11, ... l1q)과 오차항 e를 구하는 방법

 

 

 

 

 

 

인자의 수와 인자부하값의 유의성

- 인자 수 최대는 변수의 개수. 하지만 최소의 인자를 구하고자하니 보통 3~4개 선택

- 인자의 수는 상관계수행렬 R의 고유값이 1보다 큰 경우만 사용.

- 인자 부하의 유의성 : n>50인 경우, 0.3인 경우 유의함, 0.4는 더 유의함. 0.5는 아주 유의함. 

 

 

 

 

 

 

인자 회전 factor rotation

- 인자 부하값들의 크기에 따라 변수들을 유사한 것끼리 묶거나 공통 요인 찾음.

   -> 해석을 용이 하기 위해 인자 회전 실시

 

 

 

 

인자 회전 예시 1

- 고등학생 100명 대상, 국/영/수/물리/사회 시험 후 인자분석실시, 아래의 2개 유이한 인자에 대해 인자 부하행렬

- 인자 F1은 수학, 물리에 큰 가중치 가지며, F2는 국영사에 큰 가중치 가짐

=> 인자 F1는 분석력, F2는 이해력이라 정의할 수 있음.

 

 

 

인자 회전 예시 2

- 인자 부하가 다음과 같은 경우, 모든 과목들이 F1에 대해서 높은 부하를 F1, F2 특성 구분이 쉽지 않음

- 인자축 F1, F2를 F1*, F2*로 회전하는것이 용이

- 인자 회전 방법 : 직교 회전, 사각 회전(각 변수의 인자 가중치가 한 인자에만 크도록 축을 회전)

 

 

 

 

 

 

 

 

 

인자 분석 예시

- 검진 프로그램 유횽성 모니터링 자료. 11개의 검진 항목, 128개의 자료

- psych 패키지의 principal()함수로 주성분 인자법으로 인자 모형 추정

 

1. 자료 가져오기, 통계량 요약

 

2. 초기 인자분석 실시

- principla() 함수로 주성분 인자법으로 인자분석 실시

- values는 고유값. 고유값을 보면 세번재 인자까지 1이상임을 알 수 있음.

 

3. 인자분석 결과 : 인자회전varimax이용

- h2 : 각 변수 공통성, 각 변수의 공통성은 아래와 같이 구함

- U2 : 고유분산(u2 = 1- h2)

- 공통성은 많은 변수 주에서 서로 연관 갖는 일부 변수를 구하기 위해 인자분석시 변수 선택기준으로 사용

 ex. 변수 100개로 인자분석 결과 공통성이 0.3이하인 것이 40개라면, 해당 변수들은 다른 분항과 공통성이 적음

- ss lodings : 인자 가중치들 제곱의 합으로 구함.

- proportion var : 인자가 설명하는 총 분산 비율.

 => RC1 : 22%, RC2 : 19%, RC3 : 14%로 세 인자로 설명 가능한 변동은 총 변동의 56%

 

- 인자 모형 식

- 첫번째 인자 RC1은 lung, liver, kidney, heart가 가장 높은 값을 가짐. => 생물 의학

- 두번째 인자 RC2는 stamina, Strech, blow, urine의 값이 높음 => 인체 기능

- 세번째 인자 RC3는 muscle과 skeleton이 높은 값 => 근육골

 

4. 인자 점수

5. 행렬도

 

300x250
728x90

19세기 과학자들의 통계적 추론에 대한 생각

- 뉴턴의 방정식 처럼 수학 방정식으로 설명가능하다고 생각

 * 라플라스의 경우 모든것을 알면 과거, 현재, 미래를 설명 및 예측가능하다고 봄.

=> 관측할 때마다 방정식대로 결과가 나오지 않음. -> 관측 오차라 생각.

- 관측 성능이 좋아져도 오차가 제거되지 않음.

 

현대 물리학 관점

- 방정식이나 기계같지 않고 불확실함.

 

불확실한 세상 파악방법

- 세상이 확률 분포를 따른다 가정하고, 측정 -> 측정 결과 = 데이터

 

 

 

 

 

 

 

 

 

 

 

 

통계적 추론 statistics inference

- 불확실한 세상을 데이터 기반 추론

- 활용 범위 : 여론 조사, 이미지 인식, 문자 인식, 상품 추천 ㅡㅇ

 

 

통계적 추론의 기본 가정

- 세상은 불확실함. 불확실성을 가능성, 확률로 표현

- 세상을 완전히 알수 없음

 

 

통계적 추론 원리

- 가장 가능성 높은 결론을 구하자

- 가능성이 낮은 일은 믿지 말자

 

 

통계학 정의

- 켄들, 스튜어트 : 자연현상의 성질 측정 데이터를 다룸

- 밀러 : 데이터가 갖는 정보를 이해하는 방법

- 키핑 : 예측 불가능한 변동하는 변수를 다루는 학문

- 체르노프 : 불확실한 상호아서 의사 결정

 

통계학 정의 정리

1. 관심 대상에 대한 데이터 수집

2. 데이터 요약 정리

3. 불확실한 사실에 대한 결론을 이끌어내는 방법

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

통계 관련 용어 정리

- 모집단 : 관심 대상 전체 집단

- 표본 : 관심 대상 일부

- 확률 : 사건 발생 가능성

- 확률 분포 : 모집단, 표본을 나타내며 몇개의 모수 parameter로 나타냄.

- 확률 변수 : 관심 변수. 표본 공간의 사건을 숫자로 바꿔주는 함수.

- 통계량 statistic : 표본에 대한 함수 ex. 표본평균, 표본분산

- 표본 분포 : 표본이 확률 변수이므로, 표본에 대한 통계량도 확률 변수. 통계량에 대한 분포

- 통게적 추론 : 통계량으로 모집단의 모수 추정 혹은 검증하기 위한 이론과 방법

 

 

통계적 추론과 현실

- 통계적 추론방법은 사고 실험을통해 정립

- 실제 데이터 분석은 이론과는 맞지 않은 문제

- 모집단은 알수 없고, 관측값과 사전 정보만을 알음. 이걸로 모집단에 대해 의사결정 수행

 

 

추론이란?

- 알고 있는 것으로 결론을 도출하는 방법

- 연역적 추론 : 이미 있는 결론으로 새 결론 유도

- 귀납적 추론 : 다수 관측으로 결론 유도

- 통계적 추론 : 표본을 이용하여 모집단에 대한 결론을 구하는 귀납적 추론 방법

=> 표본의 정보(통계량)으로 모집단에 대한 모수 추정. 불완정성을 확률로 표현

 

 

 

통계적 추론의 단계

1. 추정 :  표본으로 모집단에 대한 결론 도출

2. 검정 : 모집단 관련 주장에 대한 타당성 점검 => 표본의 정보가 우연인지, 모집단에 존재하는것인지 검토

 

 

통계적 추론에 필요한 이론

- 확률 이론 : 모집단/표본 통계량은 어떤 분포를 따르는가. 모집단 가정하에 표본이 어떻게 분포하는가.

- 추론 이론 : 표본으로 모집단을 어떻게 추정해야 타당한지에 대한 이론.

 

 

 

 

통계적 추론 과정

- 모집단은 모수 theta를 따르는 확률 분포를 따름.

- 확률 분포는 확률 변수의 점확률(pmf, pdf f(x|theta))이 됨.

     * X ~ N(mu, sigma2)로 가정

- bar{x}는 모평균 mu를 추정하기 위한 통계량.

    -> 표본수가 큰경우. 중심극한정리를 따라 근사적으로 정규분포 따름

    -> 표본수가 작을시. 표준화된 bar{x}는 t분포 따름.

- 추정에 필요한 통계량 -> 추론의 원리 이해 필요

  ex. 가능도 원리, 충분성 원리

  * 가능도 원리 liklihood principle : 표본의 joint pdf가 가능도 함수로 표본의 모수를 가지는 원리

  * 충분성 원리 sufficiency principle : 표본을 요약한 통계량이 모수 정보를 안 잃으면 충분성을 가짐.

  => 추정 통계량은 충분 통계량 기반으로 설계.

- 추정량의 유용성 : 평균제곱오차를 최소화 하는 통계량이 유용하다고 봄.  것으로 모집단 모수 추정

    * 평균 제곱 오차 : 손실함수(모수 - 추정량)의 기대값

- 검정 : 확률 표본으로 새로운 가설(대립가설)이 타당한지 보는 방법.

   -> 귀무가설 통계량 도출. 통계량이 가정에 대해 극단적인 값을 가질 시 가정은 기각

  => p value(한계 유의 기준, 유의확률)이 alpha(유의기준)보다 작은 경우 귀무가설 기각. 대립가설 채택

- 최적 검정 : 1종 오류 기준 하에 2종 오류를 최소화

  * 제 1종 오류 : 귀무 가설이 참이나 기각되는오류

  * 제 2종 오류 : 대립 가서이 참이나 기각되는 오류

 

 

 

 

 

 

 

 

 

통계적 추론 관점에 따른 분류

- 빈도론자 frequentist와 베이지안 baysian에 의한 추론으로 분류

- 빈도론자 : 모수를 표본에 대한 통계량의 표본분포 기반으로 추정, 검정

- 베이지안. 베이즈 주이자 : 주어진 데이터와 모수의 사전 확률 기반으로 사후 확률 계산

 

 

 

빈도론자 vs 베이지안

- 베이지안 : 사전 분포에 의존하여 결과가 일정치 않고 계산시간, 비용이 큼

- 빈도론자 : 추정 방법, 통계량에 따라 결과가 일정치 않음 + 주어진 정보 활용 x

 

 

현대 통계적 추론

- 어떻게 주어진 데이터로 공정하게 추측할까

- 통계학자가 할일 : 불확실성을 구조화하고 계산하는 것.

- 빈도적, 베이지안 방법을 종합하여 활용해야함.

 

 

 

 

 

 

 

 

 

통계적 추론 역사

- 20세기 전 : 가우스와 라플라스 식으로 데이터 요약

- 20세기 초 : 적은 수의 데이터를 확률 모형으로 만들어 분석, 추론 시작

 *** 칼 피어슨, 이곤 피어슨, 피셔, 고셋, 네이만 ***

- 1901 : 칼피어슨의 적합성 검정 논문 chi-square 검정

    * 칼 피어슨

    - 표본 자체가 확률 분포를 가진다고 봄 -> 모수 측정 불가. 측정값 산포로 유추.

    - 관측 현상은 임의적인것, 확률 분포가 존재

    - 평균, 분산, 왜도, 첨도로 확률 분포 파악 가능.

    - 카이 제곱 검정 : 관측 값을 범주들로 분류, 해당 범주 관측값 수와 이론 분포에 나오는 기대 관측 수 차이 이용.

                        => 유의성 검정에서 활용

- 1908 : 고셋의 평균에 대한 오차(t 분포: 적은 데이터 기반 검정, 추정에서 사용하는 분포)

   => 표본이 작은 경우 표본 평균이 어떤 분포를 따르는가 연구    -> 스튜던트 t의 분포.

- 이후 칼 피어슨의 업적

  1. 가능도 함수와 최대 가능도 추정법 제시.

  2. 유의성 검정 제안.

  3. 랜덤화와 분산분석으로 실험 계획 연구 -> F분포와 F검정 고안

- 네이만과 이곤 피어슨 : 유의성 검정 방법 제안

     1. 귀무 가설, 대립가설 구분

     2. 검정 행위 채택, 기각 구분

     3. 최적 검정이론 연구

- 1930년대 네이만 : 신뢰구간(모수 점추정에 대해 변동성이 필요하다고 봄) 제시

- 1930년대 호텔링 : 다변량 분석

- 1977년 튜키 : 탐색적 데이터 분석

 

300x250
728x90

주성분 분석 primary componant analysis 개요

- 연구시 변수 측정. 변수가 100개 존재한다면 너무 많고 어려움

- 정보를 유지하면서 소수의 변수를 이용하여 분석. 

- 어떻게 주성분을 만들고 분석하는가를 다룸

 

 

변이 variation

- 정보의 크기

- 일변량 시 분산으로 표현

- 다변량시 서로 다른 변수간 공분산 추가

 

주성분 principal component

- 다변량 자료가 가지고 있는 총변이의 주요 부분을 가지고 있는 성분

 

주성분 분석

- 변수들의 정보를 최대한 보존하는 작은 수의 변수들(주성분)을 생성.

- 주성분 분석의 범위 : 주성분 도출 방법과 생성된 주성분 성격과 통계적 추론을 포함

 

 

 

 

회귀 분석과 관련 예시

- 회귀 분석 모형에서 설명 변수 p가 50인 경우. -> 설명변수, 독립변수가 너무많으면 해석하기 힘듬

- 해결방법

 1. 변수 선택 방법 등 의미있는 변수들 선택하여 회귀모형을 적합

 2. 선형 결합으로 몇개의 새로운 의미있는 변수들을 만들어 회귀분석 실시

-> 세 주성분 Z1, Z2, Z3을 이용한 회귀식

 => 반응 변수, 종속변수 Y를 설명하는데 별 차이가 없다고 할 수 있음.

 -> 차이가 없으면 보다 간편하니 좋은 모형임.

 -> p개의 설명변수 X와 동등한 효과를 같는 적은 수의 새로운 설명변수 Z를 어떻게 만들까

 

 

 

 

 

주성분 분석의 목적

- 여러개의 구조적 해석이 힘들며, 서로 상관관계를같는 변수들을 적절히 선형변환 시킴

 => 적은 수의 의미있는, 독립적인 주성분 유도하여 해석하기 위함.

- 다변량 변수들의 단순화, 내적 구조 분석

- 원래 변수들을 선형 결합 형식으로  주성분(서로 상관되지않은, 독립적인) 인공 변수 유도

- 각 주성분이 가지는 변이(정보)의 크기(주성분 분산)을 기준으로 중요도 순서고려

 => 먼저 구한 주성분들이 총 변이(총정보)의 상당부분을 보유하도록 하여 차원 축약

 

 

 

 

주성분 분석의 역사

- p차원 공간에 흐트러져있는 점들을 직교최소제곱 orthogonal least square 개념에 잘 적합시키는 평면을 찾기위한 기하학 최적화 문제로서 피어슨이 제기

- 호텔링은 변수간 상관구조 분석을 위해 p개의 원래 변수들의 변이를 결정하는데 더 낮은 차원의 독립적 요인을 구하여 성분이라고 함.

* 원래 변수들이 가진 총변이에 대한 각 성분 공헌도를 순차적으로 최대화 하도록 선택된 성분들을 유도하여 이용한 분석이 '주성분 분석'임.

 

 

 

 

주성분 분석의 활용

- 인자분석, 회귀 분석과 같이 일/다변량 통계적 분석 기법들과 관련을 가짐

- 차원 축약의 결과로 얻은 각 관찰개체별 주성분 점수 principal component score들은 다음 단계 통계 분석(ex. 군집분석, 회귀분석 등)에서 입력자료로 사용됨.

 => 주성분 분석은 분석 과정에서 중간 단계로 사용.

 

 

 

 

 

 

주성분 분석 모형

 

분산의 공분산 행렬과 상관계수 행렬

- 변수 X1, X2 평균

- 변수 X1, X2의 분산과 공분산

- 상관계수

- 공분산 행렬, 상관계수 행렬

 

 

 

주성분 구하기

- 자료 X를 이용한 주성분 분석은 변수의 분산 공분산 행렬 S나 상관계수 행렬 R로 실시

 * 정보의 크기 = 분산의 크기

- 분산 공분산행렬 S로 주성분 구하기

 1. 고유값(고유근)구하기 : 위 자료의 공분산 행렬 S는 7x7행렬로 7개의 고유값과 고유벡터 쌍을 가짐

- 고유 백터의 크기가 다음과 같을때

 

- 고유값은 아래의 행렬식을 만족하며, 고유벡터는 고유값에 대응

 => 주성분 분석에서 구하고자 하는 새 변수들은 7개의 고유 벡터들로 구함

 2. 고유벡터 선형변환 : 고유 벡터들을 다음과 같이 직교화 orthogonalization

 - 각 고유벡터의 내적이 1이고, 두벡터의 곱이 0이 되도록 고유벡터들을 선형 변환

 => 각 고유값에 대응하는 고유벡터들을 직교화시 새로운 변수, 주성분 PC1, ..., PC7를 다음과 같이 정의

 => 7개의 변수로 7개의 주성분을 만들었으나, 앞의 일부 주성분 만으로 분석을 해나갈 수 있다.

 

 

 

 

주성분 가중계수 벡터

- 위 고유벡터 a1, ..., a7를 주성분 가중계수벡터라 부름. 

 => 주성분 의미를 해석하는데 사용됨.

 

주상분 가중 계수 벡터의 예시

- 아래는 학생들의 다섯 과목 시험 점수에 대한 표본 공분산 행렬 S

 *C1 : 기술, C2 : 벡터 => closed book 시험

* O3 : 대수학, O4: 해석학, O5: 통계학 => open book 시험

- 주성분 결과

- 해석

 Y1은 모든 변수에 대해서 비슷한 양의 가중 계수를 가지므로 첫 주성분은 가중 평균의 의미를 가짐.

 Y2는 closed book 시험에는 양의 가중치, open book 시험에는 음의 가중치를 가지므로 두번째 주성분에서는 클로즈드 북 시험과 오픈북 시험 과목 점수들 사이 대조 관계를 보임

* 개인적 생각 : 클로즈드북 시험인 경우 시험 점수의 분포가 다양하나 오픈 북 시험은 대부분의 학생들의 점수가 비슷하게 잘 나왔기 때문에 이렇다고 보임. 기술 C1이 벡터 C2보다 변동이 큰것 같음.

 

 

 

 

각 주성분들의 분산과 공분산

- 각 주성분을 정의하는데 이용된 고유벡터들과 쌍을 이루는 고유근이 분산 크기.

 => 고유값 = 분산크기

 

 

두 주성분 사이의 공분산

- 주성분들사이 공분산은 0으로 독립임

* PC1은 제 1 주성분, PC2는 제2 주성분 이라고 부름.

 

 

 

양의 상관계수 갖는 이변량 정규분포를 따르는 두변수에서의 주성분

- 분산이 큰 방향이 제 1주성분, 분산이 작은 부분이 제2주성분임.

 

 

 

 

 

 

 

 

 

표본 상관 행렬을 이용한 주성분 분석

- 주성분 분석시 표본 상관 행렬을 많이 사용한다고함

 * 변수를 표준화, 즉 측정단위에 얽매이지 않게됨.

- 주성분 분석은 표본 공분산 행렬 S의 고유값과 고유벡터를 이용하여 분산 중심 분석법.

 -> 여기서 변수 분산이 1이 되도록 변수를 표준 편차로 나눔

- 표준화 후 표준화 변수 벡터 Z에 대해 분산은 1, 공분산은 상관계수가 됨.

 

 

 

상관계수행렬 R에 기초한 주성분

- 표본 공분산 행렬 S로부터 주성분의 기본적 성질을 그대로 유지

- 주성분 분석에서 S와 R 중 어느 행렬을 분석대상으로 하느냐에 따라 주성분이 서로 다르게 됨.

 => 원래 변수들의 선형 결합인 주성분이 의미를 가지려면 적어도 모든 변수가 동일한 단위로 측정되 필요 있음.

 * 아래의 경우(주성분의 의미가 애매해지는)를 방지하기 위함.

- 고려대상의 변수가 직접 비교될 수 없는 단위로 측정된 경우, 각 변수를 표준화 시켜 주성분을 행함. 주성분 분석을 상관행렬에 기초하여 수행. 표준화 변수에 기초한 표준 상관행렬 R을 사용하는 경우 모든 변수의 분산이 똑같이 1이 되어 각 변수가 가지는 변이에서의 상대적 차이 무시

- 사회과학에서 변수는 측정단위가 자의적인 경우가 많음

-> 개별변수 변의 차이에 의미를 부여하는게 힘들 수 있음

 => 상관계수 행렬 R에 기초한 주성분이 많이 사용

 

 

 

 

 

 

 

주성분 분석 목적

- 기존의 p개의 변수 벡터 X에서 변이(정보)를 잃지 않는 한 작은 수의 주성분유도

 => 차원 축소와 자료 요약

 

주성분의 특성

1. 7개의 변수 X1, X2, ..., X7의 상관계수 r12, r23, ...., r67이 모두 1인경우 

 => 7개의 변수는 하나의 변수, 즉 주성분 1개로 대표 할 수 있다.

 * 고유값 lambda 1을 제외한 나머지는 0

2, 7개의 변수 중 한 변수(X7)가 나머지 6개의 변수들의 선형 결합으로 만들어 지는 경우

 

 

주성분의 중요도

- 주성분 PC1 : 가장 중요한 주성분 변수로, 변수가 7개시 PC1의 중요도는 아래와 같음.

 

 

1988년 서울 올림픽 육상 여성 7종 경기 결과에 대한 주성분 분석

1. 자료 준비

 

 

 

 

2. 자료 변환

- hurdles, run200m, run800m은 값이 작을수록 좋으므로 변형

 => 높은 점수가 좋은 점수가 되도록 최대값에서 빼줌

 

 

 

 

3. 주성분 분석 실행

- stats 라이브러리의 princomp 함수 사용

- 변수가 7개이므로, 7개의 주성분을 구하고, 각 주성분의 표준 편차 출력

 

4. 주성분 분석 결과

- 첫 주성분이 63.72%, 두번째 주성분이 17.06%로 두 주성분이 총 변량 80.8%정보 차지

- 각 주성분의 표준편차를 제곱하여 고유값을 구할 수 있음.

- 제 3 주성분의 고유값이 0.5로 유의미한 주성분은 2개

 

 

 

 

---- 후기 ---

 

이전에 주성분 분석에 대한 이야기를 처음 들었을때가 

 

패턴 인식을 공부했을 때였다.

 

그 때 피처가 큰 경우 차원수를 줄일수 있도록 하기 위해 주성분 분석법을 사용한다고 설명되어 있었지만

 

컴퓨터 과학적 관점에서 주성분 분석을 다루어서 인지

 

주성분 분석을 왜하는 것인가.

 

주성분 분석을 하는 방법 정도는 적혀 있었던것 같은데

 

내가 그 당시 기반 지식이 부족해서인지는 잘 모르겟으나

 

뭔가 말은 이해는 가는데 조금 부족하다는 생각이 들더라

 

 

지금 통계과에서 주성분 분석에 대해 들으니

 

조금은 당시 부족했던 부분들이 이해가기 시작한다.

 

컴퓨터 과학에서 다루는 주성분 분석은 계산을 더 효율적으로 하기 위하다보니

 

변수 간에 어떤 관계가 존재하는지 설명하는 부분이 어려웠던것 같았다.

 

 

지금 수업을 들으면서 사회 과학에서 주성분 분석 시 변수 들간의 의미를 

 

주성분 분석을 통해 이렇게 축약할수 있는가

 

조금 더 명확하게 이해되면서

 

공부하면서 스토리 텔링이 참 중요한것 같다.

 

 

 

300x250
728x90

단변량 데이터 다루기

 

1. 데이터 읽고 기술통계량 보기

 

 

300x250
728x90

 다변량 분석

주성분 분석, 인자 분석, 분산분석 등 두 개 이상의 변수들의 관계를 분석하는 모든 통계적 기법

 

 

 c(a: b)

- a에서 b까지 수 벡터 생성

 

%/%

- 나누기 연산

 

%%

- 몫 연산

 

seq(a, b, length = x)

- a ~ b 사이 10개 간격으로 값 생성

 

rnorm()

- 난수 생성

- 정규 분포를 따름

ex.1 평균이 10이고, 표준편차가 1인 정규분포를 따르는 난수 10개 생성시

 => rnorm(10, 10, 1)

 

 

행렬 생성 

- matrix(수열, ncols= 값, byrow=T/F)

 

- matrix(1, nrow=x, ncol=y)

모든 값이 1인 x y 행렬 생성

 

 

서브 행렬 추출

- x가 행렬인 경우

- x[, c(1:3)] : 1 ~ 3열까지 모든 행데이터 추출

 

전치행렬

- t(행렬)

 

전치 행렬과 행렬의 곱

- %*%

 

 

함수 작성

square = function(x) {x *x}

sqaure(4)

 

 

 

패키지 설치 및 로드

 

 

 

 

산점도와 상관계수 예시

-  학생 10명의 수학, 물리 점수 사이 상관관계 보기

- 산점도 그리고, 상관계수 보자

 

 

- 상관계수는 0.9921232로 수학과 물리 점수사이 강한 선형적 상관관계가 있음을 알 수 있음.

 

 

기술 통계량 descriptive statistics 구하기

- 기술통계량 : 통계 데이터를 나타내는 대표적인 통계량들. 평균, 분산, 사분위수, 표준편차, 중앙값 등

 

 

엑셀 데이터 읽기

- library(xlsx)

- read.xlsx("경로", 1)

 * 여기서 1은 sheet 넘버가 1을 의미

 

데이터 일부 출력

- head() : 맨위 데이터 일부 출력

 

기술 통계량 출력

- summary(데이터 프레임) : 변수 그룹별, 평균와4분위수 등 출력

 

 

 

attach(데이터 프레임)

- 데이터 프레임 이름 선언 없이 변수에 접근 가능한 함수

- 이 함수를 사용안하면 데이터프레임$변수명 으로 접근해야함

 

 

그룹별 기술 통계량 출력하기

- tapply(기술통계량 구할 값들,그룹,기술통계량)

 

두 그룹에 대한 기술 통계량을 보고 싶은 경우

- list(그룹 변수1, 그룹 변수2) : 두 그룹에 대한 경우들을 만듬

- table(변수) : 분빈도 보기

 

 

 

 

 

두 빈도 변수, 분할표에 대해서 독립성 검증 하기

-> 카이제곱 통계량을 구함.

1. 두 변수에 대한 분할표 작성

2. summary(분할표) 호출

=>  카이제곱 통계량, 자유도, pval(유의 확률, 한계유의기준)을 알수 있음.

 

 

 

 

성별과 교육 수준에 따른 월 수입 분석

1. 데이터 읽고, 도수 분포표 만들기

 

2. 교육 별 도수분포표 막대 그림

 

3. 나이와 월수입에 대한 산점도 그리기

 

4. 남녀 구별 : 나이와 월 수입에 대한 산점도 그리기

 

 

 

독립변수가 4개인 데이터 회귀 분석

1. 데이터 로드, 회귀 모형 적합

- lsfit(x, y) 함수 

 

 

 

2. 잔차와 예측치에 대한 산점도 그리기

 

300x250
728x90

기존의 회귀 모형 regression model

- 기본 가정 : 오차 등분산성, 모형의 선형성, 오차의 정규성

 

반응 변수 Y가 정규 분포가 아닌경우

- 오차의 등분산성 위배 -> 분산안정화변화로 해결

- 오차의 정규성이 위배(오차가 정규분포를 안따를떄) : 일반화 선형 모형

 

 

 

 

 

일반화 선형 모형를 사용하는 경우

- 반응변수 Y가 정규분포를 안따르는 경우

 ex. 반응변수가 비율을 나타내는 경우, 반응변수가 양의 개수를 나타내는 포아송 분포를 따르는 경우

 

 

일반화 선형 모형 generalized linear model

- 반응 분포가 정규 분포 뿐만아니라, 이항분포, 포아송분포,

  감마 분포와 같은 지수족 분포를 따를때 회귀 모형 형태로 확장된 모형

* 회귀모형의 한계를 극복함.

 

 

 

 

일반화 선형 모형의 구성성분 세가지

- 반응 변수의 분포

- 선형 예측자 eta = beta_0 + beta_1 X = g(mu)

- 연결 함수 g(mu) = log(mu)

 

예시 : 1983 ~ 1986년 동안 호주에서 에이즈로 인한 사망자수

x : 1983년 1월부터 3개월 단위 경과 기간

y : 사망자수

 

 

선형 모형의 일반화 선형 모형으로 확장

  선형 회귀 모형 일반화 선형 모형
반응변수의분포 정규분포를 가정 정규분포, 이항분포, 포아송 등 지수족 분포 등 하나를 가정
평균의 선형성 mu = E(Y) = X' beta eta = g(mu) (연결함수) = X' beta
모수 추정법 최소제곱추정(=최대가능도추정) 최대가능도추정

 

 

 

 

지수족 분포 the exponential family of distributon

- 반응변수 분포가 지수족 분포를 따를때 일반화 선형 모형 사용

- 확률 밀도함수 f(y;theta;phi)와 같이 표현되는 분포로 아래와 같음.

- theta : 평균 mu의 함수로 정준 모수 canonical parameter

- phi : y의 분산과 관련되고, 평균과는 독립인 산포모수 dispersion param

- w : y 분포 가정에 따라 사전에 알수있는값

 

 

 

선형 예측차 eta linear predictor 

- 설명변수들의 선형 결합

연결 함수 link function

- 선형 예측자와 반응변수의 평균 사이 관계를 eta가 되도록 만들어주는 함수 g()

 

 

 

지수족 분포의 정준 연결 canonical link

 

 

 

 

 

로지스틱 회귀모형

- 반응 변수가 이항 자료인 경우 사용

=> 로지스틱 회귀모형 : 로짓 함수가 선형 연측자가 되는 모형.

ex. 날다람쥐의 출현 자료( 독립 : con_metric ,  p_size_km, 종속: 1 또는 0)

 => y = occur, 1=yes, 0= no => 이항분포를 따름

 

- 로지스틱 회귀 모형

 -> -3.606 + 0.024 x1 + 1.632 x2

- deviance 이탈도 : 선형 회귀 모형의 잔차 제곱합을 일반화한 개념. 정규분포를 따른다고 한다면 카이제곱 분포를 따름.

 

 

 

 

 

로지스틱 회귀 모형의 유의성 검정

- H0 : log (pi/(1-pi) = beta0 vs  H1 : log(pi/(1-pi) = beta0 + beta1x1 + beta2x2

 => 정리하면 H0 : beta1 = 0, beta2 = 0 vs H1: 적어도 하나는 0이 아니다.

- 두 이탈도의 차이가 유의한지 보면됨.

 

 

 

 

 

300x250
728x90

회귀 모형 regression model

- 단순 회귀 모형 : 독립변수와 종속변수간에 선형적 관계를 갖는 경우 사용

- 다항 회귀 모형 : 독립변수와 종속변수간에 비선형적인 관계를 같는 경우

 

 

다항 회귀 모형 polynomial regression model

1. 독립변수가 하나인 경우 이차 다항 회귀 모형

2. 독립변수가 2개 인경우 이차다항회귀모형

 

 

 

다항회귀모형 예제 1

1. 데이터 로드, 플롯

- 연도별 교통범죄발생률과 승용차보급률

- 플롯시켰더니 약간 비선형적

 => 2차 다항 회귀모형으로 만들어보자.

* attach(데이터프레임). => plot시 데이터프레임$ 를 생략할수 있음

2. 모형 생성 

- 구한 이차다항회귀모형은 아래와 같다.

 

 

 

 

다항회귀모형 예제 2 : 1990~1992년까지 마라톤 대회 5km 구간별 평균속도

1. 데이터 로드, 플롯

- 데이터 형태를 보니 3차 다항회귀모형을 만들자

 

2. 모형 추정

- beta0 ~ 3까지 pvalue가 매우 작음 => 유의

 

 

 

가변수 회귀모형 dummy variable regression model

- 독립변수에 이산형 변수가 포함되어있는 경우에 사용

- 가변수 dummy variable, indicator variable ; 두가지 값을 갖는 변수

- 예시 : 비누 생산공장에서 부스러기양과 공정속도

=> 교호작용을 고려한 모형

=> 교호작용이 없는 모형

 

 

 

 

R에서 실습

1. 데이터 읽고 산점도 그리기

- line0와 line1은 기울기는 차이없고, 공정에 따라 차이가 있어보임

=> 교호작용이없는 모형을 고려

 

2. 모델 생성

- 교호작용이 없는 모형

- 두 생산 라인은 beta2만큼의 차이가 존재

 H0 : beta2 = 0을 기각한다면 => 두 생산공정에 차이가 존재

- p value가 매우 작으므로 두 생산 공정에 차이가 존재하며, 차이는 53정도.

- adjust R2는 0.9352로 유의

 

 

 

3. 모델 만들기

- 교호작용을 고려한 경우

 

- X:Dline1 의 경우 pval이 0.18로 유의수준보다 크므로 유의하지 않음.

 => 교호작용을 고려하지 않은 모형이 적합.

 

 

 

 

 

300x250

+ Recent posts