728x90

인자 factor : 숨어있는 요인 

 

 

주성분 분석과 인자분석의 차이

- 주성분 분석 : 서로 관련있는 변수간의 선형결합으로 새로운 변수, 주성분을 만들어 분석

- 인자 분석 : 서로 관련있는 변수들을 설명할수있는 새로운 공통 변수를 파악하는 방법

 

 

인자분석의 예시

- 고등학교 학생 대상으로 국어, 영어, 수학, 사회, 지리, 역사 등 10개 과목 시험 실시

=> 과목들을 공통적으로 설명할수 있는 공통 인자들을 유도하여 분석

=> 공통인자 : 추상적 개념, 이해력, 분석력 등을 나타내는 변수로 각 과목은 인자들의 선형결합으로 표현

=> 인자분석에선 인자들을 생성하는데 해석은 주관적으로 자료에 적절하도록 해석해야함

 

 

 

주성분 분석과 인자분석

- 관측된 변수들로 소수의 새로운 변수들을 생성하는 통계적 방법

- 분석 과정이 유사하지만 접근 방법은 다름.

- 주성분 분석 : 변이(분산)에 구조적 해석이 힘드나 상관관계가있는 변수들을 적절히 선형변환시킴

- 인자 분석 목적 : 직접적으로 해석 힘든 변수간 구조적 관계와 개념적 의미를 부여할수 있는 적은 수의 공통인자 유도

 => 개념적 의미를 부여하는 변수 생성

 

 

 

공통 인자

- 변수들이 구조적 측면서 공유하는 확률적 인자.

- 변수간 상관관계를 생성시키는 가설, 이론, 관찰불가한 변수를 말함.

 

 

주성분 분석과 인자 분석의 차이점

- 주성분 분석 : 변수들의 선형 결합. 인자 분석 : 가공의 인자를 만든 후, 가공 인자들의 선형 결합식

- 주성분 분석 : 주성분들이 갖는 크기에 따라 순서 있음. 인자 분석 : 인자들엔 순서 없음

- 주성분 분석 : 관측 변수들의 선형 결합. 오차항이 없다.

    인자분석 : 인자들이 선형식으로 설명. 설명불가한 부분을 오차항/특수인자가 있음.

 

 

 

인자분석 모형

- 인자 분석에서 p개의 변수 X = (X1, X2, .., Xp)가 있을때, X의 공분산 행렬과 기대값은 아래와 같음

- 인자 모형 : 각 변수 X에서 평균 mu을 뺀 값이 q개의 가공 인자들의 선형 결합 lf과 오차항 e으로 표현되는모형

 

- 관심 가져야하는 부분 : 계수 l_ij의 추정과 각 변수와 인자들의 선형 결합으로 설명되는 수준

 

 

 

 

 

인자분석 기본 가정

- 변수벡터 X는 다변량 정규분포 따름

- 인자 f와 오차항 e 평균은 모두 0, 인자들의 분산은 1

- 인자 쌍의 공분산은 0, 인자 f와 특수인자 e는 서로 독립

- 오차항은 각각의 분산을 가지나, 오차항 쌍의 공분산은 0

 

 

 

 

 

 

공통성 communality

- 수식

- Sigma의 분산 = L L'의 대각 원소들의 합과 오차항 분산의 합

- 공통성의 의미 : q개의 인자에 의해 설명할수 있는 정도. -> q개 인자로 획득가능한 정보의 비율을 측정하는 척도

- 공통성 h_i^2는 [0, 1]사이 값으로 1에 가까울 수록 변수 Xi가 가지고 잇는 정보 중에서 인자가 확보하는 비율이 큼

 

 

 

인자 분석 초점

- 인자 부하값(l11, ..., l1q)을 추정하여 변수 Xi와 q개의 인자사이 관계 추정

- 공통성 hi2를 구하여 변수 xi 정보를 어느정도 확보되는가 추정

=> 가능한 적은 q개의 인자들로 최대한 정보를 확보해야함.

 

 

 

 

 

인자 모형 추정 방법

1. 주성분 분석 방법 principal compoent method

- 주성분 분석을 통해 인자를 구한느 방법.

- 상관계수행렬 R의 대각 요소에 1대신 공통성 추정치를 대치하여 사용. 많이사용

2. 최우추정법(최대가능성방법)

- 가능성 함수를 구하고, 가능성을 최대화 하는 인자부하 (l11, ... l1q)과 오차항 e를 구하는 방법

 

 

 

 

 

 

인자의 수와 인자부하값의 유의성

- 인자 수 최대는 변수의 개수. 하지만 최소의 인자를 구하고자하니 보통 3~4개 선택

- 인자의 수는 상관계수행렬 R의 고유값이 1보다 큰 경우만 사용.

- 인자 부하의 유의성 : n>50인 경우, 0.3인 경우 유의함, 0.4는 더 유의함. 0.5는 아주 유의함. 

 

 

 

 

 

 

인자 회전 factor rotation

- 인자 부하값들의 크기에 따라 변수들을 유사한 것끼리 묶거나 공통 요인 찾음.

   -> 해석을 용이 하기 위해 인자 회전 실시

 

 

 

 

인자 회전 예시 1

- 고등학생 100명 대상, 국/영/수/물리/사회 시험 후 인자분석실시, 아래의 2개 유이한 인자에 대해 인자 부하행렬

- 인자 F1은 수학, 물리에 큰 가중치 가지며, F2는 국영사에 큰 가중치 가짐

=> 인자 F1는 분석력, F2는 이해력이라 정의할 수 있음.

 

 

 

인자 회전 예시 2

- 인자 부하가 다음과 같은 경우, 모든 과목들이 F1에 대해서 높은 부하를 F1, F2 특성 구분이 쉽지 않음

- 인자축 F1, F2를 F1*, F2*로 회전하는것이 용이

- 인자 회전 방법 : 직교 회전, 사각 회전(각 변수의 인자 가중치가 한 인자에만 크도록 축을 회전)

 

 

 

 

 

 

 

 

 

인자 분석 예시

- 검진 프로그램 유횽성 모니터링 자료. 11개의 검진 항목, 128개의 자료

- psych 패키지의 principal()함수로 주성분 인자법으로 인자 모형 추정

 

1. 자료 가져오기, 통계량 요약

 

2. 초기 인자분석 실시

- principla() 함수로 주성분 인자법으로 인자분석 실시

- values는 고유값. 고유값을 보면 세번재 인자까지 1이상임을 알 수 있음.

 

3. 인자분석 결과 : 인자회전varimax이용

- h2 : 각 변수 공통성, 각 변수의 공통성은 아래와 같이 구함

- U2 : 고유분산(u2 = 1- h2)

- 공통성은 많은 변수 주에서 서로 연관 갖는 일부 변수를 구하기 위해 인자분석시 변수 선택기준으로 사용

 ex. 변수 100개로 인자분석 결과 공통성이 0.3이하인 것이 40개라면, 해당 변수들은 다른 분항과 공통성이 적음

- ss lodings : 인자 가중치들 제곱의 합으로 구함.

- proportion var : 인자가 설명하는 총 분산 비율.

 => RC1 : 22%, RC2 : 19%, RC3 : 14%로 세 인자로 설명 가능한 변동은 총 변동의 56%

 

- 인자 모형 식

- 첫번째 인자 RC1은 lung, liver, kidney, heart가 가장 높은 값을 가짐. => 생물 의학

- 두번째 인자 RC2는 stamina, Strech, blow, urine의 값이 높음 => 인체 기능

- 세번째 인자 RC3는 muscle과 skeleton이 높은 값 => 근육골

 

4. 인자 점수

5. 행렬도

 

300x250

+ Recent posts