인자 factor : 숨어있는 요인
주성분 분석과 인자분석의 차이
- 주성분 분석 : 서로 관련있는 변수간의 선형결합으로 새로운 변수, 주성분을 만들어 분석
- 인자 분석 : 서로 관련있는 변수들을 설명할수있는 새로운 공통 변수를 파악하는 방법
인자분석의 예시
- 고등학교 학생 대상으로 국어, 영어, 수학, 사회, 지리, 역사 등 10개 과목 시험 실시
=> 과목들을 공통적으로 설명할수 있는 공통 인자들을 유도하여 분석
=> 공통인자 : 추상적 개념, 이해력, 분석력 등을 나타내는 변수로 각 과목은 인자들의 선형결합으로 표현
=> 인자분석에선 인자들을 생성하는데 해석은 주관적으로 자료에 적절하도록 해석해야함
주성분 분석과 인자분석
- 관측된 변수들로 소수의 새로운 변수들을 생성하는 통계적 방법
- 분석 과정이 유사하지만 접근 방법은 다름.
- 주성분 분석 : 변이(분산)에 구조적 해석이 힘드나 상관관계가있는 변수들을 적절히 선형변환시킴
- 인자 분석 목적 : 직접적으로 해석 힘든 변수간 구조적 관계와 개념적 의미를 부여할수 있는 적은 수의 공통인자 유도
=> 개념적 의미를 부여하는 변수 생성
공통 인자
- 변수들이 구조적 측면서 공유하는 확률적 인자.
- 변수간 상관관계를 생성시키는 가설, 이론, 관찰불가한 변수를 말함.
주성분 분석과 인자 분석의 차이점
- 주성분 분석 : 변수들의 선형 결합. 인자 분석 : 가공의 인자를 만든 후, 가공 인자들의 선형 결합식
- 주성분 분석 : 주성분들이 갖는 크기에 따라 순서 있음. 인자 분석 : 인자들엔 순서 없음
- 주성분 분석 : 관측 변수들의 선형 결합. 오차항이 없다.
인자분석 : 인자들이 선형식으로 설명. 설명불가한 부분을 오차항/특수인자가 있음.
인자분석 모형
- 인자 분석에서 p개의 변수 X = (X1, X2, .., Xp)가 있을때, X의 공분산 행렬과 기대값은 아래와 같음
- 인자 모형 : 각 변수 X에서 평균 mu을 뺀 값이 q개의 가공 인자들의 선형 결합 lf과 오차항 e으로 표현되는모형
- 관심 가져야하는 부분 : 계수 l_ij의 추정과 각 변수와 인자들의 선형 결합으로 설명되는 수준
인자분석 기본 가정
- 변수벡터 X는 다변량 정규분포 따름
- 인자 f와 오차항 e 평균은 모두 0, 인자들의 분산은 1
- 인자 쌍의 공분산은 0, 인자 f와 특수인자 e는 서로 독립
- 오차항은 각각의 분산을 가지나, 오차항 쌍의 공분산은 0
공통성 communality
- 수식
- Sigma의 분산 = L L'의 대각 원소들의 합과 오차항 분산의 합
- 공통성의 의미 : q개의 인자에 의해 설명할수 있는 정도. -> q개 인자로 획득가능한 정보의 비율을 측정하는 척도
- 공통성 h_i^2는 [0, 1]사이 값으로 1에 가까울 수록 변수 Xi가 가지고 잇는 정보 중에서 인자가 확보하는 비율이 큼
인자 분석 초점
- 인자 부하값(l11, ..., l1q)을 추정하여 변수 Xi와 q개의 인자사이 관계 추정
- 공통성 hi2를 구하여 변수 xi 정보를 어느정도 확보되는가 추정
=> 가능한 적은 q개의 인자들로 최대한 정보를 확보해야함.
인자 모형 추정 방법
1. 주성분 분석 방법 principal compoent method
- 주성분 분석을 통해 인자를 구한느 방법.
- 상관계수행렬 R의 대각 요소에 1대신 공통성 추정치를 대치하여 사용. 많이사용
2. 최우추정법(최대가능성방법)
- 가능성 함수를 구하고, 가능성을 최대화 하는 인자부하 (l11, ... l1q)과 오차항 e를 구하는 방법
인자의 수와 인자부하값의 유의성
- 인자 수 최대는 변수의 개수. 하지만 최소의 인자를 구하고자하니 보통 3~4개 선택
- 인자의 수는 상관계수행렬 R의 고유값이 1보다 큰 경우만 사용.
- 인자 부하의 유의성 : n>50인 경우, 0.3인 경우 유의함, 0.4는 더 유의함. 0.5는 아주 유의함.
인자 회전 factor rotation
- 인자 부하값들의 크기에 따라 변수들을 유사한 것끼리 묶거나 공통 요인 찾음.
-> 해석을 용이 하기 위해 인자 회전 실시
인자 회전 예시 1
- 고등학생 100명 대상, 국/영/수/물리/사회 시험 후 인자분석실시, 아래의 2개 유이한 인자에 대해 인자 부하행렬
- 인자 F1은 수학, 물리에 큰 가중치 가지며, F2는 국영사에 큰 가중치 가짐
=> 인자 F1는 분석력, F2는 이해력이라 정의할 수 있음.
인자 회전 예시 2
- 인자 부하가 다음과 같은 경우, 모든 과목들이 F1에 대해서 높은 부하를 F1, F2 특성 구분이 쉽지 않음
- 인자축 F1, F2를 F1*, F2*로 회전하는것이 용이
- 인자 회전 방법 : 직교 회전, 사각 회전(각 변수의 인자 가중치가 한 인자에만 크도록 축을 회전)
인자 분석 예시
- 검진 프로그램 유횽성 모니터링 자료. 11개의 검진 항목, 128개의 자료
- psych 패키지의 principal()함수로 주성분 인자법으로 인자 모형 추정
1. 자료 가져오기, 통계량 요약
2. 초기 인자분석 실시
- principla() 함수로 주성분 인자법으로 인자분석 실시
- values는 고유값. 고유값을 보면 세번재 인자까지 1이상임을 알 수 있음.
3. 인자분석 결과 : 인자회전varimax이용
- h2 : 각 변수 공통성, 각 변수의 공통성은 아래와 같이 구함
- U2 : 고유분산(u2 = 1- h2)
- 공통성은 많은 변수 주에서 서로 연관 갖는 일부 변수를 구하기 위해 인자분석시 변수 선택기준으로 사용
ex. 변수 100개로 인자분석 결과 공통성이 0.3이하인 것이 40개라면, 해당 변수들은 다른 분항과 공통성이 적음
- ss lodings : 인자 가중치들 제곱의 합으로 구함.
- proportion var : 인자가 설명하는 총 분산 비율.
=> RC1 : 22%, RC2 : 19%, RC3 : 14%로 세 인자로 설명 가능한 변동은 총 변동의 56%
- 인자 모형 식
- 첫번째 인자 RC1은 lung, liver, kidney, heart가 가장 높은 값을 가짐. => 생물 의학
- 두번째 인자 RC2는 stamina, Strech, blow, urine의 값이 높음 => 인체 기능
- 세번째 인자 RC3는 muscle과 skeleton이 높은 값 => 근육골
4. 인자 점수
5. 행렬도
'수학 > 통계' 카테고리의 다른 글
다변량분석 - 6. 정준상관분석 Canonical Correlation Analysis (0) | 2020.11.26 |
---|---|
다변량분석 - 5. 다차원 척도법 MultiDemensional Scaling (0) | 2020.11.26 |
통계 - 17. 통계적 추론에 대하여 (0) | 2020.11.10 |
다변량분석 - 3. 주성분 분석 (0) | 2020.11.09 |
다변량분석 - 2. 다변량 분석과 데이터 시각화 (0) | 2020.11.03 |