728x90

논리의 의미

- 사고 과정

 

 

논리학의 두종류

- 인식론적 논리학 : 인식의 본질, 과정 연구 -> 철학, 언어, 인지심리학 으로 발전

- 형식논리학 :  삼단논법 기반 사고, 정확한 전제(명제)가 주어질때 정확한 결론을 얻을 수 있음. 

       -> 형식적 연역을 기호로 표현하여 기호논리학으로 발전. 논리 연산자와 부울대수가 만들어짐.

 

 

퍼지 논리의 시작

- 명제논리와 술어논리를 많이 사용. 자연언어를 기호화하여 형식적으로 처리하는 목적임. 표현력에 제한

  -> 논리 연산자가 제한됨. 표현(명제)가 정확여부를 참/거짓 2개의 진리값으로 취급하기 때문.

- T/F 2개의 진리값 이외의 모호함을 취급하는 퍼지논리가 연구됨.

 

 

 

이진 논리

- 기호 논리학에서의 명제 : 한 판단을 포함한 문장/정보

- 기본 명제 : 분해 불가한 최소 단위 명제.  p, q, r(이 기호는 명제 상수, 원소식)

   ex. p = 철수는 한국인이다. , q = 닉은 미국인이다.

- 합성명제 : 기본 명제를 결합한 명제

  ex. a = 철수는 한국인이고, 닉은 미국인이다.

 

 

 

조건 명제

- 기호 논리학에서의 논리 기호 : 3가지 - 선언(또는, v) 연언(그리고, ∧), 부정(아니다, ~)

- 조건명제기호 : 논리 기호 이외의 결합 기호. -> (if then)

- 조건 명제 예시

  p : 비가 온다.

  q : 소풍 취소한다.

  p -> q : 비가 오면 소풍 취소.

 

 

명제 논리식 정의

- 아래는 기본 명제와 논리 기호로 명제 논리 정형식을 만드는 규칙

 1. 기본 명제 p, q, r은 논리식

 2. p가 논리식 일때, ~p도 논리식

 3. p, q가 논리식 일떄 p -> q도 논리식

 4. 1 ~ 3으로 얻는 식만 논리식

 

 

항진식

- 항상 참이 되는 논리식

ex. H = p v ~p

 p = 나는 부자다. ~p = 나는 부자가 아니다.

 -> H = 나는 부자거나 부자가 아니다. 

 => H는 항진식

 

 

연역

- 알고있는 전제로 결론을 구하는 과정

ex. alpha와 alpha -> beta가 성립되면 beta가 성립된다.(긍정논법)

 

 

 

 

 

 

 

 

명제 논리의 과정과 한계

1. 명제 논리는 형식 논리학에 기반

2. 명제 논리는 복잡한 문장, 합성 명제를 기본 명제로 분할

3. 삼단 논법으로 새로운 지식 추론.

- 명제 논리 한계 예시

    p : 소크라테스는 사람

    q : 플라톤은 사람

   -> 명제 p, q만으로 모두 사람이라는 공통점을 찾을수가 없다.

     r : 모든 사람은 죽는다

    -> p, q, r로 소크라테스와 플라톤은 죽는다는 사실 유도 불가

 

 

술어 논리

- 명제를 서술하는 술어와 수식 받는 객체로 구성. 술어(객체) 형태

- 술어 논리 예시

  1. 소크라테스는 사람 -> man(SOCRATES)

  2. 플라톤은 사람 -> man(PLATO)

  3. 모든 사람 죽음 -> ∀x(man(x) -> mortal(x))

 => 이 경우 소크라테스와 플라톤은 사람이므로 죽는다는 사실을 유도할 수 있다.

 

술어 논리 기호

- ∀ 천칭기호 universal quantifier : ∀x시, 모든x에대하여

- ∃ 존재기호 existential quantifier : ∃x시,적어도하나x가존재함

* quantifier 한정자 : 범위를 한정하는 연산자

- 1차 논리 : 한정 기호를 사용하는 술어 논리

 

 

 

 

300x250

'인공지능' 카테고리의 다른 글

인공지능 - 6. 탐색 과정  (0) 2020.11.11
인공지능 - 5. 퍼지이론  (0) 2020.11.11
인공지능 - 3. 지식  (0) 2020.11.11
인공지능 - 1. 개요 ~ 탐색  (0) 2020.10.15
패턴인식 - 9. 선형 판별 분석  (0) 2020.08.06
728x90

데이터, 정보, 지식, 진리의 차이

- 데이터 : 관측 센서로 취득한 값

- 정보 : 잡음과 불필요한 데이터를 제거한 데이터

- 지식 : 정보의 개념, 체계화

- 진리, 정의 : 지식을 보편/이론화 한 결과물

 

지식기반 시스템

- 인공지능 시스템의 문제 풀이 : 지식의 표현/활용이 중요

   <-> 일반 프로그램 : 데이터와 처리 규칙(프로그램)

- 문제 영역 관련 지식(지식 베이스) + 지식 기반 문제 풀이 기능(추론 기관)으로 구성

  

 

지식의 표현

- 문제 해결을 위한 문제 기술

- 컴퓨터에서 실행가능한 형태

 

인공지능 프로그램

- 일반 프로그램과 달리 상황에 대해 어느 지식을 사용할 지 동적으로 제어

 -> 컴퓨터 내부서 지식 저장, 처리 메커니즘이 핵심

- 모든 문제에 통일적으로 표현할 수 있는 방버은 존재 하지 않음. 

 -> 문제의 논리 구조를 분석하여 표현방법을 고려함

 

 

 

지식 사상

- 인공지능 기법으로 문제 해결 -> 많은 지식 + 해를 얻기위해 지식 처리 메커니즘 필요

- 사람이 사용하는 지식을 컴퓨터에서 처리하기 위해 컴퓨터 내부 표현 형태로 사상

- 추론 결과를 역사상하여 결론을 얻을 수 있음.

 => 지식 표현 시스템이 사상과 역사상을 명확히 하느냐에 따라 표현에서 중요한 요소

 

지식 사상의 예시

- 논리를 이용한 사실 표현

 -> 철수는 사람이다. ( 초기사실)

 -> man(철수) (초기 사실 내부 표현)

 -> 모든 사람은 생각한다 (추론 매커니즘)

 -> think(철수)  (추론 사실 내부 표현)

 -> 철수는 생각한다. (추론 사실)

 

 

지식 분류하기

- 문제에 대한 지식 : 문제 관련 사실로 얻는 지식

- 대상 세계에 성립하는 규칙, 법칙 : 지식 베이스의 지식을 맹목적 사용시 탐색 가지가 크게 증가하게됨

   => 효율적 탐색을 위해 성립 규칙과 법칙 이용

 - 메타 지식 : 지식에 관한 지식으로 문제 해결시 지식을 아떻게 활용할 것인가를 말함.

    => 수집 지식으로 추론 방법 제어시 사용

 

 

 

 

지식 표현 조건

- 특정 분야의 복잡한 정보를 구조화 하여 지식으로 나타내기 위해 다음 조건이 요구됨

- 표현 방법의 적합성 : 모든 지식 정확히 표현

- 추론 정합성 : 표현 구조를 처리하여 새 지식을 유도하기에 용이해야함

- 추론 효율성 : 부가 정보를 지식표현 구조에 적절히 포함시킬 능력 필요

- 지식 획득 능력 : 지식을 쉽게 획득할 수 있는 능력 필요. 지식 베이스에 새 지식 삽입, 프로그램이 스스로 지식 취득

 

 

 

 

지식 표현 유형

1. 절차적 지식 procedural knowledge 표현방법

 - LISP(list processing) 같은 프로그램 언어로 명령어 집합 표현

 - 지식 사용 = 프로그램 실행 -> 지식 제어 정보가 지식에 포함 -> 효율적이지 못함

2. 선언적 지식 declarative knowledge 표현방법 

 - 독립적 지식으로 구성, 지식 운용 목적 프로그램으로 추론에 사용

- 지식은 나열, 사용방법은 제공안됨 ->  지식 이용 방법을 가진 프로그램이 필요

 

 

 

논리를 이용한 지식 표현

1. 명제 논리 proportional logic

- 명제를 기호 형태로 표현.

 *명제 proposition : 참, 거짓을 판단할수 있는 문장

- 예시

  이것은 유리이다. = GLASS

  유리라면 잘 잘린다. = GLASS -> FRAGILE

- 논리 연산자

- 긍정 논법 nodus ponens : X, X -> Y 두 명제로 결론 Y라는 명제를 얻는 과정

 

2, 술어 논리 predicate logic

- 명제 논리를 확장. 술어 + 객체 = 한 문장

 ex. 명제 "강아지는 포유류이다."가 있을떼, "강아지(DOG)"이라는 객체가 "포유류(mammal)" 술어 수식받음.

 => mammal(DOG) 과 같이 표현 가능

- 변수와 함수 사용 -> 문장은 참조하는 변수값에 따라 참/거짓이 됨.

- 한정자 quantifier: 변수 범위 지정

=> 술어, 상수, 변수, 한정자, 논리연산자를 문법에 맞게 만든 문장을 정형식 well-formed formulas:wff

 

 

 

논리 표현 지식 이용

- 지식 베이스에서 단위 지식 검색 : 매칭이나 해식 사용

- 함축된 지식의 경우 : 명확하게 기술되지 않은 정리 증명의 경우 탐색 가지가 크게 증가

- 논리 기반 추론은 명확한 추론 규칙 이용 -> 결과는 항상 참, 저장 지식은 독립, 새 사실이 발견시 지식 양은 증가

 

 

 

규칙을 이용한 지식표현(생략)

 

 

시맨틱 넷 기반 지식 표현

1. 시맨틱 넷 semantic net

- 규칙 기반 지식 표현법의 문제점 : 융통성 적고, 구조화 되지 않음 -> 모형화나 특정지식 표현 힘듬

- 시맨틱 넷 : 지식 사이 관계(순서) 표현. 네트워크 기반 지식 표현 법, 노드 집합과 노드를 연결하는 아크 집합으로 구성

- 노드 : 객체 , 개념, 사건

- 아크 : 노드 사이 관계 (isa - is a, ako - a kind of, has-part 등)

 * isa는 하나의 인스턴스, ako는 어느 부류의 한 종류, has-part 객체의 구성 일부

2. 속성 상속 property inheritance

- 위 예시에서 "꼬리"는 "개" 객체의 속성인데 하위인 "복슬이"가 받음

- 속성 상속 : 상위 노드의 속성을 하위 노드가 따르는 것

 

3. 중앙 집중 지식 장점

- 지식 구성이 쉬움

- 표현 지식이 잘못된경우 쉽게 수정

- 시간 흐름에 따라 최신 지식 유지 쉬움

- 지식 분배가 자동적으로 수행

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

전문가 시스템 시작

- 1960년대 인공지능 학자들이 일반 문제 해결을 위한 일반 문제 풀이기 GPS general problem solver를 만들고자 함.

  -> 인간 사고 과정을 시뮬레이션하려 하였으나 일반 해를 구하기가 어려웟음.

- 특정 분야 문제를 해결할수 있는 구체적인 프로그램 만드는 방법 연구

- 1970년대 : 문제 정형화 표현 기술, 기억 용량 사용시간을 줄이며 문제 해결하는 탐색 방법 연구

 -> 문제 정형화, 추론과정 보다 응용 분야의 지식 표형 방법이 중요함을 찾음.

- 전문가 시스템 expert system : 전문가의 지식, 전략을 시뮬레이션하여 의사결정 지원하는 시스템

- 지식 공학 : 전문가 시스템을 만드는 분야

- 지식 공학자 : 전문가 시스템을 만드는 사람. 해당 분야의 전문가로 지식, 문제 해결전략을 체계적 표현함.

 

 

자료처리 프로그램과 전문가시스템 차이

자료처리 프로그램 전문가 시스템
자료 표현과 이용
알고르짐
반복 처리
다량 자료를 효율적 처리
지식 표현, 이용
경험적 지식
추론적 지식
다량의 지식 베이스를 효율적 처리

 

전문가 시스템 기능

- 해석 : 입력 자료로 상황 추론

- 예측 : 상황으로 발생 가능 결과 예측

- 진단 : 관측 자료로 이상상태진단

- 설계 : 제약조건내 가능한 설계 구상

- 그외 계획, 모니터링, 디버깅, 교육, 제어 등

 

 

전문가 시스템 구성

- 지식 베이스와 추론기관 그리고 사용자 인터페이스로 구성

- 지식 베이스 : 문제 영역 관련 지식

- 추론 기관 : 문제 해결 목적 지식, 프로그램 제어 + 규칙 해석기(새로운 지식 추론을 위해 규칙 적용 결정) + 스케줄러

 

 

전문가 시스템 개발

1. 문제 정의 : 개발 목적, 문제 특성.

  ex. 문제 유형/범위, 참여 인력, 전문가, 소요 시간, 컴퓨터 성능

2. 개념 설정 : 기본 개념 정의, 해법

  ex. 세부작업, 전략, 제약조건

3. 정형화 : 지식 수집 및 지식 표현

  ex. 지식 표현 방법 설정, 적합한 개발도구 사용

4. 구현 : 프로그래밍

  ex. 자료구조, 추론과정, 프로그램 제어, 하부 시스템 통합 고려

5. 검증 ; 요구사항 만족 여부 검증

  ex. 개발자에게 개선방향 제시 필요

 

지식 공학자의 역활

 

300x250

'인공지능' 카테고리의 다른 글

인공지능 - 5. 퍼지이론  (0) 2020.11.11
인공지능 - 4. 논리기반 지식표현  (0) 2020.11.11
인공지능 - 1. 개요 ~ 탐색  (0) 2020.10.15
패턴인식 - 9. 선형 판별 분석  (0) 2020.08.06
패턴인식 - 8. 주성분분석  (0) 2020.08.05
728x90

인자 factor : 숨어있는 요인 

 

 

주성분 분석과 인자분석의 차이

- 주성분 분석 : 서로 관련있는 변수간의 선형결합으로 새로운 변수, 주성분을 만들어 분석

- 인자 분석 : 서로 관련있는 변수들을 설명할수있는 새로운 공통 변수를 파악하는 방법

 

 

인자분석의 예시

- 고등학교 학생 대상으로 국어, 영어, 수학, 사회, 지리, 역사 등 10개 과목 시험 실시

=> 과목들을 공통적으로 설명할수 있는 공통 인자들을 유도하여 분석

=> 공통인자 : 추상적 개념, 이해력, 분석력 등을 나타내는 변수로 각 과목은 인자들의 선형결합으로 표현

=> 인자분석에선 인자들을 생성하는데 해석은 주관적으로 자료에 적절하도록 해석해야함

 

 

 

주성분 분석과 인자분석

- 관측된 변수들로 소수의 새로운 변수들을 생성하는 통계적 방법

- 분석 과정이 유사하지만 접근 방법은 다름.

- 주성분 분석 : 변이(분산)에 구조적 해석이 힘드나 상관관계가있는 변수들을 적절히 선형변환시킴

- 인자 분석 목적 : 직접적으로 해석 힘든 변수간 구조적 관계와 개념적 의미를 부여할수 있는 적은 수의 공통인자 유도

 => 개념적 의미를 부여하는 변수 생성

 

 

 

공통 인자

- 변수들이 구조적 측면서 공유하는 확률적 인자.

- 변수간 상관관계를 생성시키는 가설, 이론, 관찰불가한 변수를 말함.

 

 

주성분 분석과 인자 분석의 차이점

- 주성분 분석 : 변수들의 선형 결합. 인자 분석 : 가공의 인자를 만든 후, 가공 인자들의 선형 결합식

- 주성분 분석 : 주성분들이 갖는 크기에 따라 순서 있음. 인자 분석 : 인자들엔 순서 없음

- 주성분 분석 : 관측 변수들의 선형 결합. 오차항이 없다.

    인자분석 : 인자들이 선형식으로 설명. 설명불가한 부분을 오차항/특수인자가 있음.

 

 

 

인자분석 모형

- 인자 분석에서 p개의 변수 X = (X1, X2, .., Xp)가 있을때, X의 공분산 행렬과 기대값은 아래와 같음

- 인자 모형 : 각 변수 X에서 평균 mu을 뺀 값이 q개의 가공 인자들의 선형 결합 lf과 오차항 e으로 표현되는모형

 

- 관심 가져야하는 부분 : 계수 l_ij의 추정과 각 변수와 인자들의 선형 결합으로 설명되는 수준

 

 

 

 

 

인자분석 기본 가정

- 변수벡터 X는 다변량 정규분포 따름

- 인자 f와 오차항 e 평균은 모두 0, 인자들의 분산은 1

- 인자 쌍의 공분산은 0, 인자 f와 특수인자 e는 서로 독립

- 오차항은 각각의 분산을 가지나, 오차항 쌍의 공분산은 0

 

 

 

 

 

 

공통성 communality

- 수식

- Sigma의 분산 = L L'의 대각 원소들의 합과 오차항 분산의 합

- 공통성의 의미 : q개의 인자에 의해 설명할수 있는 정도. -> q개 인자로 획득가능한 정보의 비율을 측정하는 척도

- 공통성 h_i^2는 [0, 1]사이 값으로 1에 가까울 수록 변수 Xi가 가지고 잇는 정보 중에서 인자가 확보하는 비율이 큼

 

 

 

인자 분석 초점

- 인자 부하값(l11, ..., l1q)을 추정하여 변수 Xi와 q개의 인자사이 관계 추정

- 공통성 hi2를 구하여 변수 xi 정보를 어느정도 확보되는가 추정

=> 가능한 적은 q개의 인자들로 최대한 정보를 확보해야함.

 

 

 

 

 

인자 모형 추정 방법

1. 주성분 분석 방법 principal compoent method

- 주성분 분석을 통해 인자를 구한느 방법.

- 상관계수행렬 R의 대각 요소에 1대신 공통성 추정치를 대치하여 사용. 많이사용

2. 최우추정법(최대가능성방법)

- 가능성 함수를 구하고, 가능성을 최대화 하는 인자부하 (l11, ... l1q)과 오차항 e를 구하는 방법

 

 

 

 

 

 

인자의 수와 인자부하값의 유의성

- 인자 수 최대는 변수의 개수. 하지만 최소의 인자를 구하고자하니 보통 3~4개 선택

- 인자의 수는 상관계수행렬 R의 고유값이 1보다 큰 경우만 사용.

- 인자 부하의 유의성 : n>50인 경우, 0.3인 경우 유의함, 0.4는 더 유의함. 0.5는 아주 유의함. 

 

 

 

 

 

 

인자 회전 factor rotation

- 인자 부하값들의 크기에 따라 변수들을 유사한 것끼리 묶거나 공통 요인 찾음.

   -> 해석을 용이 하기 위해 인자 회전 실시

 

 

 

 

인자 회전 예시 1

- 고등학생 100명 대상, 국/영/수/물리/사회 시험 후 인자분석실시, 아래의 2개 유이한 인자에 대해 인자 부하행렬

- 인자 F1은 수학, 물리에 큰 가중치 가지며, F2는 국영사에 큰 가중치 가짐

=> 인자 F1는 분석력, F2는 이해력이라 정의할 수 있음.

 

 

 

인자 회전 예시 2

- 인자 부하가 다음과 같은 경우, 모든 과목들이 F1에 대해서 높은 부하를 F1, F2 특성 구분이 쉽지 않음

- 인자축 F1, F2를 F1*, F2*로 회전하는것이 용이

- 인자 회전 방법 : 직교 회전, 사각 회전(각 변수의 인자 가중치가 한 인자에만 크도록 축을 회전)

 

 

 

 

 

 

 

 

 

인자 분석 예시

- 검진 프로그램 유횽성 모니터링 자료. 11개의 검진 항목, 128개의 자료

- psych 패키지의 principal()함수로 주성분 인자법으로 인자 모형 추정

 

1. 자료 가져오기, 통계량 요약

 

2. 초기 인자분석 실시

- principla() 함수로 주성분 인자법으로 인자분석 실시

- values는 고유값. 고유값을 보면 세번재 인자까지 1이상임을 알 수 있음.

 

3. 인자분석 결과 : 인자회전varimax이용

- h2 : 각 변수 공통성, 각 변수의 공통성은 아래와 같이 구함

- U2 : 고유분산(u2 = 1- h2)

- 공통성은 많은 변수 주에서 서로 연관 갖는 일부 변수를 구하기 위해 인자분석시 변수 선택기준으로 사용

 ex. 변수 100개로 인자분석 결과 공통성이 0.3이하인 것이 40개라면, 해당 변수들은 다른 분항과 공통성이 적음

- ss lodings : 인자 가중치들 제곱의 합으로 구함.

- proportion var : 인자가 설명하는 총 분산 비율.

 => RC1 : 22%, RC2 : 19%, RC3 : 14%로 세 인자로 설명 가능한 변동은 총 변동의 56%

 

- 인자 모형 식

- 첫번째 인자 RC1은 lung, liver, kidney, heart가 가장 높은 값을 가짐. => 생물 의학

- 두번째 인자 RC2는 stamina, Strech, blow, urine의 값이 높음 => 인체 기능

- 세번째 인자 RC3는 muscle과 skeleton이 높은 값 => 근육골

 

4. 인자 점수

5. 행렬도

 

300x250
728x90

19세기 과학자들의 통계적 추론에 대한 생각

- 뉴턴의 방정식 처럼 수학 방정식으로 설명가능하다고 생각

 * 라플라스의 경우 모든것을 알면 과거, 현재, 미래를 설명 및 예측가능하다고 봄.

=> 관측할 때마다 방정식대로 결과가 나오지 않음. -> 관측 오차라 생각.

- 관측 성능이 좋아져도 오차가 제거되지 않음.

 

현대 물리학 관점

- 방정식이나 기계같지 않고 불확실함.

 

불확실한 세상 파악방법

- 세상이 확률 분포를 따른다 가정하고, 측정 -> 측정 결과 = 데이터

 

 

 

 

 

 

 

 

 

 

 

 

통계적 추론 statistics inference

- 불확실한 세상을 데이터 기반 추론

- 활용 범위 : 여론 조사, 이미지 인식, 문자 인식, 상품 추천 ㅡㅇ

 

 

통계적 추론의 기본 가정

- 세상은 불확실함. 불확실성을 가능성, 확률로 표현

- 세상을 완전히 알수 없음

 

 

통계적 추론 원리

- 가장 가능성 높은 결론을 구하자

- 가능성이 낮은 일은 믿지 말자

 

 

통계학 정의

- 켄들, 스튜어트 : 자연현상의 성질 측정 데이터를 다룸

- 밀러 : 데이터가 갖는 정보를 이해하는 방법

- 키핑 : 예측 불가능한 변동하는 변수를 다루는 학문

- 체르노프 : 불확실한 상호아서 의사 결정

 

통계학 정의 정리

1. 관심 대상에 대한 데이터 수집

2. 데이터 요약 정리

3. 불확실한 사실에 대한 결론을 이끌어내는 방법

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

통계 관련 용어 정리

- 모집단 : 관심 대상 전체 집단

- 표본 : 관심 대상 일부

- 확률 : 사건 발생 가능성

- 확률 분포 : 모집단, 표본을 나타내며 몇개의 모수 parameter로 나타냄.

- 확률 변수 : 관심 변수. 표본 공간의 사건을 숫자로 바꿔주는 함수.

- 통계량 statistic : 표본에 대한 함수 ex. 표본평균, 표본분산

- 표본 분포 : 표본이 확률 변수이므로, 표본에 대한 통계량도 확률 변수. 통계량에 대한 분포

- 통게적 추론 : 통계량으로 모집단의 모수 추정 혹은 검증하기 위한 이론과 방법

 

 

통계적 추론과 현실

- 통계적 추론방법은 사고 실험을통해 정립

- 실제 데이터 분석은 이론과는 맞지 않은 문제

- 모집단은 알수 없고, 관측값과 사전 정보만을 알음. 이걸로 모집단에 대해 의사결정 수행

 

 

추론이란?

- 알고 있는 것으로 결론을 도출하는 방법

- 연역적 추론 : 이미 있는 결론으로 새 결론 유도

- 귀납적 추론 : 다수 관측으로 결론 유도

- 통계적 추론 : 표본을 이용하여 모집단에 대한 결론을 구하는 귀납적 추론 방법

=> 표본의 정보(통계량)으로 모집단에 대한 모수 추정. 불완정성을 확률로 표현

 

 

 

통계적 추론의 단계

1. 추정 :  표본으로 모집단에 대한 결론 도출

2. 검정 : 모집단 관련 주장에 대한 타당성 점검 => 표본의 정보가 우연인지, 모집단에 존재하는것인지 검토

 

 

통계적 추론에 필요한 이론

- 확률 이론 : 모집단/표본 통계량은 어떤 분포를 따르는가. 모집단 가정하에 표본이 어떻게 분포하는가.

- 추론 이론 : 표본으로 모집단을 어떻게 추정해야 타당한지에 대한 이론.

 

 

 

 

통계적 추론 과정

- 모집단은 모수 theta를 따르는 확률 분포를 따름.

- 확률 분포는 확률 변수의 점확률(pmf, pdf f(x|theta))이 됨.

     * X ~ N(mu, sigma2)로 가정

- bar{x}는 모평균 mu를 추정하기 위한 통계량.

    -> 표본수가 큰경우. 중심극한정리를 따라 근사적으로 정규분포 따름

    -> 표본수가 작을시. 표준화된 bar{x}는 t분포 따름.

- 추정에 필요한 통계량 -> 추론의 원리 이해 필요

  ex. 가능도 원리, 충분성 원리

  * 가능도 원리 liklihood principle : 표본의 joint pdf가 가능도 함수로 표본의 모수를 가지는 원리

  * 충분성 원리 sufficiency principle : 표본을 요약한 통계량이 모수 정보를 안 잃으면 충분성을 가짐.

  => 추정 통계량은 충분 통계량 기반으로 설계.

- 추정량의 유용성 : 평균제곱오차를 최소화 하는 통계량이 유용하다고 봄.  것으로 모집단 모수 추정

    * 평균 제곱 오차 : 손실함수(모수 - 추정량)의 기대값

- 검정 : 확률 표본으로 새로운 가설(대립가설)이 타당한지 보는 방법.

   -> 귀무가설 통계량 도출. 통계량이 가정에 대해 극단적인 값을 가질 시 가정은 기각

  => p value(한계 유의 기준, 유의확률)이 alpha(유의기준)보다 작은 경우 귀무가설 기각. 대립가설 채택

- 최적 검정 : 1종 오류 기준 하에 2종 오류를 최소화

  * 제 1종 오류 : 귀무 가설이 참이나 기각되는오류

  * 제 2종 오류 : 대립 가서이 참이나 기각되는 오류

 

 

 

 

 

 

 

 

 

통계적 추론 관점에 따른 분류

- 빈도론자 frequentist와 베이지안 baysian에 의한 추론으로 분류

- 빈도론자 : 모수를 표본에 대한 통계량의 표본분포 기반으로 추정, 검정

- 베이지안. 베이즈 주이자 : 주어진 데이터와 모수의 사전 확률 기반으로 사후 확률 계산

 

 

 

빈도론자 vs 베이지안

- 베이지안 : 사전 분포에 의존하여 결과가 일정치 않고 계산시간, 비용이 큼

- 빈도론자 : 추정 방법, 통계량에 따라 결과가 일정치 않음 + 주어진 정보 활용 x

 

 

현대 통계적 추론

- 어떻게 주어진 데이터로 공정하게 추측할까

- 통계학자가 할일 : 불확실성을 구조화하고 계산하는 것.

- 빈도적, 베이지안 방법을 종합하여 활용해야함.

 

 

 

 

 

 

 

 

 

통계적 추론 역사

- 20세기 전 : 가우스와 라플라스 식으로 데이터 요약

- 20세기 초 : 적은 수의 데이터를 확률 모형으로 만들어 분석, 추론 시작

 *** 칼 피어슨, 이곤 피어슨, 피셔, 고셋, 네이만 ***

- 1901 : 칼피어슨의 적합성 검정 논문 chi-square 검정

    * 칼 피어슨

    - 표본 자체가 확률 분포를 가진다고 봄 -> 모수 측정 불가. 측정값 산포로 유추.

    - 관측 현상은 임의적인것, 확률 분포가 존재

    - 평균, 분산, 왜도, 첨도로 확률 분포 파악 가능.

    - 카이 제곱 검정 : 관측 값을 범주들로 분류, 해당 범주 관측값 수와 이론 분포에 나오는 기대 관측 수 차이 이용.

                        => 유의성 검정에서 활용

- 1908 : 고셋의 평균에 대한 오차(t 분포: 적은 데이터 기반 검정, 추정에서 사용하는 분포)

   => 표본이 작은 경우 표본 평균이 어떤 분포를 따르는가 연구    -> 스튜던트 t의 분포.

- 이후 칼 피어슨의 업적

  1. 가능도 함수와 최대 가능도 추정법 제시.

  2. 유의성 검정 제안.

  3. 랜덤화와 분산분석으로 실험 계획 연구 -> F분포와 F검정 고안

- 네이만과 이곤 피어슨 : 유의성 검정 방법 제안

     1. 귀무 가설, 대립가설 구분

     2. 검정 행위 채택, 기각 구분

     3. 최적 검정이론 연구

- 1930년대 네이만 : 신뢰구간(모수 점추정에 대해 변동성이 필요하다고 봄) 제시

- 1930년대 호텔링 : 다변량 분석

- 1977년 튜키 : 탐색적 데이터 분석

 

300x250
728x90

주성분 분석 primary componant analysis 개요

- 연구시 변수 측정. 변수가 100개 존재한다면 너무 많고 어려움

- 정보를 유지하면서 소수의 변수를 이용하여 분석. 

- 어떻게 주성분을 만들고 분석하는가를 다룸

 

 

변이 variation

- 정보의 크기

- 일변량 시 분산으로 표현

- 다변량시 서로 다른 변수간 공분산 추가

 

주성분 principal component

- 다변량 자료가 가지고 있는 총변이의 주요 부분을 가지고 있는 성분

 

주성분 분석

- 변수들의 정보를 최대한 보존하는 작은 수의 변수들(주성분)을 생성.

- 주성분 분석의 범위 : 주성분 도출 방법과 생성된 주성분 성격과 통계적 추론을 포함

 

 

 

 

회귀 분석과 관련 예시

- 회귀 분석 모형에서 설명 변수 p가 50인 경우. -> 설명변수, 독립변수가 너무많으면 해석하기 힘듬

- 해결방법

 1. 변수 선택 방법 등 의미있는 변수들 선택하여 회귀모형을 적합

 2. 선형 결합으로 몇개의 새로운 의미있는 변수들을 만들어 회귀분석 실시

-> 세 주성분 Z1, Z2, Z3을 이용한 회귀식

 => 반응 변수, 종속변수 Y를 설명하는데 별 차이가 없다고 할 수 있음.

 -> 차이가 없으면 보다 간편하니 좋은 모형임.

 -> p개의 설명변수 X와 동등한 효과를 같는 적은 수의 새로운 설명변수 Z를 어떻게 만들까

 

 

 

 

 

주성분 분석의 목적

- 여러개의 구조적 해석이 힘들며, 서로 상관관계를같는 변수들을 적절히 선형변환 시킴

 => 적은 수의 의미있는, 독립적인 주성분 유도하여 해석하기 위함.

- 다변량 변수들의 단순화, 내적 구조 분석

- 원래 변수들을 선형 결합 형식으로  주성분(서로 상관되지않은, 독립적인) 인공 변수 유도

- 각 주성분이 가지는 변이(정보)의 크기(주성분 분산)을 기준으로 중요도 순서고려

 => 먼저 구한 주성분들이 총 변이(총정보)의 상당부분을 보유하도록 하여 차원 축약

 

 

 

 

주성분 분석의 역사

- p차원 공간에 흐트러져있는 점들을 직교최소제곱 orthogonal least square 개념에 잘 적합시키는 평면을 찾기위한 기하학 최적화 문제로서 피어슨이 제기

- 호텔링은 변수간 상관구조 분석을 위해 p개의 원래 변수들의 변이를 결정하는데 더 낮은 차원의 독립적 요인을 구하여 성분이라고 함.

* 원래 변수들이 가진 총변이에 대한 각 성분 공헌도를 순차적으로 최대화 하도록 선택된 성분들을 유도하여 이용한 분석이 '주성분 분석'임.

 

 

 

 

주성분 분석의 활용

- 인자분석, 회귀 분석과 같이 일/다변량 통계적 분석 기법들과 관련을 가짐

- 차원 축약의 결과로 얻은 각 관찰개체별 주성분 점수 principal component score들은 다음 단계 통계 분석(ex. 군집분석, 회귀분석 등)에서 입력자료로 사용됨.

 => 주성분 분석은 분석 과정에서 중간 단계로 사용.

 

 

 

 

 

 

주성분 분석 모형

 

분산의 공분산 행렬과 상관계수 행렬

- 변수 X1, X2 평균

- 변수 X1, X2의 분산과 공분산

- 상관계수

- 공분산 행렬, 상관계수 행렬

 

 

 

주성분 구하기

- 자료 X를 이용한 주성분 분석은 변수의 분산 공분산 행렬 S나 상관계수 행렬 R로 실시

 * 정보의 크기 = 분산의 크기

- 분산 공분산행렬 S로 주성분 구하기

 1. 고유값(고유근)구하기 : 위 자료의 공분산 행렬 S는 7x7행렬로 7개의 고유값과 고유벡터 쌍을 가짐

- 고유 백터의 크기가 다음과 같을때

 

- 고유값은 아래의 행렬식을 만족하며, 고유벡터는 고유값에 대응

 => 주성분 분석에서 구하고자 하는 새 변수들은 7개의 고유 벡터들로 구함

 2. 고유벡터 선형변환 : 고유 벡터들을 다음과 같이 직교화 orthogonalization

 - 각 고유벡터의 내적이 1이고, 두벡터의 곱이 0이 되도록 고유벡터들을 선형 변환

 => 각 고유값에 대응하는 고유벡터들을 직교화시 새로운 변수, 주성분 PC1, ..., PC7를 다음과 같이 정의

 => 7개의 변수로 7개의 주성분을 만들었으나, 앞의 일부 주성분 만으로 분석을 해나갈 수 있다.

 

 

 

 

주성분 가중계수 벡터

- 위 고유벡터 a1, ..., a7를 주성분 가중계수벡터라 부름. 

 => 주성분 의미를 해석하는데 사용됨.

 

주상분 가중 계수 벡터의 예시

- 아래는 학생들의 다섯 과목 시험 점수에 대한 표본 공분산 행렬 S

 *C1 : 기술, C2 : 벡터 => closed book 시험

* O3 : 대수학, O4: 해석학, O5: 통계학 => open book 시험

- 주성분 결과

- 해석

 Y1은 모든 변수에 대해서 비슷한 양의 가중 계수를 가지므로 첫 주성분은 가중 평균의 의미를 가짐.

 Y2는 closed book 시험에는 양의 가중치, open book 시험에는 음의 가중치를 가지므로 두번째 주성분에서는 클로즈드 북 시험과 오픈북 시험 과목 점수들 사이 대조 관계를 보임

* 개인적 생각 : 클로즈드북 시험인 경우 시험 점수의 분포가 다양하나 오픈 북 시험은 대부분의 학생들의 점수가 비슷하게 잘 나왔기 때문에 이렇다고 보임. 기술 C1이 벡터 C2보다 변동이 큰것 같음.

 

 

 

 

각 주성분들의 분산과 공분산

- 각 주성분을 정의하는데 이용된 고유벡터들과 쌍을 이루는 고유근이 분산 크기.

 => 고유값 = 분산크기

 

 

두 주성분 사이의 공분산

- 주성분들사이 공분산은 0으로 독립임

* PC1은 제 1 주성분, PC2는 제2 주성분 이라고 부름.

 

 

 

양의 상관계수 갖는 이변량 정규분포를 따르는 두변수에서의 주성분

- 분산이 큰 방향이 제 1주성분, 분산이 작은 부분이 제2주성분임.

 

 

 

 

 

 

 

 

 

표본 상관 행렬을 이용한 주성분 분석

- 주성분 분석시 표본 상관 행렬을 많이 사용한다고함

 * 변수를 표준화, 즉 측정단위에 얽매이지 않게됨.

- 주성분 분석은 표본 공분산 행렬 S의 고유값과 고유벡터를 이용하여 분산 중심 분석법.

 -> 여기서 변수 분산이 1이 되도록 변수를 표준 편차로 나눔

- 표준화 후 표준화 변수 벡터 Z에 대해 분산은 1, 공분산은 상관계수가 됨.

 

 

 

상관계수행렬 R에 기초한 주성분

- 표본 공분산 행렬 S로부터 주성분의 기본적 성질을 그대로 유지

- 주성분 분석에서 S와 R 중 어느 행렬을 분석대상으로 하느냐에 따라 주성분이 서로 다르게 됨.

 => 원래 변수들의 선형 결합인 주성분이 의미를 가지려면 적어도 모든 변수가 동일한 단위로 측정되 필요 있음.

 * 아래의 경우(주성분의 의미가 애매해지는)를 방지하기 위함.

- 고려대상의 변수가 직접 비교될 수 없는 단위로 측정된 경우, 각 변수를 표준화 시켜 주성분을 행함. 주성분 분석을 상관행렬에 기초하여 수행. 표준화 변수에 기초한 표준 상관행렬 R을 사용하는 경우 모든 변수의 분산이 똑같이 1이 되어 각 변수가 가지는 변이에서의 상대적 차이 무시

- 사회과학에서 변수는 측정단위가 자의적인 경우가 많음

-> 개별변수 변의 차이에 의미를 부여하는게 힘들 수 있음

 => 상관계수 행렬 R에 기초한 주성분이 많이 사용

 

 

 

 

 

 

 

주성분 분석 목적

- 기존의 p개의 변수 벡터 X에서 변이(정보)를 잃지 않는 한 작은 수의 주성분유도

 => 차원 축소와 자료 요약

 

주성분의 특성

1. 7개의 변수 X1, X2, ..., X7의 상관계수 r12, r23, ...., r67이 모두 1인경우 

 => 7개의 변수는 하나의 변수, 즉 주성분 1개로 대표 할 수 있다.

 * 고유값 lambda 1을 제외한 나머지는 0

2, 7개의 변수 중 한 변수(X7)가 나머지 6개의 변수들의 선형 결합으로 만들어 지는 경우

 

 

주성분의 중요도

- 주성분 PC1 : 가장 중요한 주성분 변수로, 변수가 7개시 PC1의 중요도는 아래와 같음.

 

 

1988년 서울 올림픽 육상 여성 7종 경기 결과에 대한 주성분 분석

1. 자료 준비

 

 

 

 

2. 자료 변환

- hurdles, run200m, run800m은 값이 작을수록 좋으므로 변형

 => 높은 점수가 좋은 점수가 되도록 최대값에서 빼줌

 

 

 

 

3. 주성분 분석 실행

- stats 라이브러리의 princomp 함수 사용

- 변수가 7개이므로, 7개의 주성분을 구하고, 각 주성분의 표준 편차 출력

 

4. 주성분 분석 결과

- 첫 주성분이 63.72%, 두번째 주성분이 17.06%로 두 주성분이 총 변량 80.8%정보 차지

- 각 주성분의 표준편차를 제곱하여 고유값을 구할 수 있음.

- 제 3 주성분의 고유값이 0.5로 유의미한 주성분은 2개

 

 

 

 

---- 후기 ---

 

이전에 주성분 분석에 대한 이야기를 처음 들었을때가 

 

패턴 인식을 공부했을 때였다.

 

그 때 피처가 큰 경우 차원수를 줄일수 있도록 하기 위해 주성분 분석법을 사용한다고 설명되어 있었지만

 

컴퓨터 과학적 관점에서 주성분 분석을 다루어서 인지

 

주성분 분석을 왜하는 것인가.

 

주성분 분석을 하는 방법 정도는 적혀 있었던것 같은데

 

내가 그 당시 기반 지식이 부족해서인지는 잘 모르겟으나

 

뭔가 말은 이해는 가는데 조금 부족하다는 생각이 들더라

 

 

지금 통계과에서 주성분 분석에 대해 들으니

 

조금은 당시 부족했던 부분들이 이해가기 시작한다.

 

컴퓨터 과학에서 다루는 주성분 분석은 계산을 더 효율적으로 하기 위하다보니

 

변수 간에 어떤 관계가 존재하는지 설명하는 부분이 어려웠던것 같았다.

 

 

지금 수업을 들으면서 사회 과학에서 주성분 분석 시 변수 들간의 의미를 

 

주성분 분석을 통해 이렇게 축약할수 있는가

 

조금 더 명확하게 이해되면서

 

공부하면서 스토리 텔링이 참 중요한것 같다.

 

 

 

300x250
728x90

올해 12월 말 빅데이터 분석기사 필기 시험이 진행되는데

 

첫 시험 접수 기간이 11.23 ~ 11.27로 얼마 남지 않았다.

 

 

지금 빅데이터, 통계 관련 분야들 어떤걸 공부했더라 ..

 

 

방통대, 학원을 병행하면서

 

 

데이터 분석 전반

 

확률론

 

통계학 제문제

 

실험 계획법

 

회귀모형 등을

 

훑어보고 있다.

 

 

최근 오랜만에 코딩도 조금씩하고

 

방통대 과제 하느라 속도가 많이 느려지기는 했는데

 

마지막 과목으로 다변량 분석까지만 보고

 

빅데이터 분석기사 위주로 공부 진행하고자 한다.

 

어제 제대로 못 자서 피곤하다 ..

300x250

'그외 > 로그' 카테고리의 다른 글

시험 과제를 하면서  (0) 2020.11.17
인공지능에 대해 공부하면서  (0) 2020.11.11
공부해나간 과정  (0) 2020.11.01
공부 고민  (0) 2020.08.16
가끔 보는 유튜브 - 커넥팅닷  (0) 2020.08.16
728x90

목표

- 머신/딥러닝 기본 이론

- 데이터 취득, 분석

- matplotlib, seaborn 시각화 까지

* 숫자가 아닌 필드를 숫자로 바꾸어주자!!

 

 

 

 

빠트린거

- 볼륨 설정을 하는데 자꾸 permission denied 발생

 

 

 

 

도커 이미지 내의 

 

jovyan 폴더를 권한 777주는게 아니라

 

치프트키 님의 글을 보니 호스트 볼륨 폴더에 권한을 주어야되더라

 

chiftkey.tistory.com/3

 

 

일단 이 문재는 해결했고..

 

 

 

 

 

 

구글 클라우드 플랫폼에서 방화벽 포트도 열어주고

 

도커 런시 포트도 연결 시켜주었으나 페이지에 접속하지 못하고 있다

 

 

* 방화벽도 설정하고, jupyter 외부접속도 허용도하고

포트 포워딩도 다 했는데 왜안되나 했는더니

 

방화벽 규칙 대상을 

 

네트워크의 모든 인스턴스 적용을 안해놔서 그렇더라 

 

80 포트는 잘되는데 내가 만든 8888포트 허용 규칙이 왜안되나 했다

 

 

 

 

 

 

 

 

 docker run -p 8888:8888 --memory=2g -v ~/gitlab/ssac-pytorch-1st/exercise:/ds --name hello /jaimeps/rl-gym

 

 

 

sklearn dataset

- 아래 링크서 많이 제공

scikit-learn.org/stable/datasets/index.html

 

 

 

sklearn dataset 호출시

- load : simple data

- fetch : real world data

 

 

 

 

 

 

df.info()

- 데이터 별 개수와 타입

df.describe()

- 기술 통계량

 

 

df.plot()

- 데이터 프레임은 plot도 가능 

 

 

sns.pairplot(df)

- 변수간 모든 상관관계 plot

- 변수 자기 자신은 그냥 히스토그램 플롯

- target에 대해 hue 지정시

 

 

 

 

와인 데이터 연습

 

1. 데이터 로드

2. 데이터 정보 보기

3. 데이터 프레임 만들기

 

 

* 그룹별 크기 출력

 

4. 시각화

4.1 sns.pairplot(df)

 

 

 

 

 

 

 

300x250
728x90

 

 

지난번 수업을 들을때

 

구글 클라우드 플랫폼에서 가상 머신을 만들고

 

가상 머신에서 도커를 설치해서 이것저것을 했었는데

 

나는 계정 문제 때문에 가상머신 만드는 부분을 제대로 하지를 못했었다.

 

 

 

 

이제 와서 급하게 가상 머신을 만들고 ssh 키 등록해서 접속하는 방법을 

 

대충 검색해서 해봤다.

 

 

가상머신 만드는 방법은

 

마스터 서님의 글을 보고 참고해서 진행할 수 있었다.

 

brunch.co.kr/@topasvga/168

 

3년전의 글이긴 하지만 대부분 지금도 비슷하니 문제는 없었고 

 

 

 

 

 

조금 주의해야 하는 부분은

 

ssh키를 설정해 주어야 하는데

 

 

 

지난번 수업때 보니 

 

puttygen으로 개인키와 공개키를 만들어서 하더라

 

그런데 하는 방법은 생각 안나고 잠깐 찾아봣는데

 

kiseon님이 잘 정리해놓으신 글이 있었다.

 

medium.com/@kiseon_twt/gcp-putty-setup-%ED%95%98%EA%B8%B0-25c489e06059

 

이 글 참고해서 공개키 등록하고 가상머신 생성 후

 

푸티로 들어왔다.

 

 

 

 

안그래도 터미널을 잘 안쓰는데 iterm을 쓰다가

 

putty가 너무 밋밋하더라

 

한번 테마를 추가해보려고 조금 찾아봤다.

 

 

 

putty 테마 적용 방법에 대해서 

 

조길상 님이 잘 정리해놓으신 글이 있더라

 

m.blog.naver.com/jogilsang/221853657930

 

하면서 주의해야하는 점은

 

테마 적용전 만들어둔 세팅에는 적용이 안된다고 한다.

 

테마를 적용후 다시 인스턴스 세팅을 만들어서 저장해주자.

 

 

 

큰 차이가 있는지는 모르겠는데 아까보다는 나아보인다

 

 

 

도커를 설치해야되니

 

이전에 썻던 글을 보면서 하고

 

throwexception.tistory.com/986

* 정확히는 도커 공식 홈페이지를 보면서 ..

 

 

도커를 설치하는 중간에 순간 400mb나 된다고 해서 잠깐 놀랏다.

 

핫스팟으로 인터넷 사용 중이라 데이터 고갈되는게 아닌가 했는데

 

지금 구글 인스턴스에 접속해서 쓰고있는걸 잊고 있었다.

 

 

 

 

이미지 가져오고, 들어갓다가 나오기도 하고, 삭제하고

 

오랜만에 하면서 잘 생각은 안나지만

 

이전에 대충이나마 정리해둬서 다행이다 

 

 

 

 

---------

 

맥북이 있다보니 그래도 putty보다는 iterm으로 접속해서 사용하고 싶은데

 

지난번에 ppk를 어떻게 다룰지를 몰라서

 

제대로 찾지 못하고 한참 해맷었다.

 

blog.naver.com/windi97/220976620976

 

이 글을 참고해서 진행을 하는데

 

무슨 이유에서인지 putty부터 접속이 안되더라

 

일단 윈도우에서 ppk 만들었으니 여기서 pem을 만들고 내일 맥에서 써보려고 한다.

 

참고 : aws.amazon.com/ko/premiumsupport/knowledge-center/convert-pem-file-into-ppk/

 

 

 

 

 

 

300x250
728x90

단변량 데이터 다루기

 

1. 데이터 읽고 기술통계량 보기

 

 

300x250
728x90

 다변량 분석

주성분 분석, 인자 분석, 분산분석 등 두 개 이상의 변수들의 관계를 분석하는 모든 통계적 기법

 

 

 c(a: b)

- a에서 b까지 수 벡터 생성

 

%/%

- 나누기 연산

 

%%

- 몫 연산

 

seq(a, b, length = x)

- a ~ b 사이 10개 간격으로 값 생성

 

rnorm()

- 난수 생성

- 정규 분포를 따름

ex.1 평균이 10이고, 표준편차가 1인 정규분포를 따르는 난수 10개 생성시

 => rnorm(10, 10, 1)

 

 

행렬 생성 

- matrix(수열, ncols= 값, byrow=T/F)

 

- matrix(1, nrow=x, ncol=y)

모든 값이 1인 x y 행렬 생성

 

 

서브 행렬 추출

- x가 행렬인 경우

- x[, c(1:3)] : 1 ~ 3열까지 모든 행데이터 추출

 

전치행렬

- t(행렬)

 

전치 행렬과 행렬의 곱

- %*%

 

 

함수 작성

square = function(x) {x *x}

sqaure(4)

 

 

 

패키지 설치 및 로드

 

 

 

 

산점도와 상관계수 예시

-  학생 10명의 수학, 물리 점수 사이 상관관계 보기

- 산점도 그리고, 상관계수 보자

 

 

- 상관계수는 0.9921232로 수학과 물리 점수사이 강한 선형적 상관관계가 있음을 알 수 있음.

 

 

기술 통계량 descriptive statistics 구하기

- 기술통계량 : 통계 데이터를 나타내는 대표적인 통계량들. 평균, 분산, 사분위수, 표준편차, 중앙값 등

 

 

엑셀 데이터 읽기

- library(xlsx)

- read.xlsx("경로", 1)

 * 여기서 1은 sheet 넘버가 1을 의미

 

데이터 일부 출력

- head() : 맨위 데이터 일부 출력

 

기술 통계량 출력

- summary(데이터 프레임) : 변수 그룹별, 평균와4분위수 등 출력

 

 

 

attach(데이터 프레임)

- 데이터 프레임 이름 선언 없이 변수에 접근 가능한 함수

- 이 함수를 사용안하면 데이터프레임$변수명 으로 접근해야함

 

 

그룹별 기술 통계량 출력하기

- tapply(기술통계량 구할 값들,그룹,기술통계량)

 

두 그룹에 대한 기술 통계량을 보고 싶은 경우

- list(그룹 변수1, 그룹 변수2) : 두 그룹에 대한 경우들을 만듬

- table(변수) : 분빈도 보기

 

 

 

 

 

두 빈도 변수, 분할표에 대해서 독립성 검증 하기

-> 카이제곱 통계량을 구함.

1. 두 변수에 대한 분할표 작성

2. summary(분할표) 호출

=>  카이제곱 통계량, 자유도, pval(유의 확률, 한계유의기준)을 알수 있음.

 

 

 

 

성별과 교육 수준에 따른 월 수입 분석

1. 데이터 읽고, 도수 분포표 만들기

 

2. 교육 별 도수분포표 막대 그림

 

3. 나이와 월수입에 대한 산점도 그리기

 

4. 남녀 구별 : 나이와 월 수입에 대한 산점도 그리기

 

 

 

독립변수가 4개인 데이터 회귀 분석

1. 데이터 로드, 회귀 모형 적합

- lsfit(x, y) 함수 

 

 

 

2. 잔차와 예측치에 대한 산점도 그리기

 

300x250

+ Recent posts