728x90

이전 부터 인공 지능에 대해 무크 사이트에서 공개 강의로 올라와 있는건 알고 있었지만

그 동안 볼때마다 확률, 통계, 공업 수학 등 이론적 배경이 부족하다 보니 이해하는데 어려움이 많았었다.

그래서 전에는 포기하고 제대로 보지 않았는데

오늘 네이버 메일로 이 강의가 다시 와있더라

kaist.edwith.org/machinelearning1_17/lecture/40603/

그 동안 배경 이론들을 많이 연습했으니 이제 볼수 있을것 같아 한번 보았다.

머신 러닝 기법 응용사례로

스팸 메일 여부, 주가 예측, 헬기 제어 등을 보여주더라

머신러닝 분야

  • 지도 학습 : 인스턴스 별 결과, 라벨을 아는 경우 머신 러닝
  • 비 지도 학습 : 인스턴스 별 결과, 라벨이 주어지지 않는 경우의 머신 러닝
  • 강화 학습 : 목표가 있으나 어떻게 목표에 도달하는지에 대한 정보가 없는 경우의 머신러닝

지도 학습 supervised learning

  • 실제 결과를 알고 있는 문제를 학습하는 경우
  • 예시
    • 스팸 필터링
    • 자동 물품 카테고리 분류
  • 분류 classification와 회귀 regrssion
    • 참 거짓 맞추기 Hit or Miss : 양성, 음성 분류하기
    • 점수 매기기 Ranking : A+, B, C, F중 무엇을 받았을까?
    • 값 예측 value prediction : 물품의 가격 예측하기

비지도 학습 unsupervised learning

  • 결과를 주어지지 않고, 주어진 데이터만으로 학습하는 문제
  • 비지도 학습 예시
    • 군집 찾기 cluster
    • 숨겨진 인자(요소) latent factor 찾기
    • 그래프 구조 찾기
  • 클러스터, 필터링,
    • 텍스트 데이터로부터 주제 단어 찾기
    • 얼굴 데이터로부터 latent 중심 이미지 찾기
    • 궤적 뎅이터에서 노이즈 필터링 하기

압정 문제 Thumbtack Question

  • 압정을 던졌을 때 기울어져 있을까? 뒤집혀 있을까?
  • 동전은 앞뒷면이 동일하니 50:50이지만 압정은 다른 결과가 나올것임
  • 5번 던졌을때, 3번은 뒤집혀 있었고(핀이 위), 2번은 기울어 져있었(머리가 위)다고 하자.
    => 시행 결과 핀이 위일 확률은 3/5, 머리가 위일 확률을 2/5

이항 분포

  • 이산 확률 분포중 하나로 상호 배반 사건만 존재하는 시행들(베르누이 시행)으로 나타나는 확률 분포
  • 압정 던지기는 iid 라는 가정을 함. 독립적(independent)이고, 동일한(identically distributied) 확률 분포를 가짐.
  • 데이터 D = H, H, T, H, T로 주어질때,
    • n = 5
    • k = a_H - 3
    • p = theta(H가 나올 확률)
  • P(D | theta) = theta^(a_H) (1 - theta)^(a_T) : theta 가 주어졌을때, D가 관측될 확률
  • 이항 분포의 PMF : f(k; n, p) = P(K = k)=

최대 가능도 추정 Maximum Likelihood Estimation

  • P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
  • 우리의 가정 : 압정 던지기 결과는 theta 확률의 이항 분포를 따른다.
  • 어떻게 theta를 설정할때 가장 이 데이터를 가장 잘 설명을 할수 있을까?
    • 관측 결과를 가장 잘 나타내는 분포를 찾아야 한다.
    • 최적의 theta를 구하여야 한다. 어떻게 theta를 구할까?
  • 최대 가능도 추정 : 관측된 데이터들의 확률을 최대화 하는 theta를 찾는 방법
    • hat{theta} = argmax_{theta} P(D|theta)
    • 위 압정 시행을 통해 추정한 hat{theta} = a_H/(a_t + a_H)

시행 횟수와 에러 구간

  • 추가적인 시행은 추정 오차를 줄여주게 된다.
  • 추정 모수 hat{theta}, 진짜 모수 theta^*라고 할때
  • Hoeffding의 부등식에 따르면 다음의 확률 상한을 얻을 수 있음.
    • 시행 횟수가 늘어날수록 실제 오차와 추정 오차 간격이 줄어듦.
    • P(|hat{theta} - theta^*| >= e) <= 2 e^{2Ne^2}
  • 이것은 PAC(Probably Approximate Correct) learning
    • 추정량 hat{theta}는 위 확률 범위와 오차 범위 내에서 올바름

베이즈와 사전 확률

  • 사전 정보를 파라미터 추정 과정에 반영 할수 있음(사전 확률)
  • 사전 정보를 가미한 추정량을 구하자
  • P(theta | D)Posterior = P(D|theta)Likelihood x P(theta)Prior/ P(D)Normalizing Constant
    • 이전에 P(D|theta)는 정의하였음.
    • P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
  • 50:50이 사전 확률 P(theta)로 사용 될 수 있음.
  • 사전 확률과 데이터를 반영한 P(theta | D)를 구해보자

베이즈 관점에서 살펴보기

  • P(theta | D) 비례 P(D | theta) P(theta)
    • P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
    • P(theta) = ????
    • 가능도 P(D | theta)가 이항분포를 이용하여 구한것 처럼 P(theta)도 확률 분포를 이용하여 구할 수 있다!!
  • 베타 분포로 사전 확률을 사용하자.
    • 베타 분포의 확률 밀도 함수 P(theta) (이항 분포에서 앞면, 뒷면 횟수로 가능도를 구한것 처럼, alpha와 beta가 필요)

  • 사후확률 P(theta | D)를 정리하면..
  • P(theta | D) 비례 P(D | theta) P(theta) 비례 theta^(a_H) (1 - theta)^(a_T) theta^{alpha -1} (1 - theta)^{beta -1} = theta^{a_h + alpha - 1} (1 - theta)^{a_t + beta - 1}

베타 분포로 사전 확률을 사용하자.

사후확률 최대화 MAP Maximum A Posterior

  • MLE에서는 가능도 P(D | theta)를 최대화 하는 추정량 theta를 구하였었다.
    • hat{theta} = argmax_{theta} P(D | theta)
    • hat{theta} = a_h/(a_h + a_t)
  • MAP는 가능도가 아닌 사후확률을 최대화 하는 추정량 theta를 구하는 방법
    • P(theta | D) 비례 thet^{a_h + alpha - 1} (1 - theta)^{a_t + beta - 1}
    • hat{theta} = (a_H + alpha - 1) / (a_h + alpha + a_t + beta - 2)
  • MLE에는 사전 확률을 반영할수 없으나 MAP는 사전확률을 반영할수 있게 된다!!
300x250

+ Recent posts