[인공지능및기계학습]01.동기부여 및 기초

2021. 1. 7. 21:59

728x90

이전 부터 인공 지능에 대해 무크 사이트에서 공개 강의로 올라와 있는건 알고 있었지만

그 동안 볼때마다 확률, 통계, 공업 수학 등 이론적 배경이 부족하다 보니 이해하는데 어려움이 많았었다.

그래서 전에는 포기하고 제대로 보지 않았는데

오늘 네이버 메일로 이 강의가 다시 와있더라

kaist.edwith.org/machinelearning1_17/lecture/40603/

그 동안 배경 이론들을 많이 연습했으니 이제 볼수 있을것 같아 한번 보았다.

머신 러닝 기법 응용사례로

스팸 메일 여부, 주가 예측, 헬기 제어 등을 보여주더라

머신러닝 분야

지도 학습 : 인스턴스 별 결과, 라벨을 아는 경우 머신 러닝
비 지도 학습 : 인스턴스 별 결과, 라벨이 주어지지 않는 경우의 머신 러닝
강화 학습 : 목표가 있으나 어떻게 목표에 도달하는지에 대한 정보가 없는 경우의 머신러닝

지도 학습 supervised learning

실제 결과를 알고 있는 문제를 학습하는 경우
예시
- 스팸 필터링
- 자동 물품 카테고리 분류
분류 classification와 회귀 regrssion
- 참 거짓 맞추기 Hit or Miss : 양성, 음성 분류하기
- 점수 매기기 Ranking : A+, B, C, F중 무엇을 받았을까?
- 값 예측 value prediction : 물품의 가격 예측하기

비지도 학습 unsupervised learning

결과를 주어지지 않고, 주어진 데이터만으로 학습하는 문제
비지도 학습 예시
- 군집 찾기 cluster
- 숨겨진 인자(요소) latent factor 찾기
- 그래프 구조 찾기
클러스터, 필터링,
- 텍스트 데이터로부터 주제 단어 찾기
- 얼굴 데이터로부터 latent 중심 이미지 찾기
- 궤적 뎅이터에서 노이즈 필터링 하기

압정 문제 Thumbtack Question

압정을 던졌을 때 기울어져 있을까? 뒤집혀 있을까?
동전은 앞뒷면이 동일하니 50:50이지만 압정은 다른 결과가 나올것임
5번 던졌을때, 3번은 뒤집혀 있었고(핀이 위), 2번은 기울어 져있었(머리가 위)다고 하자.
=> 시행 결과 핀이 위일 확률은 3/5, 머리가 위일 확률을 2/5

이항 분포

이산 확률 분포중 하나로 상호 배반 사건만 존재하는 시행들(베르누이 시행)으로 나타나는 확률 분포
압정 던지기는 iid 라는 가정을 함. 독립적(independent)이고, 동일한(identically distributied) 확률 분포를 가짐.
데이터 D = H, H, T, H, T로 주어질때,
- n = 5
- k = a_H - 3
- p = theta(H가 나올 확률)
P(D | theta) = theta^(a_H) (1 - theta)^(a_T) : theta 가 주어졌을때, D가 관측될 확률
이항 분포의 PMF : f(k; n, p) = P(K = k)=

최대 가능도 추정 Maximum Likelihood Estimation

P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
우리의 가정 : 압정 던지기 결과는 theta 확률의 이항 분포를 따른다.
어떻게 theta를 설정할때 가장 이 데이터를 가장 잘 설명을 할수 있을까?
- 관측 결과를 가장 잘 나타내는 분포를 찾아야 한다.
- 최적의 theta를 구하여야 한다. 어떻게 theta를 구할까?
최대 가능도 추정 : 관측된 데이터들의 확률을 최대화 하는 theta를 찾는 방법
- hat{theta} = argmax_{theta} P(D|theta)
- 위 압정 시행을 통해 추정한 hat{theta} = a_H/(a_t + a_H)

시행 횟수와 에러 구간

추가적인 시행은 추정 오차를 줄여주게 된다.
추정 모수 hat{theta}, 진짜 모수 theta^*라고 할때
Hoeffding의 부등식에 따르면 다음의 확률 상한을 얻을 수 있음.
- 시행 횟수가 늘어날수록 실제 오차와 추정 오차 간격이 줄어듦.
- P(|hat{theta} - theta^*| >= e) <= 2 e^{2Ne^2}
이것은 PAC(Probably Approximate Correct) learning
- 추정량 hat{theta}는 위 확률 범위와 오차 범위 내에서 올바름

베이즈와 사전 확률

사전 정보를 파라미터 추정 과정에 반영 할수 있음(사전 확률)
사전 정보를 가미한 추정량을 구하자
P(theta | D)Posterior = P(D|theta)Likelihood x P(theta)Prior/ P(D)Normalizing Constant
- 이전에 P(D|theta)는 정의하였음.
- P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
50:50이 사전 확률 P(theta)로 사용 될 수 있음.
사전 확률과 데이터를 반영한 P(theta | D)를 구해보자

베이즈 관점에서 살펴보기

P(theta | D) 비례 P(D | theta) P(theta)
- P(D | theta) = theta^(a_H) (1 - theta)^(a_T)
- P(theta) = ????
- 가능도 P(D | theta)가 이항분포를 이용하여 구한것 처럼 P(theta)도 확률 분포를 이용하여 구할 수 있다!!
베타 분포로 사전 확률을 사용하자.
- 베타 분포의 확률 밀도 함수 P(theta) (이항 분포에서 앞면, 뒷면 횟수로 가능도를 구한것 처럼, alpha와 beta가 필요)

사후확률 P(theta | D)를 정리하면..
P(theta | D) 비례 P(D | theta) P(theta) 비례 theta^(a_H) (1 - theta)^(a_T) theta^{alpha -1} (1 - theta)^{beta -1} = theta^{a_h + alpha - 1} (1 - theta)^{a_t + beta - 1}

베타 분포로 사전 확률을 사용하자.

사후확률 최대화 MAP Maximum A Posterior

MLE에서는 가능도 P(D | theta)를 최대화 하는 추정량 theta를 구하였었다.
- hat{theta} = argmax_{theta} P(D | theta)
- hat{theta} = a_h/(a_h + a_t)
MAP는 가능도가 아닌 사후확률을 최대화 하는 추정량 theta를 구하는 방법
- P(theta | D) 비례 thet^{a_h + alpha - 1} (1 - theta)^{a_t + beta - 1}
- hat{theta} = (a_H + alpha - 1) / (a_h + alpha + a_t + beta - 2)
MLE에는 사전 확률을 반영할수 없으나 MAP는 사전확률을 반영할수 있게 된다!!

300x250

저작자표시

'인공지능' 카테고리의 다른 글

[인공지능및기계학습]02.3 결정 트리 개요 (0)	2021.01.13
[인공지능및기계학습]02.머신러닝의 기반들 (0)	2021.01.08
컴퓨터 비전 & 패턴 인식 - 32. 아웃라이어에 대처하는 기하 변환 방법 (0)	2020.12.16
컴퓨터 비전 & 패턴 인식 - 31. 기하 변환과 최소 제곱법 (0)	2020.12.16
컴퓨터 비전 & 패턴 인식 - 30. kd트리 기반 최근접 이웃 탐색 (0)	2020.12.16

집밖은 위험해