728x90

Gradient Descent (C1W2L04)

경사 하강

- 손실 함수 : 단일 훈련셋이 잘 예측되었는지, 비용 함수 : 전체 셋이 잘 예측되었는지   (매개변수 w, b 를 잘 학습하여)

- J(w, b)를 최소화 하는 w, b를 찾아야 함.

 * w는 보통 더 큰 차원을 가지나 이 예시에서 w, b를 하나의 실수로 봄.

 * 여기서 함수 J(w, b)는 컨벡스 함수로 비용 함수로 사용할 수 있음.

- 경사 하강법을 통해서  초기화 지점으로부터  전역적 최저점까지

 

경사 하강

- w에 대한 차원으로 보자

- w := w - alpha * d J(w)/ dw

- alpha : 학습률

- dw = d J(w) / dw,  미분 계수, 비용 함수 값에 대한 w의 기울기

 => w := w - alpha dw

- 미분 계수는 w의 위치에 따라 양수나 음수가 되어 w를 증가시키거나 감소시켜 전역적 최적점에 도달함.

- d는 일변수 함수에 대한 미분시 사용. 

- 코드 구현시 관습적으로 미분계수를 dw, db와 같이 표기

 

 

 

 

300x250

+ Recent posts