728x90

Gradient Descent For Neural Networks (C1W3L09)

- 경사 하강을 동작시키는데 필요한 식에 대해서 알아보자.

 

신경망에서의 경사 하강법

- 파라미터로 각 층의 가중치 행렬과 편향이 있다. w1, b1, w2, b2

- 입력 n0, 은닉층 n1, 출력 n2(하나의 출력값)

- 비용함수 (이진 분류를 하는 경우로 고려) : J(w1, b1, w2, b2) = 1/m L(예측치, 실제치)

 * 손실함수는 하나의 샘플에 대한 예측과 실제치의 차이 평가

- 경사 하강하기

  1. 예측치 계산

  2. 그라디언트 계산

    dw1 = dJ/dw1,    db1 = dJ/db1,  . . . .

  3. 학습 파라미터 갱신 

    w1 = w1 - alpha * dw1 . . .

  4. 반복

 

미분계수 계산 공식

- 우선 순전파 계산 공식

  A1 = g1(z1) = g1(w1x1 + b1)

  A2 = g2(w2A1 + b2)

- 미분 계수 계산, 역전파 단계

  아래의 그림 참조

 

 

 

300x250

+ Recent posts