본문 바로가기

미분3

5-2. 오차역전파법 5.5. 활성화 함수 계층 구현하기 계산 그래프를 신경망에 적용하기 위해 신경망 계층을 클래스 하나로 구현한다. 우선 활성화 함수인 ReLU와 Sigmoid 계층을 구현한다. 5.5.1. ReLU 계층 활성화 함수로 사용되는 ReLU 수식은 아래와 같다. x에 대한 y의 미분은 다음처럼 구한다. 순전파 때의 입력인 x가 0보다 크면 역전파는 상류의 값을 그대로 하류로 흘린다. 순전파 때 x가 0 이하면 역전파 때는 하류로 신호를 보내지 않는다(0을 보낸다). 계산 그래프로는 아래처럼 그린다. ReLU 계층을 구현할 건데, 신경망 계층의 forward()와 backward() 함수는 넘파이 배열을 인수로 받는다고 가정한다. ReLU 계층을 구현한 코드는 common/layers.py에 있다. (깃허브htt.. 2020. 4. 9.
5-1. 오차역전파법 4장에서 신경망의 가중치 매개변수의 기울기(정확히는 가중치 매개변수에 대한 손실 함수의 기울기)는 수치 미분을 사용해 구했다. 수치 미분은 단순하고 구현하기 쉽지만 계산 시간이 오래 걸린다. 가중치 매개변수의 기울기를 효율적으로 계산하는 오차역전파법(backpropagation)을 알아보겠다. 오차역전파법을 이해하기 위해서는 수식이나 계산 그래프를 이용한다. 수식을 사용하면 정확하고 간결하게 이해할 수 있지만 시각적으로 이해하기 위해 계산 그래프를 사용한다. 5.1. 계산 그래프 계산 그래프(computational graph)는 계산 과정을 그래프로 나타낸 것이다. 여기서 그래프는 그래프 자료구조로, 복수의 노드(node)와 에지(edge)로 표현된다(노드 사이의 직선을 에지라고 한다). 5.1.1. .. 2020. 3. 31.
4-1. 신경망 학습 4. 신경망 학습 학습이란 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것을 뜻한다. 4장에서는 신경망이 학습할 수 있도록 해주는 지표인 손실 함수를 다뤄본다. 손실 함수의 결괏값을 가장 작게 만드는 가중치 매개변수를 찾는 것이 학습의 목표다. 이번 장에서는 손실 함수의 값을 가급적 작게 만드는 기법으로 함수의 기울기를 활용하는 경사법을 살펴본다. 4.1. 데이터에서 학습한다. 신경망의 특징은 데이터를 보고 학습할 수 있다는 점이다. 데이터에서 학습한다는 것은 가중치 매개변수의 값을 데이터를 보고 자동으로 결정한다는 뜻이다. 실제 신경망에서 매개변수를 수작업으로 정한다는 것은 불가능하다. 신경망 학습에 대해 살펴보고 파이썬으로 MNIST 데이터셋의 손글씨 숫자를 학습하는 코드를 구현해본.. 2020. 3. 16.