[딥러닝 기초] 머신러닝 기초④(ReLU, Vanishing gradient, dropout, ensemble)

* 딥러닝 session은 Sung Kim님의 강의 (유튜브)를 요약/정리한 내용입니다.

** Sung Kim님의 강의와 자료는 아래의 자료를 참고하고 있습니다.

- Andrew Ng's ML class

- Convolutional Neural Networks for Visual Recognition

- Tensorflow

- Srivastava, Nitish, et al. ”Dropout: a simple way to prevent neural networks from overfitting”

ReLU(Rectified Linear Unit, ReLU)
Vanishing gradient(기울기 소실)
dropout
ensemble

10-1. ReLU: Better non-linearity

Vanishing gradient(기울기 소실) 문제

- neural network에서 layer를 여러 개 쌓으면 학습이 잘 되지 않는 문제가 생긴다. Sigmoid 함수를 넣었을 때 손실 함수의 그래디언트는 사라지게 된다. 이는 시그모이드 함숫값이 0~1 사이의 값을 갖기 때문에 chain rule로 계산할 때 0.1 * 0.001 * 0.01 * … 이 된다면 값이 0에 가깝게 된다.

Vanishing gradient 해결 방법

- 활성화 함수로 Sigmoid(시그모이드) 함수 말고 ReLU함수를 적용한다. Neural Network에서 ReLU를 적용하게 되면 sigmoid 함수보다 cost function에서 잘 학습해나간다. ReLU의 문제점을 보완한 Leaky ReLU도 있고, 다양한 활성 함수가 있기 때문에 활성 함수를 구체적으로 알아보는 것도 좋을 것 같다.

10-2. Initialize weights

Initialize weights(weight의 초기값 설정하기)

- vanishing gradient 문제를 해결하기 위해서는 ReLU를 적용하거나 초기값을 올바르게 설정하는 방법이 있다.

- 초기 값은 0으로 두면 안되기 때문에(chain rule 적용 시 값이 0이 나오기 때문에) 초기값을 wise하게 설정하는 것이 좋다.

초기값 설정하는 방법(Restricted Boatman Machine, RBM)

RBM 방법?

- forward와 backward로 진행될 때 x와 x_bar의 값을 비교하여 차가 최소가 되도록 weight을 조정하는 것

RBM으로 초기값 설정하는 방법

(예시) layer 3개

1. layer1과 layer2에서 forward, backward 진행

2. 처음 값이 마지막에 계산한 값과 유사하게 나오는 weight 학습

3. 다음 layer 2와 layer3을 똑같은 방법으로 다음 weight 학습

10-3. NN dropout and model ensemble

Dropout(드롭아웃)

dropout 목적

다층 신경망 모델에서 overfitting(과적합)의 문제가 생긴다. 오버피팅 문제를 해결하기 위한 방법으로 training data를 늘리거나 규제(L1, L2)가 있지만 neural network에서는 드롭아웃이 있다.

dropout 방식

(a)에서는 모든 노드가 연결되어있는 fully connected지만, dropout은 (b)처럼 모든 노드를 연결하지 않고 랜덤하게 몇 개의 노드만 연결해서 진행하는 방식이다.

* dropout은 데이터 학습 시에만 사용하고 평가 데이터를 진행할 때는 사용하지 않는다.

Ensemble(앙상블)

ensemble 목적

ensemble은 여러 개의 모델로 이루어진 학습 방법이기 때문에 일반화가 잘 되고, 성능을 분산시키기 때문에 overfitting 문제를 완화할 수 있다.

ensemble 방식

1. 데이터를 복원 추출 방식으로 N의 데이터 셋을 만든다.

2. N의 데이터셋으로 여러 개의 모델을 학습시킨다.

3. 학습한 결과를 합친다.

'A PIECE OF DATA > 🍕 딥러닝' 카테고리의 다른 글

[딥러닝 기초] 머신러닝 기초③(Neural Nets for XOR) (0)	2021.09.03
[딥러닝 기초] 머신러닝 기초②(logistic regression, Multinomial classification, learning rate (0)	2021.08.27
[딥러닝 기초] 머신러닝 기초①(linear regression, Cost function, Multivariable linear regression) (0)	2021.08.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

A PIECE OF MEMORY

[딥러닝 기초] 머신러닝 기초④(ReLU, Vanishing gradient, dropout, ensemble)

CONTENTS