* ๋ฅ๋ฌ๋ session์ Sung Kim๋์ ๊ฐ์ (์ ํ๋ธ)๋ฅผ ์์ฝ/์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค.
** Sung Kim๋์ ๊ฐ์์ ์๋ฃ๋ ์๋์ ์๋ฃ๋ฅผ ์ฐธ๊ณ ํ๊ณ ์์ต๋๋ค.
- Andrew Ng's ML class
- Convolutional Neural Networks for Visual Recognition
- Tensorflow
- Srivastava, Nitish, et al. โDropout: a simple way to prevent neural networks from overfittingโ
CONTENTS
- ReLU(Rectified Linear Unit, ReLU)
- Vanishing gradient(๊ธฐ์ธ๊ธฐ ์์ค)
- dropout
- ensemble
10-1. ReLU: Better non-linearity
Vanishing gradient(๊ธฐ์ธ๊ธฐ ์์ค) ๋ฌธ์
- neural network์์ layer๋ฅผ ์ฌ๋ฌ ๊ฐ ์์ผ๋ฉด ํ์ต์ด ์ ๋์ง ์๋ ๋ฌธ์ ๊ฐ ์๊ธด๋ค. Sigmoid ํจ์๋ฅผ ๋ฃ์์ ๋ ์์ค ํจ์์ ๊ทธ๋๋์ธํธ๋ ์ฌ๋ผ์ง๊ฒ ๋๋ค. ์ด๋ ์๊ทธ๋ชจ์ด๋ ํจ์ซ๊ฐ์ด 0~1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๊ธฐ ๋๋ฌธ์ chain rule๋ก ๊ณ์ฐํ ๋ 0.1 * 0.001 * 0.01 * โฆ ์ด ๋๋ค๋ฉด ๊ฐ์ด 0์ ๊ฐ๊น๊ฒ ๋๋ค.

Vanishing gradient ํด๊ฒฐ ๋ฐฉ๋ฒ
- ํ์ฑํ ํจ์๋ก Sigmoid(์๊ทธ๋ชจ์ด๋) ํจ์ ๋ง๊ณ ReLUํจ์๋ฅผ ์ ์ฉํ๋ค. Neural Network์์ ReLU๋ฅผ ์ ์ฉํ๊ฒ ๋๋ฉด sigmoid ํจ์๋ณด๋ค cost function์์ ์ ํ์ตํด๋๊ฐ๋ค. ReLU์ ๋ฌธ์ ์ ์ ๋ณด์ํ Leaky ReLU๋ ์๊ณ , ๋ค์ํ ํ์ฑ ํจ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ํ์ฑ ํจ์๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์์๋ณด๋ ๊ฒ๋ ์ข์ ๊ฒ ๊ฐ๋ค.


10-2. Initialize weights
Initialize weights(weight์ ์ด๊ธฐ๊ฐ ์ค์ ํ๊ธฐ)
- vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ReLU๋ฅผ ์ ์ฉํ๊ฑฐ๋ ์ด๊ธฐ๊ฐ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ค์ ํ๋ ๋ฐฉ๋ฒ์ด ์๋ค.
- ์ด๊ธฐ ๊ฐ์ 0์ผ๋ก ๋๋ฉด ์๋๊ธฐ ๋๋ฌธ์(chain rule ์ ์ฉ ์ ๊ฐ์ด 0์ด ๋์ค๊ธฐ ๋๋ฌธ์) ์ด๊ธฐ๊ฐ์ wiseํ๊ฒ ์ค์ ํ๋ ๊ฒ์ด ์ข๋ค.
์ด๊ธฐ๊ฐ ์ค์ ํ๋ ๋ฐฉ๋ฒ(Restricted Boatman Machine, RBM)
RBM ๋ฐฉ๋ฒ?
- forward์ backward๋ก ์งํ๋ ๋ x์ x_bar์ ๊ฐ์ ๋น๊ตํ์ฌ ์ฐจ๊ฐ ์ต์๊ฐ ๋๋๋ก weight์ ์กฐ์ ํ๋ ๊ฒ
RBM์ผ๋ก ์ด๊ธฐ๊ฐ ์ค์ ํ๋ ๋ฐฉ๋ฒ
(์์) layer 3๊ฐ
1. layer1๊ณผ layer2์์ forward, backward ์งํ
2. ์ฒ์ ๊ฐ์ด ๋ง์ง๋ง์ ๊ณ์ฐํ ๊ฐ๊ณผ ์ ์ฌํ๊ฒ ๋์ค๋ weight ํ์ต
3. ๋ค์ layer 2์ layer3์ ๋๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ค์ weight ํ์ต
10-3. NN dropout and model ensemble
Dropout(๋๋กญ์์)

dropout ๋ชฉ์
๋ค์ธต ์ ๊ฒฝ๋ง ๋ชจ๋ธ์์ overfitting(๊ณผ์ ํฉ)์ ๋ฌธ์ ๊ฐ ์๊ธด๋ค. ์ค๋ฒํผํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก training data๋ฅผ ๋๋ฆฌ๊ฑฐ๋ ๊ท์ (L1, L2)๊ฐ ์์ง๋ง neural network์์๋ ๋๋กญ์์์ด ์๋ค.
dropout ๋ฐฉ์
(a)์์๋ ๋ชจ๋ ๋ ธ๋๊ฐ ์ฐ๊ฒฐ๋์ด์๋ fully connected์ง๋ง, dropout์ (b)์ฒ๋ผ ๋ชจ๋ ๋ ธ๋๋ฅผ ์ฐ๊ฒฐํ์ง ์๊ณ ๋๋คํ๊ฒ ๋ช ๊ฐ์ ๋ ธ๋๋ง ์ฐ๊ฒฐํด์ ์งํํ๋ ๋ฐฉ์์ด๋ค.
* dropout์ ๋ฐ์ดํฐ ํ์ต ์์๋ง ์ฌ์ฉํ๊ณ ํ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์งํํ ๋๋ ์ฌ์ฉํ์ง ์๋๋ค.
Ensemble(์์๋ธ)
ensemble ๋ชฉ์
ensemble์ ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ๋ก ์ด๋ฃจ์ด์ง ํ์ต ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ ์ผ๋ฐํ๊ฐ ์ ๋๊ณ , ์ฑ๋ฅ์ ๋ถ์ฐ์ํค๊ธฐ ๋๋ฌธ์ overfitting ๋ฌธ์ ๋ฅผ ์ํํ ์ ์๋ค.
ensemble ๋ฐฉ์
1. ๋ฐ์ดํฐ๋ฅผ ๋ณต์ ์ถ์ถ ๋ฐฉ์์ผ๋ก N์ ๋ฐ์ดํฐ ์ ์ ๋ง๋ ๋ค.
2. N์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
3. ํ์ตํ ๊ฒฐ๊ณผ๋ฅผ ํฉ์น๋ค.