* ๋ฅ๋ฌ๋ session์ Sung Kim๋์ ๊ฐ์ (์ ํ๋ธ)๋ฅผ ์์ฝ/์ ๋ฆฌํ ๋ด์ฉ์
๋๋ค.
** Sung Kim๋์ ๊ฐ์์ ์๋ฃ๋ ์๋์ ์๋ฃ๋ฅผ ์ฐธ๊ณ ํ๊ณ ์์ต๋๋ค.
- Andrew Ng's ML class
- Convolutional Neural Networks for Visual Recognition
- Tensorflow
CONTENTS
- Logistic(regression) classification
- Logistic(regression) classification cost function & gradient decent
- Softmax classification: Multinomial classification
- Learning rate, data preprocessing, overfitting
05-1. Logistic (regression) classification
RECAP
๊ฐ์ค ์ธ์ฐ๊ธฐ
: W(weight) X(variable)

Cost๊ฐ ๊ตฌํ๊ธฐ
: ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฐจ์ด ๊ตฌํ๊ธฐ

Gradient descent ์ ์ฉํ๊ธฐ
: cost๊ฐ์ ์ต์ํํ ์ ์๋ ๊ธฐ์ธ๊ธฐ ์ฐพ๊ธฐ

Binary Classification(์ด์ง ๋ถ๋ฅ)
: ์ด์ง ๋ถ๋ฅ๋ y๊ฐ์ด ๋ ๊ฐ์ง ๊ฐ์ผ๋ก๋ง ๊ฐ๋ ๊ฒ์ผ๋ก ๊ฐ์ 0, 1๋ก encoding ํ ์ ์๋ ๊ฒ์ ๋งํ๋ค. ์์๋ Yes/No, Pass/Non-Pass ๋ฑ์ด ์๋ค. ์ผ๋ฐ Linear regression์ ์ซ์์ ๋ฒ์๊ฐ ๋๊ธฐ ๋๋ฌธ์ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅํ๊ธฐ ์ํด์๋ ํจ์์ ๋ฒ์๋ฅผ 0~1๋ก ์งํํ๋ ๊ฒ์ด ํ์ํ๋ค. ๊ฐ์ด 0,1๋ก ๋๋๋ ๊ฒฝ์ฐ, y๊ฐ์ด 0~1์ ๊ฐ์ ๊ฐ๋๋ก ํ๊ธฐ ์ํด์ sigmoid function์ ์ ์ฉํ๋ค.

Sigmoid Function(์๊ทธ๋ชจ์ด๋ ํจ์)
: ํจ์ซ๊ฐ์ ๋ฒ์๊ฐ 0~1์ ๊ฐ์ ๊ฐ๋๋ก ํ๋ ํจ์์ด๋ค. y๊ฐ์ด ๋์ค๋ฉด 0.5 ๋ฏธ๋ง์ 0์ผ๋ก 0.5 ์ด์์ด๋ฉด 1๋ก ์๊ฐํ๋ค.


05-2. Logistic (regression) classification: cost function & gradient descent
๋ก์ง์คํฑ ํ๊ท ๋ถ์(๋ถ๋ฅ)์์์ COST ๋ฌธ์
: ์ ํ ํ๊ท์์๋ cost๊ฐ 2์ฐจ ํจ์๋ก ์ต์๊ฐ์ ์ฐพ๊ธฐ ์ฝ๊ฒ ๋์ด์๋ค. ํ์ง๋ง sigmoid ํจ์๋ฅผ ์ด ๋ก์ง์คํฑ ํ๊ท ๋ถ์์ ๊ตฌ๋ถ๊ตฌ๋ถํ ๊ทธ๋ํ๊ฐ ๋์ค๊ฒ ๋๋ค. ์ด๋, gradient decent๋ฅผ ์ ์ฉํ์ ๋ ์ค์ ์ ๋ฐ๋ผ ์ต์๊ฐ์ด ์๋ local minimum์ ์ฐพ์๋ผ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๋ก์ง์คํฑ ํ๊ท ๋ถ์(๋ถ๋ฅ)์์์ Cost Fuction

: e์ ์๋ฐ๋ ํจ์ log๋ฅผ ์ฌ์ฉํ๋ค. y=1์ผ ๋, ๋ง์ฝ์ H(x)๊ฐ 1๋ก ์์ธกํ๋ค๋ฉด cost function์ 0์ผ๋ก ์ต์๊ฐ ๋๋ค. y=1์ผ ๋, cost function์ ๋ฌดํ๋๋ก ๊ฐ๊ธฐ ๋๋ฌธ์ ๋ค์ ํ์ตํ๊ฒ ๋ ๊ฒ์ด๋ค. ์ด์ฒ๋ผ ์ ์ฉํ๋ฉด ๋๊ฐ์ด ์ด์ฐจ ํจ์์ฒ๋ผ ์์ฑ๋๊ณ , gradient descent๋ก ๊ธฐ์กด ๋ฌธ์ ์ ์ ํด๊ฒฐํ์ฌ ์ต์๊ฐ์ ์ฐพ์ ์ ์๋ค.
06-1. Softmax classification: Multinomial classification
Multinomial classification, multinomial logistic regression(๋คํญ ์ ํ ํจ์)
: y๊ฐ์ด 3๊ฐ ์ด์์ ๋ฒ์ฃผ๋ฅผ ๊ฐ์ง ๋ ์ฌ์ฉํ๋ ๋ถ๋ฅ/์์ธก ๋ชจ๋ธ์ด๋ค.
๋คํญ ์ ํ ํจ์ ์
: ์๋ฅผ ๋ค์ด ์๋์ ๊ฐ์ Y๊ฐ์ด A, B, C๊ฐ ์๋ค๋ฉด ๋ถ๋ฅ ๋๋ ์์ธกํ๊ธฐ ์ํด์๋ 3๊ฐ์ ์์ด ํ์ํฉ๋๋ค. ์ด์ฒ๋ผ 3๊ฐ์ ์์ ํ๋์ MATRIX๋ก ๋ํ๋ด๊ฒ ๋๋ฉด ์๋์ ๊ฐ๋ค.


06-2. Softmax classification: softmax and cost function
Multinomial์์ sigmoid๋ ์ธ์ ์ฌ์ฉํ๋?
: multinomial classification/regression์์๋ sigmoid๋ ์ฌ์ฉํ์ง ์๊ณ softmax๋ฅผ ์ฌ์ฉํ๋ค.

Softmax ํจ์์ ํน์ง
: ์์ธกํ y๊ฐ์ 0~1 ์ฌ์ด๋ก ๋ํ๋ด๊ณ , ์์ธกํ ๋ชจ๋ y๊ฐ์ ํฉ์ 1์ด ๋๊ฒ ํ๋ค. one-hot encoding์ ํตํด ๊ทธ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ 1๋ก ๋ง๋ค๊ณ , ๋๋จธ์ง๋ 0์ผ๋ก ๋ณํํ์ฌ ์ ์ ํ y๊ฐ์ ๋ถ๋ฅ/์์ธกํ๋ค.
07-1. Learning rate, data preprocessing, overfitting
learning rate์ด๋?
: gradient descent ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๋ ์ต์๊ฐ์ ์ฐพ๊ธฐ ์ํ step์ ๊ฐ๊ฒฉ์ด๋ค. learning rate์ด ํด ๋๋ ์ต์๊ฐ์ ์ฐพ์ง ๋ชปํ๊ณ ๋ฐ์ด๋์ ์ ์๋ overshooting์ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์๋ค. ๋ฐ๋ฉด learning rate์ด ์์ผ๋ฉด ํ์ต์ด ์ค๋ ๊ฑธ๋ฆฌ๊ฑฐ๋ local minimum์์ ๋ฉ์ถ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ์ ์๋ค. ๊ทธ๋ฌ๋ฏ๋ก learning rate๋ฅผ ์ค์ ํ ๋๋ cost function์ ๊ด์ฐฐํ๋ฉด์ reasonableํ ๊ฐ์ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค.
Preprocessing(์ ์ฒ๋ฆฌ)์ ํ์์ฑ?
: ํจ๊ณผ์ ์ผ๋ก gradient descent ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ๊ธฐ ์ํด ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ํ์ํ๋ค. ์๋ฅผ ๋ค์ด ๋ณ์ x1๊ฐ์ด 0~10์ฌ์ด์ด๊ณ , ๋ณ์ x2๊ฐ์ด -10000์์ 10000์ฌ์ด์ผ ๋ cost function์ ์๊ณก๋ผ์ ๊ทธ๋ ค์ง๊ณ , gradient descent๋ ์กฐ๊ธ๋ง ์๋ชป ์์ง์ฌ๋ ์ต์๊ฐ์ผ๋ก ๊ฐ๋ ๊ธธ์ ๋ฒ์ด๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก normalizing ์ ๊ทํ ๋ฑ์ ํตํด ๋ฐ์ดํฐ๊ฐ ํน์ ๋ฒ์ ์์ ๋ค์ด๊ฐ๋๋ก ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ํ์ํ๋ค.
Overfitting(๊ณผ์ ํฉ)์ด๋?
: ๊ณผ์ ํฉ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ ๊ณผํ๊ฒ ํ์ต๋์๊ธฐ ๋๋ฌธ์ ํ์ต ๋ฐ์ดํฐ๋ ์ ์์ธก/๋ถ๋ฅํ๋ ๋ฐ๋ฉด ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก/๋ถ๋ฅ์ ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค.

Overfitting(๊ณผ์ ํฉ)์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ
- ๋ณ์(feature)์ ์๋ฅผ ์ค์ด๊ธฐ
- ์ผ๋ฐํ(regularization)
Regularization(์ผ๋ฐํ)์ด๋?
W(weight) ๊ฐ์ด ์ปค์ง์๋ก cost function์ ๊ตด์ ์ด ๋ ๊น์ด์ง๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(gradient descent)์ ์ ์ ์ฉํ๊ธฐ ์ํด์๋ ๊ตด๊ณก์ ํผ์น๊ธฐ ์ํด Weight๊ฐ์ ์๊ฒ ํ๋ ๊ฒ์ด ์ผ๋ฐํ์ด๋ค. ์ต์๊ฐ์ ์ฐพ์ ์ ์๋๋ก lambda๋ฅผ ์กฐ์ ํ์ฌ ์ผ๋ฐํ๋ฅผ ์งํํ๋ค.

07-2. Learning and test data sets
๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ ํ๋ ๋ฒ?
: ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์
ํ ๋๋ ์ด๋ฏธ ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ์ฌ์ฉํ์ง ์๋๋ค. ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ train ๋ฐ์ดํฐ์ test ๋ฐ์ดํฐ๋ฅผ ๋๋ ๋๊ณ ์งํํ๋ค. ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ train data, validation data, test data๋ก ์ธ ๊ฐ์ง๋ก ๋๋๋ ๊ฒฝ์ฐ๋ ์๋๋ฐ validation ๋ฐ์ดํฐ๋ gradient descent์์ ์ฌ์ฉํ๋ learning rate ๊ฐ์ด๋ ์ผ๋ฐํ์ ์ฌ์ฉ๋๋ lambda๋ฅผ ํ๋ํ๋๋ฐ ์ฌ์ฉํ๋ค.
Online learning์ด๋?
: ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋ ๋๋ ์ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒฝ์ฐ์ด๋ค. ์๋ฅผ ๋ค์ด 100๋ง ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด 10๋ง ๊ฐ์ฉ ํ์ต์ํค๋ฉด์ ๋ชจ๋ธ์ ๋ง๋ค์ด๊ฐ๋ ๋ฐฉ๋ฒ์ด๋ค. online learning์ ํ๋ ๊ฒฝ์ฐ์๋ ํญ์์ ์๋์ง๋ง ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ ์์ธก/๋ถ๋ฅํ๋ ์ฅ์ ์ด ์๋ค.