[Coursera1] Neural-Networks-Deep-Learning : Neural Network - Representation, Vectorization, Activation Function, Gradient Descent, Initialization

๋ก์ง์คํฑ์์์ ๊ฐ์ค์น ์์ ๋ด๋ด ๋คํธ์ํฌ์ ๊ฐ์ค์น ์์ค์ ๊ฐ์ฅ ์ฌ์ด ์์ด๋ค.
(๊ทธ๋์ NN์ค๋ช
์ ์ ๋ก์ง์คํฑ ์ค๋ช
ํ ๊ฑฐ์)
๊ฐ์ค์น ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๋น์ทํ๋ฐ
1) input ๊ฐ์
2) activation Function ํจ์
3) ์ฐจ์
๋ฑ์ ๋ฐ๋ผ ๊ฐ์ค์น ๊ทธ๋ํ ๋ชจ์์ด ๋ฌ๋ผ์ง๋ค.
1 layer NN ์ backwardํ๊ณ ,
1 hidden layer(=2 layer NN)NN ๋ ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก backwardํด๋ณด์
>> ๋์ค์๋ N Layer (Deep Layer)์ ๋ํด Backwardํ ๊ฒ์ด๋ค.


Neural Network ์ ํ๋์ ๋ ธ๋๋ค์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋์ด ์๋ค.
๋๊ธฐ๊ฐ ๋งํ ๊ฒ์ฒ๋ผ ์ด๋ฒ ์์ ์์ z๋ ๋ค์๊ณผ ๊ฐ๋ค.

์์ผ๋ก ์์ ์์ ์ฌ์ฉํ ํ๊ธฐ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.

๋ ์ด์ด ๋ด์ ๋ ธ๋๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ ์์ง์ผ๋ก ์๋๋ค.
์ด๋ฅผ ๋์ผ๋ก ํ์ธํด๋ณด์




activation function ์ sigmoid ๋ง๊ณ ๋ค๋ฅธ ๊ฒ๋ค์ด ์๋๊ฐ?
: yes!



hidden layer์์ activatin Function์ผ๋ก tanh๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข๋ค.
-1์ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก activation ํ๊ท ์ 0์ ๊ฐ๊น๊ธฐ์ ๋ค์ layer ํ์ต์ ํจ๊ณผ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
! ํน์ ๊ฒฝ์ฐ) Output layer์ ๊ฒฐ๊ณผ๊ฐ์ด 0๋๋1์ด ๋์ค๋ ์ด์ง๋ถ๋ฅ ๋ฌธ์ ์ด๋ฉด, 0<=yhat<=1์ด ํจ๊ณผ์ ์ด๋ค.
์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์กฐ์ฐจ๋ output Layer์๋ง sigmoid๋ฅผ ์ฌ์ฉํ์.
(์ฃผ์) Sigmoid, tanh ๋ชจ๋ Z๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ์์ผ๋ฉด, Activation Function์ ๋ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ๋งค์ฐ ์์์ง๋ค.
์ด๋ฐ ๊ฒฝ์ฐ์, w์ b๊ฐ ์ ๋ฐ์ดํธ ๋๋ ์๋(=ํ์ต ์๋)๊ฐ ๋งค์ฐ ๋๋ ค์ง๋ค.
Relu ํจ์์ ๊ฒฝ์ฐ z๊ฐ 0์ผ ๋, ๋ํจ์๋ ์ ์๋์ง ์์ง๋ง, z๊ฐ 0์ด ๋ ํ๋ฅ ์ ๋ฎ๋ค (๋๋ถ๋ถ์ hidden layer์์ z๋ ์์)
Relu์ Leaky Reluํจ์๋ Sigmoid, tanh์ ๋ค๋ฅด๊ฒ,
ํด๋น ํจ์์ ๋ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ๋ง์ Z์ ๋ํด 0์ด ์๋๋ค. (ํ์ต์ด ๋๋ ค์ง ํ๋ฅ ์ ์!)


Neural Network์์๋ 0์ด ์๋ ๊ฐ์ผ๋ก Random ํ๊ฒ initializationํด์ผ ํ๋ค.
np.random.randn((2,2)) * 0.01

