-
cs231 3~4강? Second-Order Optimization카테고리 없음 2022. 1. 11. 13:01
https://www.youtube.com/watch?v=_JB0AO7QxSA&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk&index=7 cost function J(theta)
두번째 항이 왜 저렇게 생겼냐면
세타_0 가 초기항이고 저걸 빼줘야 한다!
그리고 왜 transpose 냐면 뒤에 n*1 행렬인 gradient(theta에 대한) 이 있으므로 1*n 사이즈로 만들어줘야해서 그렇다!
그렇게 되면 스칼라값이 나오게 된다 그런데, 뒤에 J(theta) 가 있으므로, J(theta) + 스칼라값 * J(theta) 가 나오는 것이다!
뒤에 1/2 그다음 H 함수는 그라디언트는 1차 미분인데 비해,
헤시안 행렬은 다음과 같다 2차 미분 식이다. 그레디언트는 1차미분이라 n*1 행렬인데 헤시안은 2차미분이라
1*n 사이즈의 행렬을 곱해도 된다! 그러면 1*m 행렬이 나오게 될 텐데 , 왜 1/2 이 붙었냐하면 테일러시리즈를 보면된다.
f 라는 함수에서 x값이 a 일 때 그 점을 굉장히 확대시켜서 그 a 에 해당하는 y 값을
직선 + 곡선 + 더 구불한 곡선 + 더더구불한 곡선 + .... 로 만들 수 있는데 다음과 같은 식이 되는 것이다!!!
2차항까지를 미분했으므로
1/2 이 붙는다
비선형 결과가 나와서 각 노드는 독립 랜덤 변수와 비슷하다 . 그렇다면 각 랜덤 변수의 합 의 확률 밀도 함수는 각 랜덤변수의 확률 밀도 함수를 conv 한 것과 같다!
시그모이드 함수의 예시를 들자면
e^ (wx+b) * e^(w_2*x_2+b_2) ..... 어차피 마지막 layer 는 스칼라값이라 곱하기와 같다
시그모이드 함수를 다시 보면 이것은 정확히 맞는 설명은 아니다.
한 노드에서 비선형함수인 시그모이드를 쓰기 때문에 e의 지수부분이 + 로 합쳐지는 것이다.
W1,1 이 0.1, W1,2 이 0.5 W 2,1 이 -0.3
0.1 * 0.2 + 0.5 * 0.4 = q_ (1,1) element
-0.3 * 0.2 + 0.8 * 0.4 = 0.26 = q(2,1) element
|| ||^2 는 NORM 이라서 q 자승 곱해준것을 더한다
tanh 쓰는이유
미분시 비선형적인 그라디언트가 나와서 (그라디언트 소실 문제 해결!)
학생들에게 질문한 내용의 의미
학생들에게 질문한 내용의 의미
편향을 정규화하면 과소 fitting 이 될 수 있다
뒤의 n* lambda * w / n 이 정규화 항이다
2진 교차 엔트로피
교차 엔트로피 손실 함수
ln a + ln b = e^(a+b)
e^(a^yj + (1-a)^(1-y)) = e^(a^yj) * e^(1-a^(1-y))
L2 비정규화
L2 정규화된 식
역전파 알고리즘을 사용하여 위의 방정식에서 언급된 ∂C0/∂w 및 ∂C0/∂b 항을 계산할 수 있습니다.
편향 매개변수의 부분 유도는 정규화 항이 적용되지 않으므로 변경되지 않으며 가중치 매개변수는 추가 ((λ/n)*w) 정규화 항을 포함합니다.따라서 편향 및 가중치에 대한 학습 규칙은 다음과 같습니다.
엔트로피는 이진 심벌 X 의 발생확률이 P(X =1 ) = p , P(X=0) = 1-p =q 라고 할 때