cs231 3~4강? Second-Order Optimization :: 파이토치

ABOUT ME

-

Today: -

Yesterday: -

Total: -

cs231 3~4강? Second-Order Optimization

카테고리 없음 2022. 1. 11. 13:01

https://www.youtube.com/watch?v=_JB0AO7QxSA&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;index=7

cost function J(theta)

두번째 항이 왜 저렇게 생겼냐면

세타_0 가 초기항이고 저걸 빼줘야 한다!

그리고 왜 transpose 냐면 뒤에 n*1 행렬인 gradient(theta에 대한) 이 있으므로 1*n 사이즈로 만들어줘야해서 그렇다!

그렇게 되면 스칼라값이 나오게 된다 그런데, 뒤에 J(theta) 가 있으므로, J(theta) + 스칼라값 * J(theta) 가 나오는 것이다!

뒤에 1/2 그다음 H 함수는 그라디언트는 1차 미분인데 비해,

헤시안 행렬은 다음과 같다 2차 미분 식이다. 그레디언트는 1차미분이라 n*1 행렬인데 헤시안은 2차미분이라

1*n 사이즈의 행렬을 곱해도 된다! 그러면 1*m 행렬이 나오게 될 텐데 , 왜 1/2 이 붙었냐하면 테일러시리즈를 보면된다.

f 라는 함수에서 x값이 a 일 때 그 점을 굉장히 확대시켜서 그 a 에 해당하는 y 값을

직선 + 곡선 + 더 구불한 곡선 + 더더구불한 곡선 + .... 로 만들 수 있는데 다음과 같은 식이 되는 것이다!!!

2차항까지를 미분했으므로

1/2 이 붙는다

비선형 결과가 나와서 각 노드는 독립 랜덤 변수와 비슷하다 . 그렇다면 각 랜덤 변수의 합 의 확률 밀도 함수는 각 랜덤변수의 확률 밀도 함수를 conv 한 것과 같다!

시그모이드 함수의 예시를 들자면

e^ (wx+b) * e^(w_2*x_2+b_2) ..... 어차피 마지막 layer 는 스칼라값이라 곱하기와 같다

시그모이드 함수를 다시 보면 이것은 정확히 맞는 설명은 아니다.

한 노드에서 비선형함수인 시그모이드를 쓰기 때문에 e의 지수부분이 + 로 합쳐지는 것이다.

W1,1 이 0.1, W1,2 이 0.5 W 2,1 이 -0.3

0.1 * 0.2 + 0.5 * 0.4 = q_ (1,1) element

-0.3 * 0.2 + 0.8 * 0.4 = 0.26 = q(2,1) element

|| ||^2 는 NORM 이라서 q 자승 곱해준것을 더한다

tanh 쓰는이유

미분시 비선형적인 그라디언트가 나와서 (그라디언트 소실 문제 해결!)

학생들에게 질문한 내용의 의미

학생들에게 질문한 내용의 의미

편향을 정규화하면 과소 fitting 이 될 수 있다

뒤의 n* lambda * w / n 이 정규화 항이다

2진 교차 엔트로피

교차 엔트로피 손실 함수

ln a + ln b = e^(a+b)

e^(a^yj + (1-a)^(1-y)) = e^(a^yj) * e^(1-a^(1-y))

L2 비정규화

L2 정규화된 식

역전파 알고리즘을 사용하여 위의 방정식에서 언급된 ∂C0/∂w 및 ∂C0/∂b 항을 계산할 수 있습니다.
편향 매개변수의 부분 유도는 정규화 항이 적용되지 않으므로 변경되지 않으며 가중치 매개변수는 추가 ((λ/n)*w) 정규화 항을 포함합니다.

따라서 편향 및 가중치에 대한 학습 규칙은 다음과 같습니다.

엔트로피는 이진 심벌 X 의 발생확률이 P(X =1 ) = p , P(X=0) = 1-p =q 라고 할 때

저작자표시 비영리 변경금지 (새창열림)

인기포스트

ABOUT ME

궁금한점/고칠점은 댓글에 남겨주세요

LINK

ADMIN

티스토리툴바