파이토치 :: 파이토치

LOSS, likelihood

확률 및 통계 2022. 1. 24. 14:00

row-wise highest probability = y_i y에서 시작해서 w 로 감 product of likelihood for everyone 두번째 식의 SUM 은 세번째식의 diagonals 의 합과 같다(대각행렬) L2 패널티 이용ㅈ W_k=Y_i 를 W_k 에 대해서 gradient 를 한 값은 identity matrix 이다. yi = k 일때 1 이고 그렇지 않다면 0 을 취합니다

계산량 줄이는 방법 : 병목 층 , Inception Network

CS231n 2022. 1. 24. 13:45

가장 작은 부분 = 병의 목 부분, 병목 설계 Inception Network max Pooling 에서 크기를 맞추려면 패딩을 사용해야 합니다 same padding, stride = 1

conv 채널 줄이는 법 : 1*1 layer

CS231n 2022. 1. 24. 13:40

32(H)-5(FH)/1(strides) +1 = 28 패딩을 한다면 32-5-2/1 + 1 = 26 높이, 너비를 줄이려면 폴링 층 사용 뎁스를 줄이려면 1*1*192 conv (입력과 필터의 채널 수가 일치해야 함) n개 사용 --> 뎁스 n 개가 됨 [:,:,i] 네트워크에 비선형성을 더해주고 뎁스를 낮춰주는 중요한 역할

PR-366: A ConvNet for the 2020s

자율주행스터디 2022. 1. 24. 13:36

64채널인데 4채널로 만들고 32개로 만들어서 채널을 늘리고, 그룹을 더 늘림 "Use more groups, expand width" 연산량 줄어듦 96개로 키워줌(채널수 너무 적어서) 연산량 5.3G 로 좀 늘어남 --> inverted bottleneck 으로 연산량 줄어들게 함 4배로 키웠다가 줄이는 형태로 inverted 1*1 conv --> FC 층이랑 동일 transformer 안의 MLP 구조는 4배 키웠다가 줄임 똑같이 사용한다(b 그림) Skip Connection Resnet Conv 5.3G --> 4.6G 로 줄어듦. 보라색인 Depthwise Conv Layer 보라색의 순서를 위로 올린다 커널사이즈를 7*7 로 바꾸게 됨 이게 제일 퍼포먼스가 나음. 겔루를 쓰자 렐루 대신에 ..

활성화함수 saturation

CS231n 2022. 1. 24. 13:16

joint probability 결합확률 = 조건부확률 *( 예상 확률 )

확률 및 통계 2022. 1. 24. 11:58

, 로 되어있는게 결합확률 | 로 되어있는게 조건부 확률 P(S|R) P(R) = P(S,R) 이다 가우시안 분포 p(X|theta) 는 likelihood 함수로, 파라미터 벡터 세타로 본 가능도 함수이다 X는 관측한 데이터로 각각다른 세타의 값들로 관측된 것이다. likelihood 함수는 세타에 대한 확률분포가 아니라는 점에 명심하라 만약 set X 가 독립적이라면, 가능도함수는 다음과 같이 개별적인, 샘플을 가진 p(x_i|theta)의 가능도함수들의 product(곱) 으로 나타날 수 있다. p(X|theta)를 직접 최적화하기 보다는 우리는 p(X|theta) 에 로그를 취한것의 맥시멈값을 찾는다. mu 에 대해서 맥시멈값을 찾는다면, 이것을 mu 에 대해 편미분한뒤 그것이 0 이되는 값을 찾..

Cross Entropy

확률 및 통계 2022. 1. 24. 11:42

크로스 엔트로피란? 교차 엔트로피는 주어진 확률 변수 또는 일련의 이벤트에 대한 두 확률 분포 간의 차이를 측정한 것입니다. 정보 가 이벤트를 인코딩하고 전송하는 데 필요한 비트 수를 수량화 한다는 것을 기억할 수 있습니다 . 낮은 확률의 사건은 더 많은 정보를 갖고, 높은 확률의 사건은 더 적은 정보를 가집니다. 정보 이론에서 우리 는 사건 의 " 놀라움 "을 설명하는 것을 좋아합니다. 이벤트는 가능성이 적을수록 더 놀랍습니다. 즉, 더 많은 정보가 포함됩니다. 낮은 확률 이벤트 ( 놀라움 ): 추가 정보. 더 높은 확률 이벤트 ( 당연하지 않음): 정보가 적습니다. 정보 h(x) 는 다음과 같이 이벤트 P(x) 의 확률이 주어지면 이벤트 x 에 대해 계산할 수 있습니다 . h(x) = -log(P(x..

cs231n 추가자료 activation map, stride

CS231n 2022. 1. 24. 11:38

15. Prior probability Prior 확률이란, 파라미터의 확률 분포를 의미한다. 데이터 x는 파라미터 즉, 모델을 통해 나타내어 지는데 이 때 파라미터에 사전 지식을 반영한 것이 prior이다. 16. Likelihood Likelihood란, P(x|θ) 로 데이터 x를 파라미터 θ를 통하여 나타내는 걸 의미한다. 이 값은 파라미터 즉 모델이 예측한 데이터 x의 각 확률을 전부 곱하여 구한다. 감독학습에서의 Likelihood 는 P(y|x; θ) 이며, 이는 모델에 x라는 input을 넣었을 때 예측 되는 y 확률들을 전부 곱한 값을 의미한다.

ABOUT ME

파이토치 파이토치

티스토리툴바

ABOUT ME

전체 글

티스토리툴바