PR-243: Designing Network Design Spaces

자율주행스터디 2022. 1. 21. 13:43

디자인 스페이스 --> 샘플링 --> 학습--> 에러 분포도 보면 좋은 디자인 스페이스 내에서 있음--> 에러 낮은 데를 찾자!

에러 평균, variance 낮게 하는게 목표

샘플링

에러율이 50프로미만인얘가 60프로이다

복원추출 ( bootstrap )

파란색연한부분이 베스트 모델(신뢰도 90프로) 구간

body 부분 집중

바디를 4개의 stage로 구성(4가 제일 좋았음)

하나의 스테이지 안에 d 개의 block 존재

1 by 1 bottleneck

block 안의 구조에 대한 이미지

group conv 쓴다. 전체채널 100 개 그룹 이 20개다 --> 5개 채널이 한 그룹에 (g_i)

g = 그룹 하나에 들어가는 채널의 개수

b_i = 몇분의1로 줄일건지 -- > bottle neck ratio

너무 디자인 공간이 줄어들어서 diversity 가 줄어들어서도 안된다

a-->b로 갈때 별로 edf 가 차이가 별로 없어서 b 고정

bottleneck 은 1~2 사이로 ! interpretable 하다

stage 올라갈때 width 늘리는게 좋구나 (성능)

x 축 : 스테이지 개수 width 정비례하는게 좋아보인다

주황색 --> 들쑥날쑥 성능 안좋음을 나타냄

regnet quantized linear 방법!

culmulative prob 을 양자화하기 위해서 w_a*j = w s_j _ m 으로 나타냄

sj 반올림해서 1 이 되는 것의 합(누적) = d_i (PDF 랑 비슷?) 근사

quantization 오차 -> log -ratio mean 으로 알 수 있음

d*3 = layers (아까 한 블록이 세개로 나누어짐)

w_m 스테이지 넘어갈때마다 채널얼마나 늘릴것인가?

가로세로 절반 줄이면 채널 2배로 늘이면 됨!

regnet 이 anynet 어떤것보다 성능이 좋음

공간 사이즈가 줄일수록 채널수 더블

상식과는 다르게, 최적 뎁스는 20 블록이다.(별로 중요한 특성이 아님)

b =1 인경우 bottleneck 안쓴 경우.... 안쓴게 좋다?!

2.5 근처에 베스트 모델 존재(상식은 2)

log 350 = 2.54406804435 정도임

ln 12 = 2.48490664979

PR-366: A ConvNet for the 2020s (0)	2022.01.24
PR-304: Pretrained Transformers As Universal Computation Engines (0)	2022.01.21
자율주행스터디_2_0121(BiFPN) (0)	2022.01.21
PyTorch "ShortFormer" - RoBERTa w/Chunks(kaggle study__2) (0)	2022.01.21
자율주행 스터디_yolo_0117~ (0)	2022.01.17

파이토치 파이토치