PR-366: A ConvNet for the 2020s

자율주행스터디 2022. 1. 24. 13:36

64채널인데 4채널로 만들고 32개로 만들어서 채널을 늘리고, 그룹을 더 늘림

"Use more groups, expand width"

연산량 줄어듦

96개로 키워줌(채널수 너무 적어서)

연산량 5.3G 로 좀 늘어남

--> inverted bottleneck 으로 연산량 줄어들게 함

4배로 키웠다가 줄이는 형태로 inverted

1*1 conv --> FC 층이랑 동일

transformer 안의 MLP 구조는 4배 키웠다가 줄임

똑같이 사용한다(b 그림)

Skip Connection

Resnet Conv

5.3G --> 4.6G 로 줄어듦.

보라색인 Depthwise Conv Layer

보라색의 순서를 위로 올린다

커널사이즈를 7*7 로 바꾸게 됨

이게 제일 퍼포먼스가 나음.

겔루를 쓰자 렐루 대신에

트랜스포머는 mlp 쪽에만 활성함수가 있는데

여기에서도 1*1 conv 하는 쪽 사이에만 겔루를 넣었더니 성능올랐다.

batch norm 없애고 1*1conv 앞쪽에만 넣었더니 성능 오름

그냥 LN 으로 바꾸면 성능 안좋음 그러나 잘 해 보니까 올랐다.

스테이지 2 입장 --> stride2 conv --> 가로세로 사이즈 절반으로 줄임

따로 downsampling layer 가 있다.

2*2 conv with stride2 를 공간 다운샘플링에 넣었더니 발산했고, normalization layer (LN) 을 넣어주니 좋아졌다.

두개의 1*1 layer 사이에만 겔루 하나만 사용(ConvNeXt 을 제안하는 논문)

모든 컨볼루션 한번 하면 --> 배치 norm 하고 이러는게 일반적이었는데... 1*1 layer 전에 BN 하나만 넣음.

큰 디자인 셋에서도 여전히 성능이 좋다

자율주행스터디 0212 (0)	2022.02.12
PR-304: Pretrained Transformers As Universal Computation Engines (0)	2022.01.21
PR-243: Designing Network Design Spaces (0)	2022.01.21
자율주행스터디_2_0121(BiFPN) (0)	2022.01.21
PyTorch "ShortFormer" - RoBERTa w/Chunks(kaggle study__2) (0)	2022.01.21

파이토치 파이토치