자율주행 1주차 스터디 :: 파이토치

ABOUT ME

-

Today: -

Yesterday: -

Total: -

자율주행 1주차 스터디

카테고리 없음 2022. 1. 15. 23:28
그들은 공통적으로 공유되는 백본이 있고 여러 헤드로 분기되는 새로운 아키텍처 레이아웃에서 이러한 작업을 수렴합니다. 이 아키텍처를 HydraNets라고 합니다.

HydraNet에는 세 가지 주요 이점이 있습니다.

기능 공유 : 반복적인 컨볼루션 계산 감소, 백본 수 감소, 특히 테스트 시간에 효율적

작업 분리: 백본에서 특정 작업을 분리하여 개별적으로 작업을 미세 조정할 수 있습니다.

표현 병목 현상: 학습 중 캐시 기능이 워크플로 미세 조정을 수행할 때 캐시된 기능만 사용하여 헤드를 미세 조정합니다.

HydraNet 교육 워크플로:

모든 것을 공동으로 교육하는 종단 간 교육 수행

다중 스케일 기능 수준에서 기능을 캐시합니다.

캐시된 기능을 사용하여 각 특정 작업 미세 조정

엔드 투 엔드 교육을 다시 한 번 반복합니다.

FPN의 진화: 모델 (a)는 이미지 피라미드를 사용하여 특징 피라미드를 구축하는 전통적인 특징 이미지 피라미드입니다. 특징은 각 이미지 스케일에서 독립적으로 계산됩니다. 매우 느립니다. 모델 (b)는 단일 피쳐 맵에서 심층 컨볼루션 네트워크(ConvNets)를 사용하고 있습니다. 이 방법은 더 높은 수준의 의미를 나타냅니다. 모델(c)는 SSD(Single Shot Detector) 알고리즘으로, 예측을 위해 다른 레이어의 다중 스케일 피쳐 맵을 재사용합니다. 그러나 낮은 수준에서 약한 의미를 가지고 있습니다. 모델 (d)는 하향식 경로 및 측면 연결을 통해 저해상도의 의미론적으로 강력한 기능과 고해상도의 의미론적으로 약한 기능을 결합한 아키텍처입니다. 이 아키텍처는 SSD의 감지 전략과 ResNet 의 "바로 가기 연결"에서 학습합니다 .

말뭉치 --> GRU 빠름

1*1 conv 는 전체적으로 볼 수 있게 함 (GRU 앞에 있으면 )

병목설계에서도 쓰이는 듯 !!!!!!!!!!

병목설계?

/b 로 나눠줌으로서 다양한 해상도를 가진 이미지를 처리!

채널들을 b로 나눠줌

맨위에는 많은~ 채널 수 가있는 낮은 해상도 사진들 (처리 속도가 빠름)

맨 밑에는 적은~ 채널 수가 있는 높은 해상도 사진들(처리 속도가 느림)

이걸 막 섞은게 병목 설계~!

아마 pipeline 에 메모리를 어떻게 적재시킬지 같은 느낌인듯 (최대한 빽빽하게 설계 빈 공간이 없게)

tanh 의 derivative = 1/cosh^2 이다

시그마 w_i * x_i = net

g 함수는 tanh 함수이다

d erivative에 조금의 상수 d 를 더하면 y 가 나오도록 한다( 그라디언트 소실 문제 해결을 위해 ! )

tanh(x)=2sigmoid(2x)−1

tanh 을 쓰는 이유

트릭은 g'(x) 에 조금의 상수를 더해주는 것이다!

저번 포스팅때 GRU 를 공부했는데 연산이 빨라서 RNN 사용할시 GRU 를 사용하는것 같다&amp;amp;amp;amp;amp;amp;amp;nbsp;

벡터스페이스 만들어야 하는 이유1

각각의 트럭 이미지들을 뉴럴넷으로 보낸다

두가지 문제점이 존재

1. 어떻게 뉴럴넷을 만들것인가

2. 벡터공간 레이블링 필요

d_k 는 k 번째 distance 을 말하는 것 같다

여기에서 왜 루트가 씌워진것인가 ? 정규분포 때문인것 같다

&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;

key = K , value = V

--> querry = Q(데이터 뭉치?)

각각의 Key 를 broadcasting?

Querry = 아웃풋 공간 현재 위치에 있는 픽셀

나는 이런 특징이 필요해! --> key 와 쿼리가 상호작용 (QK_T 의 의미인듯) --> 거리에 루트를 씌운뒤 나눠서 정규화후

--> 값을 뽑아낼 수 있음

각도에 따라 calibration 이 다름

가상 카메라 이용

모든 이미지 --> 가상 카메라로 !

뉴럴넷을 통해 낮밤가리지 않고 주행가능

큐 (queue) 아닌가

번역을 잘 못 한듯.... 메모리 큐 맞다 사진을 보니

비디오모듈은 큐들을 섞어서 사용 --> head 는 디코딩을 함!

큐 메모리에 있던 것들을(1과 0) 의미있는 것(레이블 된 정보) 으로 바꿔주는게 디코딩

큐는 선입선출로 메모리의 버퍼이다(대기열 같은 느낌!!! 여러 데이터들이 대기를 타고 있다)

시간 뿐 아니라 공간적으로도 queue 에 feature 를 주기적으로 집어넣습니다

LSTM의 경우 GRU가 더 적은 매개변수와 더 빠른 수렴 속도를 가지므로 실제로 시간이 덜 걸리고 컴퓨팅 성능이 덜 필요합니다. 그리고 이 부분은 온보드 칩에서 빠르게 완성되어야 하고 컴퓨팅 파워가 제한적입니다. 따라서 이 단계에서 Tesla AI 팀은 LSTM이나 더 복잡한 구조 대신 비교적 단순한 GRU를 선택했습니다.

구체적으로 Tesla의 자율주행 구조에서는 2차원 표면을 주행하고 있습니다. Telsa AI 팀은 실제로 숨겨진 상태를 2차원 격자로 구성합니다. 자동차가 주행 중일 때 네트워크는 자동차 근처에 있고 자동차가 가시성이 있는 부분만 업데이트합니다. 그들은 운동학을 사용하여 숨겨진 기능 그리드에서 자동차의 위치를 통합하고 우리 근처에 있는 지점에서만 RNN을 업데이트합니다.

push 와 pop 은 다음과 같다

일정 사인( 신호 등? 공간? ) 마다 공간 큐를 작동시킨다

큐 푸시 메커니즘에는 두 가지 유형이 있습니다.

시간 기반 큐(메모리는 시계열에 대한 정보)

와 공간 기반 큐(메모리는 공간에 대한 정보)입니다.
저작자표시 비영리 변경금지 (새창열림)

인기포스트

ABOUT ME

궁금한점/고칠점은 댓글에 남겨주세요

LINK

ADMIN

티스토리툴바