ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 자율주행 1주차 스터디
    카테고리 없음 2022. 1. 15. 23:28

    그들은 공통적으로 공유되는 백본이 있고 여러 헤드로 분기되는 새로운 아키텍처 레이아웃에서 이러한 작업을 수렴합니다. 이 아키텍처를 HydraNets라고 합니다.

    HydraNet에는 세 가지 주요 이점이 있습니다.

    1. 기능 공유 : 반복적인 컨볼루션 계산 감소, 백본 수 감소, 특히 테스트 시간에 효율적
    2. 작업 분리: 백본에서 특정 작업을 분리하여 개별적으로 작업을 미세 조정할 수 있습니다.
    3. 표현 병목 현상: 학습 중 캐시 기능이 워크플로 미세 조정을 수행할 때 캐시된 기능만 사용하여 헤드를 미세 조정합니다.

    HydraNet 교육 워크플로:

    1. 모든 것을 공동으로 교육하는 종단 간 교육 수행
    2. 다중 스케일 기능 수준에서 기능을 캐시합니다.
    3. 캐시된 기능을 사용하여 각 특정 작업 미세 조정
    4. 엔드 투 엔드 교육을 다시 한 번 반복합니다.

     

     

    FPN의 진화: 모델 (a)는 이미지 피라미드를 사용하여 특징 피라미드를 구축하는 전통적인 특징 이미지 피라미드입니다. 특징은 각 이미지 스케일에서 독립적으로 계산됩니다. 매우 느립니다. 모델 (b)는 단일 피쳐 맵에서 심층 컨볼루션 네트워크(ConvNets)를 사용하고 있습니다. 이 방법은 더 높은 수준의 의미를 나타냅니다. 모델(c)는 SSD(Single Shot Detector) 알고리즘으로, 예측을 위해 다른 레이어의 다중 스케일 피쳐 맵을 재사용합니다. 그러나 낮은 수준에서 약한 의미를 가지고 있습니다. 모델 (d)는 하향식 경로 및 측면 연결을 통해 저해상도의 의미론적으로 강력한 기능과 고해상도의 의미론적으로 약한 기능을 결합한 아키텍처입니다. 이 아키텍처는 SSD의 감지 전략과 ResNet 의 "바로 가기 연결"에서 학습합니다 .

     

     

     

     

    말뭉치 --> GRU 빠름

    1*1 conv 는 전체적으로 볼 수 있게 함 (GRU 앞에 있으면 ) 

    병목설계에서도 쓰이는 듯 !!!!!!!!!!

    병목설계?

    /b 로 나눠줌으로서 다양한 해상도를 가진 이미지를 처리!

    채널들을 b로 나눠줌 

    맨위에는 많은~ 채널 수 가있는 낮은 해상도 사진들 (처리 속도가 빠름)

    맨 밑에는 적은~ 채널 수가 있는 높은 해상도 사진들(처리 속도가 느림)

    이걸 막 섞은게 병목 설계~!

    아마 pipeline 에 메모리를 어떻게 적재시킬지 같은 느낌인듯 (최대한 빽빽하게 설계 빈 공간이 없게) 

     

     

     

    tanh 의 derivative = 1/cosh^2 이다 

    시그마 w_i * x_i      =     net 

     g 함수는 tanh 함수이다

     

                  d erivative에 조금의 상수 d 를 더하면  y 가 나오도록 한다( 그라디언트 소실 문제 해결을 위해 ! )             

     

    tanh(x)=2sigmoid(2x)1

                          tanh 을 쓰는 이유                  

    트릭은 g'(x) 에 조금의 상수를 더해주는 것이다!

     

    저번 포스팅때 GRU 를 공부했는데 연산이 빨라서 RNN 사용할시 GRU 를 사용하는것 같다 

    벡터스페이스 만들어야 하는 이유1

    각각의  트럭 이미지들을 뉴럴넷으로 보낸다

    두가지 문제점이 존재

    1. 어떻게 뉴럴넷을 만들것인가

    2. 벡터공간 레이블링 필요

    d_k 는 k 번째 distance 을 말하는 것 같다

    여기에서 왜 루트가 씌워진것인가 ? 정규분포 때문인것 같다 

     

    key = K , value = V

    -->      querry = Q(데이터 뭉치?)

    각각의 Key 를 broadcasting?

    Querry = 아웃풋 공간 현재 위치에 있는 픽셀

    나는 이런 특징이 필요해!  --> key 와 쿼리가 상호작용 (QK_T 의 의미인듯) --> 거리에 루트를 씌운뒤 나눠서 정규화후

    --> 값을 뽑아낼 수 있음 

     

    각도에 따라 calibration 이 다름

    가상 카메라 이용

    모든 이미지 --> 가상 카메라로 !

     

    뉴럴넷을 통해 낮밤가리지 않고 주행가능

    큐 (queue)  아닌가 

    번역을 잘 못 한듯.... 메모리 큐 맞다 사진을 보니

    비디오모듈은 큐들을 섞어서 사용 --> head 는 디코딩을 함!

    큐 메모리에 있던 것들을(1과 0)    의미있는 것(레이블 된 정보) 으로 바꿔주는게 디코딩

    큐는 선입선출로 메모리의 버퍼이다(대기열 같은 느낌!!! 여러 데이터들이 대기를 타고 있다)

    시간 뿐 아니라 공간적으로도 queue 에 feature 를 주기적으로 집어넣습니다

     

    LSTM의 경우 GRU가 더 적은 매개변수와 더 빠른 수렴 속도를 가지므로 실제로 시간이 덜 걸리고 컴퓨팅 성능이 덜 필요합니다. 그리고 이 부분은 온보드 칩에서 빠르게 완성되어야 하고 컴퓨팅 파워가 제한적입니다. 따라서 이 단계에서 Tesla AI 팀은 LSTM이나 더 복잡한 구조 대신 비교적 단순한 GRU를 선택했습니다.

    구체적으로 Tesla의 자율주행 구조에서는 2차원 표면을 주행하고 있습니다. Telsa AI 팀은 실제로 숨겨진 상태를 2차원 격자로 구성합니다. 자동차가 주행 중일 때 네트워크는 자동차 근처에 있고 자동차가 가시성이 있는 부분만 업데이트합니다. 그들은 운동학을 사용하여 숨겨진 기능 그리드에서 자동차의 위치를 ​​통합하고 우리 근처에 있는 지점에서만 RNN을 업데이트합니다.

     

     

    push 와 pop 은 다음과 같다

    일정 사인( 신호 등?  공간? )    마다 공간 큐를 작동시킨다

    큐 푸시 메커니즘에는 두 가지 유형이 있습니다.

    시간 기반 큐(메모리는 시계열에 대한 정보)

    와 공간 기반 큐(메모리는 공간에 대한 정보)입니다.

Designed by Tistory.