ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 자율주행스터디 0212
    자율주행스터디 2022. 2. 12. 11:05

    20 *80 bird eye view -- hidden layer 

    회전할때 localization =-> view 가 많을수록 무거워짐

    교차로에서 최대한 수집(1도마다 -->90개)  --> 교차로인지 어떻게 알아? --> spatial RNN 이 좋은 이유 

    초록색: radar

    하늘색: 비디오 모듈

     

     uncertainty가 높다가 왜 낮아지다가 어떻게 확정되는지가 궁금했던건데,

    들어오는 비디오 입력 시퀀스를 가지고 예측을 하면,

    차량 버드아이뷰 앞쪽으로 멀리 있는 곳은 uncertainty가 높다가 차량에 가까워지면 uncertainty가 낮아지다가,

    최종적으로 버드아이뷰 영역에 들어오면 불분명한곳이 확정되는 것이 아닐까 생각을 해봤었습니다.

     

    입,출력 순차적일때 : many to many

    영화 긍정,부정 --> many to one

    이미지 캡션을 생성할때 --> one to many

    기계번역 --> 양방향

    바닐라,LSTM 의 차이

     

    임베딩 쪽 보완하기 위해서 gru (파라미터 수 적어서) 쓴다

    텐서플로우라이트 --> gru 구현안되어있는 경우....

     

    nn 의 피쳐들의 공간 유사 hd map 을 빌드한다.

    비디오 모듈 , 피쳐 큐 모델을 NN 아키텍쳐에 넣는 이유는 단기기억 을 주기 위함이다. 

     

    시작하자마자 time 이 20이되면 안좋음

    3d conv 이용

    pooling 도 3d 로 이용 (time 제외 3차원을 1/4 함)

    c를 벡터로 보고 상상

     

    https://youtu.be/A9D6NXBJdwU

    1번캠에서 보이는게 2번캠에서 어떻게 보일까? (트랜스포머의 역할)

    spatial rnn (20*80*T) 의 정보 (3차원 cnn)

    semantic 한 정보를 뽑아내는 head???

    비디오 모듈 , 피쳐 큐 모델을 NN 아키텍쳐에 넣는 이유는 단기기억 을 주기 위함이다.

    multi layer perception 을 통해 추상적 피쳐를 뽑아 낸다?(쿼리-- 단어, 내가 원하는 단어)  

    키(단어들 중 매칭 되는 단어)

    벨류(원래 정보) 

    short term 기억을 위해 feature queue, video queue 을 이용한다했는데 시간이많이걸리는 피쳐추출을 먼저하고,

    위에서 단기기억을 보충해주는 느낌으로 컴퓨팅시간을 효율적으로 사용한것같다는 생각을 해봤습니다

     

     

Designed by Tistory.