자율주행스터디 03 self-attention, transformer :: 파이토치

ABOUT ME

-

Today: -

Yesterday: -

Total: -

자율주행스터디 03 self-attention, transformer

카테고리 없음 2022. 2. 5. 11:02

울렁거림이 보입니다. 각 카메라에서 검출된 결과를 Top-view (Bird-eye View) 로 변환 후

그대로 지표면 기준으로 이어 붙이기 때문에 발생하는 결과 입니다

연석체크 가능 벗 떨림 및 휘어져서 주행 불가

(카메라 별 감지 후 융합)

--> 다른 방법 필요

스테레오 카메라 에서도 문제가 있음

(손날을 눈 앞에 두고 왼쪽눈 감으면 왼쪽눈이 보았던 손면이 오른쪽눈에서 안보임)

https://www.youtube.com/watch?v=PkeP6RvHHRE

이미지 후 처리(논문 잘 안나옴) --> resnet

모션 정보 ( 바퀴 휠 )--> 패턴을 미리 알 고 있으면 어떤 부분을 주로 가져갈 수 있게

비젼 + 모션 트래킹 --> 비전을 개선

전방,후방, 좌우 로 4개 fish eye 카메라로 많은 영역 (화각) 커버 (가장자리 왜곡, resolution 이 단점???)

이미지 펴주고 projection --> 가장자리가 쫙 늘어나서 단점

가속기--> 저렴한 하드웨어에서도 텐서로 잘 돌아갈 수 있게 함(라즈베리파이의 가격2배정도)

트랜스포머를 이용해 벡터 스페이스로 던질거임

https://jalammar.github.io/illustrated-transformer/

The Illustrated Transformer

Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Chinese (Simplified), French, Japanese, Korean, Russian, Spanish, Vietnamese Watch: MIT’s Deep Learning State of the Art lecture referencing

jalammar.github.io

https://www.youtube.com/watch?v=Yk1tV_cXMMU&list=고려대학교산업경영공학부DSBA 연구실

전체문장 어텐션-->포지션에 대한 타이밍을 주는 것이다

벡터10개==> x1,x2///

q,k,v 는 인풋 X 에 W_Q,K,V를 곱함으로서 구해진다.

현재관심있는 단어 벡터 = 쿼리 벡터 q

키 = 현재 처리하고 있는 단어가 전체단어에 대해서 어떤상관계수를 가지고 있는지?? scoring을 하기위해 접근하는 구분자 k

최종적인 score 의 값 = 밸류v

멀티헤드 8개 --> 64차원의 q,k,v 벡터 * 8 ---> 512 (인풋 디멘션과 동일한 차원)

k 벡터의 디멘션의 루트--> 루트 64 = 8

가중치 = softmax

모든 값 벨류 sum --> value (self - attention)

2*3 의 아웃풋 헤드 1개 --> 8개이므로

똑같은 두단어에 대한 attention

앙상블 효과 z를 다 concat * W_O(feed forward) 와 연산해서 Z 를 얻음

앙상블 효과 여러개 병렬로 헤드 --> 여러 맥락에서 가능

q,k dot product ==> dimension 이 날아감 !!! dimension 을 키워도 멀티헤드의 효과는 없음

q의 shape (L,D)

k _ tanspose의 shape (D,L) ==>dot product==> (L,L)

feed foward 원리

아래에서 위로, 히든 레이어(relu)==> FC

1*1 conv 2 개를 연산함으로서도 feed forward 가 이루어질 수 있다

-무한대==> softmax 연산==> 0 이 된다(마스킹)

training ----> 전체데이터다알고있기때문에 중간에서 마스킹함

inference ----> 전혀 주어지지 않아서 하나 넣고 다음단어 뽑아내고 스타트단어다음단어 넣고 다음단어 나오고.. 이런식

자연어쪽에서는 BLEU 를 사용한다.

alignment matrix 뽑음

어텐션 메트릭스

어텐션과 매칭하기 위해서

위--> 아래 sum

왼 --> 오른쪽 : *

쿼리가 없음

linear 로 뽑아냄

아웃풋은 동일하다

순서를 무시하는 집합의 연산이랑 똑같다

순서가 바뀌면 결과가 안바뀜

그래서 positional encoding 을 해야 한다

픽셀간의 관계

q,k-->attention 을 구하기 위함

저작자표시 비영리 변경금지 (새창열림)

인기포스트

ABOUT ME

궁금한점/고칠점은 댓글에 남겨주세요

LINK

ADMIN

티스토리툴바