inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지

SE Net도 어텐션과 관련이 있을까요?

248

You

작성한 질문수 2

0

좋은 강의 감사합니다.
영상처리만 하고 어텐션은 잘 몰랐는데 보면서 Squeeze Excitation과 비슷하지 않나 생각했습니다.
LSTM에서 게이트 통과하는 개념도 어텐션과 비슷하게 생각되고요.
강사님 생각하시기에는 비슷한 개념으로 연관시킬 수 있을 것 같습니까?
 
그리고 강의 자료 26, 27에 있는 CNN 내용은
트랜스포머 강의 내용에서 활용되지 않은 것 같은데
실제로는 트랜스포머의 행렬곱/FullyConnected를 활용한 연산들이 CNN으로 대체된다면
더 성능이 좋아지는 것 아닐까요?
 
좋은 강의 감사합니다~

딥러닝 컴퓨터-비전 pytorch vision-transformer

답변 1

0

딥러닝호형

안녕하세요. Giseok Kim님!

 

1. 개념은 다르다고 생각하는데 말씀하신 부분을 보고 생각해보니 데이터 처리 플로우가 유사하다고 느낄 수도 있다는 생각을 해봅니다 :)

 

2. 어텐션이 CNN의 단점을 보완하기 위해 사용되는 것인데 어텐션의 핵심인 키, 쿼리, 밸류 행렬 연산을 합성곱으로 바꾸신다는 말로 이해했습니다. 그러면 성능과 관련없이 트랜스포머라고 할 수 없지 않을까요? 그런데 비전트랜스포머 성능을 높이기 위해 트랜스포머 모델 앞단에 CNN을 합쳐서 쓰는 경우는 있어요!

 

감사합니다.

 

mean attention distance

0

211

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

242

1

positional embedding 학습이 잘 안되는 문제

1

371

1

행렬 차원 수 질문

0

319

1

Self Attention 질문 있습니다.

0

332

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

564

1

전처리 관련해서 질문이 있습니다

1

364

1

답변에 대한 추가질문이 있습니다.

1

306

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

384

1

Positional Encoding, KQV 질문입니다!

2

627

1

강의 자료 슬라이드

0

745

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

472

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

404

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

724

1

training

1

292

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

895

1

Transformer의 input에 대해 질문드립니다.

1

418

1

ViT에 대한 전반적인 질문 드립니다!

1

401

1

Key query value관련 질문

1

576

2

Fine tuning 관련하여 질문 드립니다.

1

655

1

코드 질문

1

322

1

Dh의 의미

1

319

1

scheduler관련 질문드립니다.

2

281

1

E, Epos

0

315

1