inflearn logo
강의

Course

Instructor

From the concept of the latest deep learning technology Vision Transformer to Pytorch implementation

Learning and Evaluation

positional embedding 학습이 잘 안되는 문제

Resolved

365

jinyoungjun6284

1 asked

1

cifar10 말고 다른 이미지셋을 가지고 학습을 시켜보았는데, 시각화를 해 보니 수업에서 보여주셨던 것과는 다르게 positional embedding 학습이 잘 안되었습니다. 어디를 봐야할지 조언을 부탁드려도 될까요?

딥러닝 pytorch 컴퓨터-비전 vision-transformer

Answer 1

0

dlbro

안녕하세요.

매우 좋은 질문입니다.

먼저 딥러닝 모델 분석은 전체적으로 살펴봐야만 알 수 있기 때문에 정확한 판단을 하기 어렵다는 점을 말씀드리고 싶습니다.

몇 가지 추측을 해 본다면..

  1. 데이터 내의 객체 및 패턴에 따라 모델이 학습 되기 때문에 당연히 데이터에 따라 다를 수 있습니다.

     

  2. 이미지 내 객체의 위치 때문일 수도 있습니다. cifar10 같은 경우는 모든 객체가 정중앙에 있는 이미지를 패치화했기 때문에 수업에서 배운 내용대로 나올 수 있습니다. 만약 이미지 내 객체가 여러 개 혹은 위치가 상이한 경우 다르게 나올 수 있습니다.

  3. 이미지 크기에 따른 패치 수와 크기 영향일 수도 있습니다.

  4. 학습이 덜 된 것일 수도 있습니다.

감사합니다.

 

딥러닝호형 드림

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

301

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

Positional Encoding, KQV 질문입니다!

2

623

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

401

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

308

1

scheduler관련 질문드립니다.

2

276

1

E, Epos

0

304

1

key의 차원으로 정규화

0

167

1