inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Từ khái niệm Vision Transformer công nghệ deep learning mới nhất đến triển khai Pytorch

Học tập và Đánh giá

positional embedding 학습이 잘 안되는 문제

Đã giải quyết

365

jinyoungjun6284

1 câu hỏi đã được viết

1

cifar10 말고 다른 이미지셋을 가지고 학습을 시켜보았는데, 시각화를 해 보니 수업에서 보여주셨던 것과는 다르게 positional embedding 학습이 잘 안되었습니다. 어디를 봐야할지 조언을 부탁드려도 될까요?

딥러닝 pytorch 컴퓨터-비전 vision-transformer

Câu trả lời 1

0

dlbro

안녕하세요.

매우 좋은 질문입니다.

먼저 딥러닝 모델 분석은 전체적으로 살펴봐야만 알 수 있기 때문에 정확한 판단을 하기 어렵다는 점을 말씀드리고 싶습니다.

몇 가지 추측을 해 본다면..

  1. 데이터 내의 객체 및 패턴에 따라 모델이 학습 되기 때문에 당연히 데이터에 따라 다를 수 있습니다.

     

  2. 이미지 내 객체의 위치 때문일 수도 있습니다. cifar10 같은 경우는 모든 객체가 정중앙에 있는 이미지를 패치화했기 때문에 수업에서 배운 내용대로 나올 수 있습니다. 만약 이미지 내 객체가 여러 개 혹은 위치가 상이한 경우 다르게 나올 수 있습니다.

  3. 이미지 크기에 따른 패치 수와 크기 영향일 수도 있습니다.

  4. 학습이 덜 된 것일 수도 있습니다.

감사합니다.

 

딥러닝호형 드림

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

301

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

Positional Encoding, KQV 질문입니다!

2

623

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

401

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

309

1

scheduler관련 질문드립니다.

2

276

1

E, Epos

0

305

1

key의 차원으로 정규화

0

167

1