inflearn logo
강의

Course

Instructor

From the concept of the latest deep learning technology Vision Transformer to Pytorch implementation

Vision Transformer - Training Results

scheduler관련 질문드립니다.

276

Jaewoo Choi

4 asked

2

scheduler를 업데이트시켜줄때, 배치단위로 업데이트 시킬 때의 장점과, 에폭 단위로 업데이트 시켜줄때의 장점이 궁금합니다 :)

딥러닝 컴퓨터-비전 pytorch vision-transformer

Answer 1

0

dlbro

안녕하세요.

 

기본적으로 배치 단위로 스케줄링을 하지는 않습니다.

예를 들어 10번의 이터레이션을 기준으로 학습률이 변경된다고 하고 에폭 100, 배치 이터레이션 20으로 가정해봐요. 그러면 에폭 기준으로하면 9번의 변화가 있지만 배치 기준으로 하면 199번의 많은 변화가 생깁니다. 또한 배치 하나가 학습 되고 있다는 것은 데이터 전체를 사용하는 중이라는 의미이기 때문에 이 사이에 학습률을 변경하면 데이터마다 다른 학습률로 학습이 됩니다. 따라서 기본적으로 배치 단위로 스케줄링을 하지는 않습니다.

 

감사합니다 :)

0

Jaewoo Choi

 

여기서 보면 step단위로 scheduler를 업데이트해주는데 이러한 것에 효과가 따로 있는지 궁금합니다.

0

dlbro

일부만 보고 다른 분의 것을 판단하기는 어렵구요. 만약 일반적인 상황에서 배치 기준 스케줄링이라면 구동방식 상은 가능합니다만 기본적으로는 하지 않습니다. 링크 하나 남겨드릴께요!

https://pytorch.org/docs/stable/optim.html

 

mean attention distance

0

199

2

안녕하세요, vit에 관심이 많은 사람입니다.

1

233

1

positional embedding 학습이 잘 안되는 문제

1

365

1

행렬 차원 수 질문

0

315

1

Self Attention 질문 있습니다.

0

325

1

Multi-Head Attention 모델 구조에서 궁금한게 있습니다.

0

555

1

전처리 관련해서 질문이 있습니다

1

362

1

답변에 대한 추가질문이 있습니다.

1

301

1

헷갈리는게 몇개 있습니다ㅠㅠ

1

375

1

Positional Encoding, KQV 질문입니다!

2

623

1

강의 자료 슬라이드

0

738

2

비전 트랜스포머 - 최신 모델 강의에서 positional embedding

2

468

1

비전 트랜스포머 - 최신 모델' 강의에서 B*N*K 와 1*K*D 를 연산

1

401

1

'어텐션 기법 - 키, 쿼리, 밸류는 무엇인가?' 강의에서 (QK^T)

1

717

1

training

1

288

1

Image가 입력일 때 Cross Attention 결과가 궁금합니다.

0

889

1

Transformer의 input에 대해 질문드립니다.

1

415

1

ViT에 대한 전반적인 질문 드립니다!

1

394

1

Key query value관련 질문

1

567

2

Fine tuning 관련하여 질문 드립니다.

1

647

1

코드 질문

1

316

1

Dh의 의미

1

309

1

E, Epos

0

304

1

key의 차원으로 정규화

0

167

1