헷갈리는게 몇개 있습니다ㅠㅠ

Question

안녕하세요 강사님.Transformer 에 대해 처음 공부해보니 헷갈리는 부분들이 있어서 질문남깁니다.1) k 개의 Multi-Head를 만든 후에 Linear를 해주는 이유가 따로 있는지 궁금합니다. 단순히 Residual Connection을 위해 차원을 맞춰주기 위해 하는 것인가요??2) Head의 개수(k)는 CNN에서 필터 개수처럼 사용자가 정해주는 파라미터인가요??3) 클래스 토큰까지 Positional Embedding을 더해줘야 하는 이유가 따로 있을까요??좋은 강의 덕분에 따라가긴 하는데 한 번에 이해하려하니 과부하가 와서 헷갈리는게 생기네요ㅠㅠ코드 분석 파트 들어가면 조금 더 이해가 될 것 같은데 우선적으로 질문남겨봅니다.

Answer

안녕하세요.좋은 질문입니다.1) 어떤 의도로 물어보신지 잘 모르겠지만 멀티 헤드나 그 뒤에 붙은 linear 블럭 모두 같은 크기로 출력값이 나오게 됩니다. 즉, 항상 차원이 맞게 됩니다. 이는 모델의 깊이를 자유롭게 조정하는데 용이한 구조입니다.2) 예 맞습니다. 임의로 정해주시면 되는데요. 다만, 우리 코드에서는 head dimension = latent_vec_dim / num_heads으로 정의되어 있기 때문에  latent vector dimension에 나누어 떨어지는 수로 정해주시면 됩니다 :)3) 흥미로운 질문입니다. 개인적인 생각으로는 편의상 그냥 포지셔널 임배딩을 더해준 것 같습니다. 만약 클래스 토큰을 배제하고 다른 크기의 포지셔널 임배딩을 조작한다면 프로그래밍 측면에서 생각보다 귀찮은 일이기도 하고 더하기 연산 보다 더 느릴 수도 있고요. 그리고 포지셔널 임배딩에 대해 분석할 때에도 포지셔널 임배딩의 첫번째 열은 배제합니다!감사합니다.

김남욱

헷갈리는게 몇개 있습니다ㅠㅠ

이 글과 비슷한 Q&A

안녕하세요 train_isbi부분 문의드려요

현업에서 detection 시 데이터셋의 수가 어느정도 되야하나요?

checkpoint 파일이 안생겨요

실무에서 Augmentation 적용 시