질문&답변
ViT 모델 구현 코드에서 질문이 있습니다
강의 자료에 나와있는 수식은 Multi-Head가 아닌 Single-Head의 경우를 표현한 것으로 알면 될까요? 그런데 코드에서는 Multi-head 계산 후 permute으로 다시 num*heads, head_dim 4차원으로 나눠주는데 그러면 scale은 Dh로 적용해야되는 것이 아닌가요?
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 740
질문&답변
강의 자료에 나와있는 수식은 Multi-Head가 아닌 Single-Head의 경우를 표현한 것으로 알면 될까요? 그런데 코드에서는 Multi-head 계산 후 permute으로 다시 num*heads, head_dim 4차원으로 나눠주는데 그러면 scale은 Dh로 적용해야되는 것이 아닌가요?
질문&답변
제공해주신 코드는 patch_size가 8인데, 실험하시기를 4로 하신 것 같네요
질문&답변
또 궁금한 점이 아래는 구글 어느 한 블로그를 퍼온건데, 제 생각과 동일한 부분이 있기는 합니다 클래스에 따른 가중치를 구한 다음에 이를 전체 Label에 적용할 때 Label에 대한 순서를 유지해줘야 되지 않나요? 현재 코드는 해당 리스트만큼 구해서 바로 extend 시키는 코드인 것 같아서요
질문&답변
기존에 7:3 비율을 가지는 갯수의 데이터셋이 존재한다면 배치에서도 7:3으로 동일하게 나올 수 있게 하는 장치인가요? 뽑을 확률을 동일하게 가져갔을 때 문제가 데이터 갯수 불균형이 일어나면, 중복되게 뽑아야하는 경우가 나오지 않나요?
질문&답변
감사합니다~
질문&답변
Span 영역이 커지니 좀 더 확률은 높겠네요
스터디 · 모집중
질문&답변
32와 4d는 32는 레이어 너비, 4d는 중간 bottleneck 차원축소 dimension인 것은 알겠는데, 이게 실제로 연구에서 더 좋았기에 쓰는 것이겠죠?
질문&답변
네 감사합니다!
질문&답변
Keras 2.2 이하에서는 Input / Output Layer의 타입인 KerasTensor와 넘파이가 바로 연산이 되었던 것 같은데, TF에 속해진 Keras 2.4에서는 Eager Execution이 되질 않는 것 같네요. 그래서 disable_eager를 해야만 KerasTensor * Numpy가 가능합니다