멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문
안녕하세요. 37강의 8분 30초에 나오는 슬라이드에서 왼쪽 블럭에, Q=X@Wq, K=X@Wk, V=X@Wv의 설명에서 (부담을 덜어주려는 의도로 말씀하신것 같다고 이해는 됩니다만) Single 헤드 부분과 동일하다는 설명이 자칫 Q1, Q2, Q3의 Wq를 공유한다는 의미로 오인되거나, 멀티 헤드 방법이 싱글헤드의 임베딩 벡터 차원을 분할하여 계산한다는 단순한 의미로 들립니다. 이로 인하여 헤드별 Wq, Wk, Wv가 독립적으로 학습이 되고 이로 인하여 하나의 헤드로 할 경우 나타나지 않은 작은 특징이 여러 독립된 헤드에서 나타날 수 있도록 한다는 성질의 설명이 묻혀버리는것 같습니다. 감사합니다.