안녕하십니까, 강사님.트랜스포머에 대한 세심하고 깊이 있는 강의를 준비해주셔서 감사합니다. 강의 정말 유익하게 잘 듣고 있습니다. Self-Attention의 learnable parameter 단계로 넘어가면서 몇 가지 궁금한 점이 생겨 질문드립니다.초기 token embedding은 어떤 방식으로 설정되는 것인가요?Query, Key, Value를 구하기 위해 초기 token embedding에 (3, 3) 형태의 nn.Linear를 곱하여 각각 (6, 3)으로 변환하는 과정의 의미가 궁금합니다.기존 token embedding을 그대로 사용하지 않고 이렇게 변환하는 이유가 무엇인지 알고 싶습니다.조금 더 구체적으로는, 이렇게 선형 변환을 적용하면 기존 임베딩의 의미가 무시되거나 손실되는 것은 아닌지 의문이 있습니다.