작성한 질문수
<밑바닥부터 만들면서 배우는 LLM> 완독 챌린지
(유튜브) 싱글 헤드 어텐션을 멀티 헤드 어텐션으로 확장하기
작성
·
13
0
어텐션 가중치가 학습되는 파라메터가 아니라고 하셨는데요. k,q,v 자체는 학습 파라메터가 맞지만 어텐션 가중치(attention score)는 q와 k로 부터 만들기 때문에 학습 파라메터가 아니다 라고 하신거 맞죠?
답변 1
네 맞습니다. k q v를 만드는 선형 층의 가중치는 학습되는 모델 파라미터이지만 어텐션 가중치는 k q로 계산되는 결괏값입니다.