강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

HYUN TAEK CHOI님의 프로필 이미지
HYUN TAEK CHOI

작성한 질문수

구현하며 배우는 Transformer

Multi Head Self Attention(다중 헤드 셀프 어텐션) 이해

멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조 관련 질문

작성

·

19

0

후반부 슬라이드 그림에 Wq, Wk, Wv 하나로 계산이 되어 헤드별로 나누어진다는 표현같이 보이는데, 오해의 소지가 있는것 같습니다. 만약 Wq, Wk, Wv가 멀티 헤드의 각각의 Wq, Wk, Wv가 concat된 것을 의미한다면 틀린것은 아니지만 그건 구현의 편의 문제이고 적어도 이 슬라이드에서는 Q, K, V가 하나의 Wq, Wk, Wv에서 계산이 되어 나누어진다는것은 혼란을 줄것 같습니다.

답변 3

0

안녕하세요. 37강의 8분 30초에 나오는 슬라이드에서 왼쪽 블럭에, Q=X@Wq, K=X@Wk, V=X@Wv의 설명에서 (부담을 덜어주려는 의도로 말씀하신것 같다고 이해는 됩니다만) Single 헤드 부분과 동일하다는 설명이 자칫 Q1, Q2, Q3의 Wq를 공유한다는 의미로 오인되거나, 멀티 헤드 방법이 싱글헤드의 임베딩 벡터 차원을 분할하여 계산한다는 단순한 의미로 들립니다. 이로 인하여 헤드별 Wq, Wk, Wv가 독립적으로 학습이 되고 이로 인하여 하나의 헤드로 할 경우 나타나지 않은 작은 특징이 여러 독립된 헤드에서 나타날 수 있도록 한다는 성질의 설명이 묻혀버리는것 같습니다. 감사합니다.

권 철민님의 프로필 이미지
권 철민
지식공유자

음, 그런 부분을 생각하셨군요. 설명을 듣고 보니, 말씀하신 부분을 추가하면 좀 더 좋은 설명이 되지 않았을까 하는 생각도 드는군요. 다만, 강의 흐름의 맥락상 현 영상과 슬라이드는 구현 메커니즘에 좀 더 촛점에 맞춰져 있다고 이해해 주시면 좋을 것 같습니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

후반부 슬라이드가 영상의 몇분 몇초인지 알려 주시겠습니까?

혹시 Multi Head Self Attention 구현 메커니즘 슬라이드를 의미하신다면,

Wq, Wk, Wv 각각 별도의 학습 파라미터로 되어 있고, 이를 각각을 이용하여 Q, K, V를 만든 다음에 이들 Q, K, V가 다시 Head 갯수만큼 차원 분할되어 Attention Weight 적용된다는 의미를 반영한 슬라이드 맞습니다.

어느 부분에서 제 어떤 이야기가 오해의 소지가 있는지 보다 자세하게 기재해 주시면 좋을 것 같습니다.

감사합니다.

0

안녕하세요, 인프런 AI 인턴입니다. HYUN TAEK CHOI님.

멀티 헤드 셀프 어텐션에서 Wq, Wk, Wv의 구조와 관련된 질문을 주셨군요. 이 부분은 Transformer의 핵심 개념 중 하나로, 다양한 이해가 존재할 수 있습니다.

기본적으로, 멀티 헤드 어텐션에서는 입력 시퀀스를 여러 개의 “헤드”로 나누어 각각 다른 학습 파라미터(Wq, Wk, Wv)를 사용해 병렬로 처리합니다. 이를 통해 서로 다른 표현을 학습할 수 있습니다. 여기서 Wq, Wk, Wv는 각 헤드별로 존재하며, 구현상에서는 종종 이들을 하나의 큰 행렬로 관리하는 경우가 많습니다. 이는 계산 효율성을 위한 방법이기도 합니다. 하지만 슬라이드에서의 설명이 혼란을 줄 수 있다는 지적에는 공감합니다.

아래의 링크에서는 멀티 헤드 어텐션을 구성하는 각 요소에 대한 자세한 설명을 제공하고 있으니 확인해 보시기 바랍니다:

이해를 돕기 위해 다중 헤드 어텐션이 어떻게 구성되고, 왜 각 헤드마다 다른 학습 파라미터를 사용하는지 추가적인 자료를 찾으시는 것도 좋을 것 같습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

HYUN TAEK CHOI님의 프로필 이미지
HYUN TAEK CHOI

작성한 질문수

질문하기