강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

두희 이님의 프로필 이미지
두희 이

작성한 질문수

<밑바닥부터 만들면서 배우는 LLM> 완독 챌린지

(유튜브) 어텐션과 선형 층을 트랜스포머 블록에 연결하기

<CH 4.1> "LLM구조 구현하기" 장 마지막의 Logits 차원에 대한 문의

해결된 질문

작성

·

25

0

제 4장 강의를 듣다 보면 강사님께서 강조하시는 말씀 중에 "입력 차원과 출력 차원은 같아야 하고 768차원이다"라는 게 있습니다.

"4.1장. 구조 구현하기"에 나오는 예제 코드의 마지막 부분을 보면 아래와 같이 나와 있습니다.

torch.manual_seed(123)
model = DummyGPTModel(GPT_CONFIG_124M)

logits = model(batch)
print("출력 크기:", logits.shape)
print(logits)

차원을 살펴보면 마지막 차원이 768차원이 아니라 50257로 나오는데요(즉, [2 , 4, 50257]).

txt1 = "Every effort moves you"
txt2 = "Every day holds a"

토크나이저에서 위 텍스트를 인덱싱한 후 DummyGPTModel 클래스의 인스턴스에 넘겨주면 768차원이 나와야 하는 게 아닌 지 궁금합니다.

참고로, 3장 끝 부분 "멀티헤드어텐션" 전까지는 수월하게 강의를 한 번만 듣고 책으로 복습해도 수월하게 이해 됐는데, 점차 어려워지네요^^;;;

답변 1

1

박해선님의 프로필 이미지
박해선
지식공유자

안녕하세요. 박해선입니다. 제가 말한 입출력 차원이 같아야 하는 곳은 트랜스포머 디코더 블록과 그 안의 구성 요소입니다. 전체 모델의 출력은 50257이 맞습니다. 4장 강의를 끝까지 들으시면 이해가 되실 것 같습니다. 감사합니다!

두희 이님의 프로필 이미지
두희 이

작성한 질문수

질문하기