인프런 커뮤니티 질문&답변
<CH 4.1> "LLM구조 구현하기" 장 마지막의 Logits 차원에 대한 문의
해결된 질문
작성
·
25
0
제 4장 강의를 듣다 보면 강사님께서 강조하시는 말씀 중에 "입력 차원과 출력 차원은 같아야 하고 768차원이다"라는 게 있습니다.
"4.1장. 구조 구현하기"에 나오는 예제 코드의 마지막 부분을 보면 아래와 같이 나와 있습니다.
torch.manual_seed(123)
model = DummyGPTModel(GPT_CONFIG_124M)
logits = model(batch)
print("출력 크기:", logits.shape)
print(logits)차원을 살펴보면 마지막 차원이 768차원이 아니라 50257로 나오는데요(즉, [2 , 4, 50257]).
txt1 = "Every effort moves you"
txt2 = "Every day holds a"토크나이저에서 위 텍스트를 인덱싱한 후 DummyGPTModel 클래스의 인스턴스에 넘겨주면 768차원이 나와야 하는 게 아닌 지 궁금합니다.
참고로, 3장 끝 부분 "멀티헤드어텐션" 전까지는 수월하게 강의를 한 번만 듣고 책으로 복습해도 수월하게 이해 됐는데, 점차 어려워지네요^^;;;
답변 1
1
박해선
지식공유자
안녕하세요. 박해선입니다. 제가 말한 입출력 차원이 같아야 하는 곳은 트랜스포머 디코더 블록과 그 안의 구성 요소입니다. 전체 모델의 출력은 50257이 맞습니다. 4장 강의를 끝까지 들으시면 이해가 되실 것 같습니다. 감사합니다!




