inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

<밑바닥부터 만들면서 배우는 LLM> 완독 챌린지

(유튜브) 어텐션과 선형 층을 트랜스포머 블록에 연결하기

<CH 4.1> "LLM구조 구현하기" 장 마지막의 Logits 차원에 대한 문의

해결된 질문

75

두희 이

작성한 질문수 4

0

제 4장 강의를 듣다 보면 강사님께서 강조하시는 말씀 중에 "입력 차원과 출력 차원은 같아야 하고 768차원이다"라는 게 있습니다.

"4.1장. 구조 구현하기"에 나오는 예제 코드의 마지막 부분을 보면 아래와 같이 나와 있습니다.

torch.manual_seed(123)
model = DummyGPTModel(GPT_CONFIG_124M)

logits = model(batch)
print("출력 크기:", logits.shape)
print(logits)

차원을 살펴보면 마지막 차원이 768차원이 아니라 50257로 나오는데요(즉, [2 , 4, 50257]).

txt1 = "Every effort moves you"
txt2 = "Every day holds a"

토크나이저에서 위 텍스트를 인덱싱한 후 DummyGPTModel 클래스의 인스턴스에 넘겨주면 768차원이 나와야 하는 게 아닌 지 궁금합니다.

참고로, 3장 끝 부분 "멀티헤드어텐션" 전까지는 수월하게 강의를 한 번만 듣고 책으로 복습해도 수월하게 이해 됐는데, 점차 어려워지네요^^;;;

pytorch gpt-2 self-attention transformer llm

답변 1

1

박해선

안녕하세요. 박해선입니다. 제가 말한 입출력 차원이 같아야 하는 곳은 트랜스포머 디코더 블록과 그 안의 구성 요소입니다. 전체 모델의 출력은 50257이 맞습니다. 4장 강의를 끝까지 들으시면 이해가 되실 것 같습니다. 감사합니다!

죄송합니다. 해설 강의 관련 문의드립니다..!

0

54

2

해설강의 쿠폰 가능할까요??

0

80

3

해설강의 쿠폰 놓쳤는데, 재발급 가능할까요?

0

82

2

CH3의 맨 처음에 등장하는 '임베딩 입력 시퀀스' 텐서 값은 임의의 숫자인가요?

0

53

1

그림 4-5의 분산 값 문의드립니다.

1

64

1

챌린지 완수 조건 문의 드립니다.

0

78

2

어텐션 가중치 질문

0

43

1

해설강의 쿠폰 발행 문의

0

70

2

해설 쿠폰 관련 문의

0

44

2

쿠폰 관련 문의

0

59

3

쿠폰 관련하여 문의드립니다.

0

66

3

해설 쿠폰 관련...

0

40

2

코드 해설 강의 쿠폰 관련 문의

0

93

2

강의 쿠폰 관련 문의드립니다.

0

95

1

p63 질문

0

51

2

주차별 진도 확인하는거 어디에 있는지 알수있을까요?

0

72

2

임베딩 초기화

0

53

1

오타 발견했어요 >_<

0

53

1

8강 부터는 영상이 안나오는게 정상인가요?

0

74

1

강의 쿠폰 문의드립니다.

0

68

2

쿠폰 재발급

0

97

4

2.1 단어 임베딩 이해하기에서 차원 얘기에서

0

118

2

4장 강의는 아직 업로드가 안된걸까요?

0

65

1

코드 2-3 출력 결과 비교

0

58

1