inflearn logo
강의

Course

Instructor

<From Scratch: Building and Learning LLMs> Commentary Lecture

(YouTube) 3.2 Capturing Dependencies with Attention Mechanism

바흐다나우 어텐션을 시작하게 된 이유가 궁금해요!

68

geonc1235780

1 asked

0

바흐다나우 어텐션에서 모든 입력 토큰을 참조하는 이유와 그로인한 바흐다나우 어텐션 장점이 무엇인지 궁금해요!

찍어주신 강의에서는 아래와 같이 정리해볼 수 있었는데요, 어떤 장점이 있는지 궁금해서 질문드립니다!

 

- 방법 : 출력 토큰을 생성할 때, 모든 입력 토큰을 참조하고, 입력 토큰별로 중요도를 기록한다.

- 단점 : 토큰양이 많아질 수록 저장공간 문제가 발생한다.

- 단점으로 인한 제약 : 입력 텍스트 길이에 제한이 발생한다.

 

좋은 강의 감사합니다.

 

pytorch gpt-2 transformer llm fine-tuning

Answer 2

0

geonc1235780

답변해주셔서 감사합니다 🙇‍♂

어텐션 시작이 입력된 모든 토큰을 참조한다고 말씀해주신 부분 덕분에 이해가 됐습니다. 좋은 강의 감사합니다.

0

haesunpark

안녕하세요. 네, 말씀하신 내용이 모두 맞습니다. 어텐션은 지금까지 입력된 토큰을 모두 참조합니다. 이는 순환 신경망에서 이전 토큰에 대한 기억이 흐려지는 문제를 해결하기 위해서 고안되었습니다. 하지만 이로 인해 메모리 공간이 늘어나고 입력 길이에 제한이 생깁니다. 어떤 기술이 등장해서 이전 기술의 단점을 보완하지만 완벽한 것은 없다보니 새로운 다른 단점이 있는거죠. 하지만 이런 단점에도 불구하고 어텐션은 텍스트 생성에 압도적인 성능을 냅니다. 또한 컴퓨팅 성능과 모델의 규모가 커지면서 저장 공간과 입력 길이 제한은 점점 더 장벽이 되지 않는 것 같습니다. 감사합니다!

클라우드 가입 시 회사 이메일

0

6

0

엥?? 화면이 안나옵니다.

0

10

1

깃허브 레포지토리 확인 요청

0

21

2

Langchain 공식문서 학습 질문

0

25

2

나머지 강의는 언제 업로드되나요?

0

23

1

[참고] Cannot connect to host host.docker.internal:8080

0

27

2

40강 Multi GPU 필요성 설명이 두번 나오는 것 같아요

0

35

2

There are no longer any instances available with the requested specifications. Please refresh and try again.

0

57

2

버전에 3.11이랑 3.11.X 랑 차이가 있나요?

0

31

1

왜 파이썬 버전을 같게 해야하는가?

0

51

3

poetry 설정을 어떻게 해야하나요?

0

61

5

강의 수강 순서

0

54

1

import 오류

0

29

1

온톨로지 활용

0

55

2

누적입력에서 겹치는 방식으로 넘어간 이유

0

89

2

인증 하는 방법

0

89

2

7장 3절 이후는 언제 올리나요?

0

83

3

2.2 텍스트 토큰화 하기 강의 질문

0

62

1

Chapter1에서 말하는 "모델"이 정확히 어떤건가요?

0

66

2

챌린지 쿠폰 재 발급 가능 여부 확인 드립니다.

0

85

3

gpt_download 관련 오류 질의입니다.

0

77

2

책관련 질문입니다.

0

67

2

챕터 4 밑바닥부터 GPT 모델 구현하기 강의 업로드 문의드립니다.

0

91

2

슬라이딩 윈도우를 위해 for Loop 만들시 stride 관련 질문

0

110

2