inflearn logo
강의

講義

知識共有

<밑바닥부터 만들면서 배우는 LLM> 解説講義

(YouTube) 3.2 アテンションメカニズムで依存性を捉える

바흐다나우 어텐션을 시작하게 된 이유가 궁금해요!

55

geonc1235780

投稿した質問数 1

0

바흐다나우 어텐션에서 모든 입력 토큰을 참조하는 이유와 그로인한 바흐다나우 어텐션 장점이 무엇인지 궁금해요!

찍어주신 강의에서는 아래와 같이 정리해볼 수 있었는데요, 어떤 장점이 있는지 궁금해서 질문드립니다!

 

- 방법 : 출력 토큰을 생성할 때, 모든 입력 토큰을 참조하고, 입력 토큰별로 중요도를 기록한다.

- 단점 : 토큰양이 많아질 수록 저장공간 문제가 발생한다.

- 단점으로 인한 제약 : 입력 텍스트 길이에 제한이 발생한다.

 

좋은 강의 감사합니다.

 

pytorch gpt-2 transformer llm fine-tuning

回答 2

0

geonc1235780

답변해주셔서 감사합니다 🙇‍♂

어텐션 시작이 입력된 모든 토큰을 참조한다고 말씀해주신 부분 덕분에 이해가 됐습니다. 좋은 강의 감사합니다.

0

haesunpark

안녕하세요. 네, 말씀하신 내용이 모두 맞습니다. 어텐션은 지금까지 입력된 토큰을 모두 참조합니다. 이는 순환 신경망에서 이전 토큰에 대한 기억이 흐려지는 문제를 해결하기 위해서 고안되었습니다. 하지만 이로 인해 메모리 공간이 늘어나고 입력 길이에 제한이 생깁니다. 어떤 기술이 등장해서 이전 기술의 단점을 보완하지만 완벽한 것은 없다보니 새로운 다른 단점이 있는거죠. 하지만 이런 단점에도 불구하고 어텐션은 텍스트 생성에 압도적인 성능을 냅니다. 또한 컴퓨팅 성능과 모델의 규모가 커지면서 저장 공간과 입력 길이 제한은 점점 더 장벽이 되지 않는 것 같습니다. 감사합니다!

무료할당량 사용하는데 문제가 생겼습니다.

0

11

1

섹션2-11 내용중 tool_call

0

22

2

max token을 제한하는게 왜 성능을 개선하게 되는걸까요?

0

29

2

20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.

0

17

1

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?

0

25

1

gradio 를 통한 챗봇 인터페이스 실습이 진행되지 않습니다.

0

45

1

전 강의와 전혀 이어지지가 않음

0

26

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

33

3

pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다

0

20

1

모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?

0

29

2

Unauthorized 에러

0

40

2

파워쉘에서 패키지 설치 시 오류

0

37

2

강의 영상 오류

0

53

1

소득세법 docx 파일 공유 요청건

0

60

1

누적입력에서 겹치는 방식으로 넘어간 이유

0

81

2

인증 하는 방법

0

82

2

7장 3절 이후는 언제 올리나요?

0

69

3

2.2 텍스트 토큰화 하기 강의 질문

0

55

1

Chapter1에서 말하는 "모델"이 정확히 어떤건가요?

0

51

2

챌린지 쿠폰 재 발급 가능 여부 확인 드립니다.

0

74

3

gpt_download 관련 오류 질의입니다.

0

68

2

책관련 질문입니다.

0

57

2

챕터 4 밑바닥부터 GPT 모델 구현하기 강의 업로드 문의드립니다.

0

81

2

슬라이딩 윈도우를 위해 for Loop 만들시 stride 관련 질문

0

90

2