바흐다나우 어텐션을 시작하게 된 이유가 궁금해요!

Question

바흐다나우 어텐션에서 모든 입력 토큰을 참조하는 이유 와 그로인한 바흐다나우 어텐션 장점이 무엇인지 궁금해요! 찍어주신 강의에서는 아래와 같이 정리해볼 수 있었는데요, 어떤 장점이 있는지 궁금해서 질문드립니다!   - 방법 : 출력 토큰을 생성할 때, 모든 입력 토큰을 참조하고, 입력 토큰별로 중요도를 기록한다. - 단점 : 토큰양이 많아질 수록 저장공간 문제가 발생한다. - 단점으로 인한 제약 : 입력 텍스트 길이에 제한이 발생한다.   좋은 강의 감사합니다.

geonc1235780 · Answer

답변해주셔서 감사합니다 🙇‍♂ 어텐션 시작이 입력된 모든 토큰을 참조한다고 말씀해주신 부분 덕분에 이해가 됐습니다. 좋은 강의 감사합니다.

haesunpark · Answer

안녕하세요. 네, 말씀하신 내용이 모두 맞습니다. 어텐션은 지금까지 입력된 토큰을 모두 참조합니다. 이는 순환 신경망에서 이전 토큰에 대한 기억이 흐려지는 문제를 해결하기 위해서 고안되었습니다. 하지만 이로 인해 메모리 공간이 늘어나고 입력 길이에 제한이 생깁니다. 어떤 기술이 등장해서 이전 기술의 단점을 보완하지만 완벽한 것은 없다보니 새로운 다른 단점이 있는거죠. 하지만 이런 단점에도 불구하고 어텐션은 텍스트 생성에 압도적인 성능을 냅니다. 또한 컴퓨팅 성능과 모델의 규모가 커지면서 저장 공간과 입력 길이 제한은 점점 더 장벽이 되지 않는 것 같습니다. 감사합니다!