인프런 커뮤니티 질문&답변

하지호

작성한 질문수

<밑바닥부터 만들면서 배우는 LLM> 완독 챌린지

(유튜브) 도서 소개

p63 질문

해결된 질문

작성

안녕하세요.

교재 63페이지에 “다음으로 조금 더 흥미로운 텍스트 구절을 만들기 위해 데이터셋에 있는 처음 50개 토큰을 삭제합니다.”라는 문장이 있습니다.

이때 ‘흥미로운’이라는 표현이 어떤 의미를 가지는지, 그리고 텍스트를 더 흥미롭게 만들기 위해 앞의 50개 토큰을 삭제하는 이유가 무엇인지 궁금합니다.

또한 다른 LLM 모델에서도 이와 같은 전처리 과정을 수행하는지, 만약 수행한다면 그 이유가 궁금합니다.

감사합니다.

pytorch gpt-2 self-attention transformer llm

답변 2

박해선

지식공유자

안녕하세요. 박해선입니다. 저자가 소설 앞의 50개 토큰을 건너 뛴 것은 순전히 임의적입니다. 여기에 특별한 의미가 있지는 않아요. 아마도 이 소설의 시작 부분에 사람 이름이 등장하기 때문에 예시를 들기가 어색하다고 생각했을 수 있습니다. 실제로 5장에서 모델을 훈련할 때는 처음부터 전체 데이터를 사용합니다. 감사합니다! 🙂

하지호

질문자

답변 감사합니다. 😄

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 하지호님.

질문해 주신 부분에 대해 안내드리겠습니다.

교재에서 언급된 “흥미로운 텍스트 구절”이라는 표현은 모델이 학습하면서 주로 예상 가능한 내용이나 여백 없이 단순한 정보를 제거하고, 보다 창의적이거나 의미 있는 텍스트를 생성할 수 있도록 데이터의 일부를 변화시키는 과정을 의미합니다. 이는 텍스트 데이터에서 종종 불필요하거나 지나치게 반복적인 패턴을 제거하여 모델이 더 다양한 패턴과 문장구조를 학습할 수 있도록 도와주는 방법입니다.

초기 50개의 토큰을 삭제하는 이유는 이러한 중복되거나 예측 가능한 시퀀스를 줄여 모델이 학습 과정에서 다양한 상황을 다루도록 돕게 하기 위함입니다. 이는 자연어 처리 작업에서 모델이 반복적인 학습 대신 다양한 정보를 습득하길 기대하는 전략 중 하나입니다.

다른 대형 언어 모델(LLM)에서도 이런 전처리 과정이 종종 사용됩니다. 특히, 학습 데이터를 준비할 때 모델의 성과를 극대화하기 위해 데이터 내의 중복성을 줄이거나, 모델의 창의성을 촉진하기 위한 다양한 전처리 방식을 사용합니다.

관련된 정보를 찾을 수 있는 기존 답변 링크는 아래와 같습니다:

(Inflearn) 슬라이딩 윈도우를 위해 for Loop 만들시 stride 관련 질문

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

하지호

작성한 질문수

전체 Q&A

질문하기