030_IMDB_movie_reviews.ipynb 파일에서 사용하는 train sentences 와 test sentences는 왜 둘다 25000으로 갯수가 똑같나요?

Question

안녕하세요. 수업 잘 듣고 있습니다. Sentiment analysis - IMDB - part1 수업자료에서 질문이 있습니다. 지금까지 머신러닝을 배워 일하다가 llm 모델을 사용하기 시작해서 수업을 듣고있는데, 보통 머신러닝에서는 training data의 비중이 test data보다 크잖아요. (0.75:0.25 / 0.8:0.2 등등). 그런데 이 파일에서 training sentence와 test sentence의 크기가 똑같던데, 대부분의 경우 같은건가요? 그렇다면 이유는 뭔가요?

YoungJea Oh · Answer

IMDB는 긍정적인 리뷰 12,500개와 부정적인 리뷰 12,500개, 총 25,000개의 리뷰로 구성된 훈련 세트와 같은 크기의 테스트 세트로 구성되어 있습니다. 동일한 크기의 훈련 및 테스트 데이터셋을 사용하면 모델의 성능을 정확하고 공정하게 평가할 수 있습니다. 특히 여러 모델을 비교 평가할 때 동일한 크기의 훈련 및 테스트 데이터셋을 사용하면 일관성 있고 공정한 비교가 가능합니다. 일반적으로 훈련 데이터셋이 테스트 데이터셋보다 큰 것이 좋지만, 데이터셋의 특성, 모델의 복잡성, 오버피팅과 언더피팅 문제 등 여러 요소를 고려하여 적절한 비율을 선택하는데, language model의 경우 25000 개의 data는 매우 적은 데이터이므로 오버피팅이 발생할텐데 예를 들어 45000 대 5000 으로 구분하여도 어차피 오버피팅이 될 수 밖에 없습니다 . 따라서, IMDB 데이터셋의 훈련 및 테스트 데이터 갯수가 동일한 것은 그 데이터셋의 특별한 경우이며, 이는 모든 데이터셋이나 프로젝트에서 일반적으로 적용되는 것은 아닙니다. 좋은 질문 감사합니다.

josohyun0520 · Answer

답변 감사합니다. 그렇다면 languag model에서 최적의 훈련데이터 갯수를 정하기 위해서는 어떤 방법을 써야하나요? 아니면 대략적으로 llm모델에서 데이터 양이 적다/많다 라고 말할 수 있는 갯수가 정해진게 있나요?