강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

JeHeon Park님의 프로필 이미지
JeHeon Park

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

텍스트 분류 - 20 Newsgroup 분류 실습 - 01

9:30~ 질문있습니다.

해결된 질문

작성

·

132

0

벡터라이저의 fit (train data)을 통해서 매트릭스의 피쳐갯수를 정해준후에 그 벡터라이저에 다시 test셋을 transform 시킨다고 하셨는데.

1. 그 안에 피쳐들은 train data안에서 볼 수 있는 단어들로만 구성된건가요?

2. 그렇다면 test data 안에서 새로볼 수 있는 단어들은 그 피쳐프레임에서 무시 되는건가요?

항상 감사드립니다!

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

네, 둘다 맞습니다. train 데이터로만 feature vectorized 되어 있고, transform() 수행하면 test 데이터에만 있는 새로운 단어들은 무시 됩니다.

감사합니다.

JeHeon Park님의 프로필 이미지
JeHeon Park

작성한 질문수

질문하기