• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    해결됨

강의 4:02 부분 vectorizer 질문

23.03.24 00:13 작성 조회수 253

0

안녕하세요 선생님. 먼저 좋은 강의 감사합니다.

다름이 아니라, feature vectorization 부분 관련 질문이 있어 이렇게 글을 씁니다.

강의 4분 정도에 name은 CountVectorizer를 쓰고 item_description은 상대적으로 길어서 TfidfVectorizer를 쓴다고 하셨는데,

그렇다면 해당 데이터셋이 아닌 다른 데이터셋에 적용할 때도 컬럼의 길이가 상대적으로 짧으면 CountVectorizer, 상대적으로 길면 TfidfVectorizer를 써야된다고 이해를 해도 괜찮을걸까요?

감사합니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까,

네, 그렇게 이해하셔도 될 것 같습니다.

100% 그렇다고는 할수 없지만, 전반적으로 문자열이 긴 경우 Count보다는 TF-IDF가 좀 더 성능이 좋습니다.

감사합니다.

최원빈님의 프로필

최원빈

질문자

2023.03.24

확인 감사합니다!