-
카테고리
-
세부 분야
딥러닝 · 머신러닝
-
해결 여부
해결됨
강의 4:02 부분 vectorizer 질문
23.03.24 00:13 작성 조회수 253
0
안녕하세요 선생님. 먼저 좋은 강의 감사합니다.
다름이 아니라, feature vectorization 부분 관련 질문이 있어 이렇게 글을 씁니다.
강의 4분 정도에 name은 CountVectorizer를 쓰고 item_description은 상대적으로 길어서 TfidfVectorizer를 쓴다고 하셨는데,
그렇다면 해당 데이터셋이 아닌 다른 데이터셋에 적용할 때도 컬럼의 길이가 상대적으로 짧으면 CountVectorizer, 상대적으로 길면 TfidfVectorizer를 써야된다고 이해를 해도 괜찮을걸까요?
감사합니다.
답변을 작성해보세요.
0
권 철민
지식공유자2023.03.24
안녕하십니까,
네, 그렇게 이해하셔도 될 것 같습니다.
100% 그렇다고는 할수 없지만, 전반적으로 문자열이 긴 경우 Count보다는 TF-IDF가 좀 더 성능이 좋습니다.
감사합니다.
답변 1