선생님 질문있습니다.

Question

선생님 강의 너무 잘듣고 있습니다..! 감성분석을 하다가 갑자기 문득 든 생각인데요. 어떤 특정한 텍스트가 많이 나오면 긍정 아니면 부정으로 분류예측을 수행하는데 만약 각 행의 label 값이 긍정, 부정의 총 count 값으로 나오면 어떤 분석법을 사용해야 하나요?? 그리고 긍정, 부정의 피처타입이 문자(좋아요, 싫어요 같이)로 되어있으면 원핫인코딩으로 인코딩 해도 될까요??

권 철민 · Answer

안녕하십니까, 지금 텍스트 분석 섹션을 학습하고 계신 중에 올려주신 건가요? 올려 주신 질문이 좋은 질문이긴 한데, 아이디어를 좀 더 다듬어서 질문을 다시 해주시면 좋을 것 같습니다. 1. 문서가 아니라 문서내의 각 행의 label값이 긍정 부정의 총 count라는 말씀이신가요? 음, 암튼 문서 또는 각 행의 label 값이 긍정, 부정의 총 count라면 train 역시 문서/각 행의 예측 label의 긍정 부정 총 count가 얼마인지를 나타내는 모델이 되어야 합니다. 회귀 모델이 되어야 할 것 같습니다만, 근데 긍정 부정의 총 count라는게 긍정과 부정을 다 합친 총 count인건지, 아님 긍정 count, 부정 count각각 건수가 몇개라는 건지요? 2. 긍정, 부정이 label이 아니라 피처 타입이라는 건가요? 피처면 feature vectorization을 적용하면 됩니다만, 굳이 또 원/핫 인코딩을 할 필요는 없을 것 같습니다.