선생님 질문있습니다.

Question

선생님 강의 너무 잘듣고 있습니다..!

감성분석을 하다가 갑자기 문득 든 생각인데요. 어떤 특정한 텍스트가 많이 나오면 긍정 아니면 부정으로 분류예측을 수행하는데

만약 각 행의 label 값이 긍정, 부정의 총 count 값으로 나오면 어떤 분석법을 사용해야 하나요??

그리고 긍정, 부정의 피처타입이 문자(좋아요, 싫어요 같이)로 되어있으면 원핫인코딩으로 인코딩 해도 될까요??

Answer

안녕하십니까,

지금 텍스트 분석 섹션을 학습하고 계신 중에 올려주신 건가요? 올려 주신 질문이 좋은 질문이긴 한데, 아이디어를 좀 더 다듬어서 질문을 다시 해주시면 좋을 것 같습니다.

1. 문서가 아니라 문서내의 각 행의 label값이 긍정 부정의 총 count라는 말씀이신가요?

음, 암튼 문서 또는 각 행의 label 값이 긍정, 부정의 총 count라면 train 역시 문서/각 행의 예측 label의 긍정 부정 총 count가 얼마인지를 나타내는 모델이 되어야 합니다. 회귀 모델이 되어야 할 것 같습니다만,

근데 긍정 부정의 총 count라는게 긍정과 부정을 다 합친 총 count인건지, 아님 긍정 count, 부정 count각각 건수가 몇개라는 건지요?

2. 긍정, 부정이 label이 아니라 피처 타입이라는 건가요? 피처면 feature vectorization을 적용하면 됩니다만, 굳이 또 원/핫 인코딩을 할 필요는 없을 것 같습니다.