• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

선생님 질문있습니다.

21.09.08 23:34 작성 조회수 110

0

선생님 강의 너무 잘듣고 있습니다..! 

감성분석을 하다가 갑자기 문득 든 생각인데요. 어떤 특정한 텍스트가 많이 나오면 긍정 아니면 부정으로 분류예측을 수행하는데

만약 각 행의 label 값이 긍정, 부정의 총 count 값으로 나오면 어떤 분석법을 사용해야 하나요?? 

그리고 긍정, 부정의 피처타입이 문자(좋아요, 싫어요 같이)로 되어있으면 원핫인코딩으로 인코딩 해도 될까요??

 

답변 1

답변을 작성해보세요.

0

안녕하십니까, 

지금 텍스트 분석 섹션을 학습하고 계신 중에 올려주신 건가요? 올려 주신 질문이 좋은 질문이긴 한데, 아이디어를 좀 더 다듬어서 질문을 다시 해주시면 좋을 것 같습니다.  

1. 문서가 아니라 문서내의 각 행의 label값이 긍정 부정의 총 count라는 말씀이신가요? 

음, 암튼 문서  또는 각 행의 label 값이 긍정, 부정의 총 count라면 train 역시 문서/각 행의  예측  label의 긍정 부정 총 count가 얼마인지를 나타내는 모델이 되어야 합니다. 회귀 모델이 되어야 할 것 같습니다만, 

근데 긍정 부정의 총 count라는게 긍정과 부정을 다 합친 총 count인건지, 아님 긍정 count, 부정 count각각 건수가 몇개라는 건지요? 

2. 긍정, 부정이 label이 아니라 피처 타입이라는 건가요? 피처면 feature vectorization을 적용하면 됩니다만, 굳이 또 원/핫 인코딩을 할 필요는 없을 것 같습니다.  

co choi님의 프로필

co choi

질문자

2021.09.09

각각의 conunt를 뜻합니다!

긍정, 부정 각각의 count를 구하기를 원하시는 건가요? 그럼, 회귀 모델로 해야 합니다. 

다만 사이킷런 회귀 모델은 최종 예측이 하나의 연속형 값으로만 나와야 합니다. 때문에 2개의 결과 값을 예측 값으로 도출하려면 keras와 같은 framework으로 두개의 회귀 layer를 만들어서 예측해야 합니다.