inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

[4/4] 랜덤포레스트로 영화 감성 예측 평가 ROC / AUC

sentiment 가 0과 1이 아닌 1~5점 일 경우?

807

Seungman Baek

작성한 질문수 2

1

안녕하세요. 좋은 강의 감사드립니다. 

코드를 따라가며 실행해보고 있는데 , sentiment 값이 0과 1이 아닌 5점척도 인 경우 어느 부분일 수정해야하는지요?

우선 아래의 코드 실행시 아래와 같은 오류가 발생합니다. 

from sklearn.model_selection import cross_val_score

%time score = np.mean(cross_val_score(\
    forest, train_data_features, \
    train['rating'], cv=10, scoring='roc_auc'))
score
=> error : multiclass format is not supported
강의 전체가 0과 1인 경우만을 기준으로 진행되는데 5점척도인 경우 차원이 많아져 분석이 어려운 건지요?
감사합니다.

python NLP

답변 1

1

박조은

안녕하세요.

보통 분류를 할 때 0,1 둘 중에 하나로 분류를 하면 binary  classification 이라고 하는데요. 

미리 정의된 roc_auc 는 주로 binary 에 사용을 해요.

질문 주신 내용을 class가 5개인 경우인데요.

아래의 방법으로 레이블을 binarizer 해서 사용하는 방법을 사용해 보시면 될거 같아요.

아래 함수를 주피터 노트북에 써주시고 scoring='roc_auc' 대신에  scoring=multiclass_roc_auc_score 로 사용해 보세요.

def multiclass_roc_auc_score(y_test, y_pred, average="macro"):lb = LabelBinarizer()
lb.fit(y_test)
y_test = lb.transform(y_test)
y_pred = lb.transform(y_pred)
return roc_auc_score(y_test, y_pred, average=average)

또, 아래의 링크를 참고해 보세요!

[AUC ROC Curve Scoring Function for Multi-class Classification](https://medium.com/@plog397/auc-roc-curve-scoring-function-for-multi-class-classification-9822871a6659)

word2vec 질문

0

305

1

질문 드립니다

0

325

1

%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)

0

329

2

한국어 텍스트 분석과 영어 텍스트 분석의 차이

0

551

1

코랩 실습 링크 파일 다시 올려주시면 안되나요?

0

465

1

강의 자료는 어디서 받을 수 있나요?

0

350

1

data폴더안에 tsv파일이 없다고 나오는데 어떻게 해야하나요?

1

718

4

젠심

1

385

1

질문드립니다

1

232

1

질문드립ㄴ디ㅏ

1

409

3

질문드립니다

1

335

2

word2vec 실행 오류

1

382

1

gensim 4.0 버전 문제

1

2173

1

멀티 프로세싱 오류 질문입니다

1

1099

1

1-2 NLP 텍스트 데이터 처리 오류 관련 질문드립니다.

1

352

1

1강 질문드립니다.

1

235

1

질문드립니다.

1

428

2

질문드립니다.

1

210

1

id 말고 어떤 영화인지는 어떻게 알수있을까요?

1

281

1

[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리

1

481

1

has no attribute 'syn0'

2

324

1

영상 "섹션1. [2/4] NLP 텍스트 데이터 전처리" 부분에 대해 질문 있습니다!

1

311

5

wget 오류

1

781

1

html5lib 과 lxml 에서 모두 에러가 발생하고 있습니다.

1

528

1