Inflearn Community Q&A
사이킷런-타이타닉 예측 스케일링 질문드립니다.
Written on
·
283
0
"사이킷런" 섹션 마지막 파트 타이타닉 실습에서 코드를 입력해보니 이렇게 알고리즘 별 정확도가 출력이 되긴 하지만, 밑에 빨간색으로 data를 스케일하라고 뜹니다. (밑에 이미지 첨부) 이 실습이 그 전에 배웠던 '사이킷런' 학습 과정을 적용해보는 것인데 스케일링은 적용을 안해서 그런지 오류가 나는 것 같습니다.
그래서 제가 그냥
X_scaled = preprocessing.scale(X_train)
를 추가하고, X_train들을 x_scaled라고 바꿔서 알고리즘을 다시 시행해 본 결과 빨간 오류 표시 없이 결과가 잘 나오는데,
대신 정확도가 급격하게 떨어졌습니다.
DecisionTreeClassifier 정확도: 0.3743 RandomForestClassifier 정확도:0.6592 LogisticRegression 정확도: 0.6592
라고 나오네요...
1. 이렇게 스케일링을 하는 것이 맞나요?
2. 정확도가 왜 떨어지나요?
python통계머신러닝 배워볼래요?
Answer 1
0
dooleyz3525
Instructor
안녕하십니까,
해당 내용은 오류가 아니라 warning이라 수행에 큰 영향은 없습니다. 다만 사이킷런이 버전 upgrade되면서 LogiticRegression의 초기화 알고리즘이 변경이 되어서 warning이 발생했습니다. 해당 warning 을 무시하고 진행해도 문제 없으며 warning을 없애실려면 LogisticRegression(max_iter=150) 으로 수정해서 해보시지요. 그래도 warning이 나오면 max_iter를 더 증가해 주십시요.
감사합니다.





