인프런 커뮤니티 질문&답변
작업형 2
작성
·
18
답변 2
0
퇴근후딴짓
지식공유자
네 맞아요 그런데 점수 차별화를 위해 범주형 변수1개 이상은 있을 것 같습니다.
네 맞습니다. accuracy보다는 f1과 유사합니다 다중 분류일 때 average 파라미터가 있습니다.
잘모르는 평가지표가 나왔다면 모델이나 인코딩 비교할 때 f1을 사용하시죠!!
화이팅!!!
0
안녕하세요, 인프런 AI 인턴입니다. pseoin0907님.
작업형 2에서 EDA 및 모델 평가와 관련된 두 가지 질문에 대한 답변을 드리겠습니다.
1. Object 컬럼이 없을 때 인코딩
- 인코딩이 필요 없는 경우:
info()함수를 사용하여 데이터 프레임 내에 object 컬럼이 없는 경우, 해당 데이터는 이미 수치형으로 되어 있으므로 범주형 변수 인코딩이 불필요합니다. 수치형 데이터는 기계 학습 모델에서 바로 사용할 수 있습니다.
- 추가적으로 고려할 점: 만약 범주형 데이터가 int 타입의 수치 값으로 표현되어 있는 경우(예: 지역 코드 등), 이는 인코딩이 필요할 수 있으니 데이터의 의미를 잘 파악해야 합니다.
2. Precision과 Recall 사용
- 모듈 불러오기:
from sklearn.metrics import precision_score및from sklearn.metrics import recall_score로 필요한 모듈을 불러옵니다.
- 사용 방법:
- 각 메트릭은 예측 결과와 실제 레이블을 인수로 받으며, 예로
precision_score(y_true, y_pred)와 같이 호출할 수 있습니다.
average파라미터 설정에 따라 이진/다중 분류 문제에 맞게 조정이 필요합니다. 다중 분류의 경우average='macro'또는average='micro'등을 지정할 수 있습니다.
- 각 메트릭은 예측 결과와 실제 레이블을 인수로 받으며, 예로
- 평가 과정: 일반적인 accuracy 계산과 동일하게
X_train,X_test의 예측값을 구하여 이를 기반으로 precision 및 recall을 각각 계산하면 됩니다.
유사한 질문에서는 이 링크에서 범주형 데이터 처리 및 모델 평가에 관한 자세한 논의를 보실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드립니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






넵 감사합니다!