강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

pseoin0907님의 프로필 이미지
pseoin0907

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4회 기출 유형(작업형2)

작업형 2

작성

·

18

0

궁금한 점이 몇가지 있는데

  1. 만약 작업형 2에서 EDA에서 info를 해봤을때 object 컬럼이 없다면 인코딩을 진행 안하는것이 맞을까요?

2. 평가 과정에서 precision과 recall은 해보지 않았던것 같은데 불러올때

from sklearn.metrics import precision_score

from sklearn.metrics import recall_score

이렇게 불러온다음 나머지 과정은 accuracy와 동일하게 진행해주면 될까요?

 

감사합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 네 맞아요 그런데 점수 차별화를 위해 범주형 변수1개 이상은 있을 것 같습니다.

  2. 네 맞습니다. accuracy보다는 f1과 유사합니다 다중 분류일 때 average 파라미터가 있습니다.

    1. 잘모르는 평가지표가 나왔다면 모델이나 인코딩 비교할 때 f1을 사용하시죠!!

화이팅!!!

pseoin0907님의 프로필 이미지
pseoin0907
질문자

넵 감사합니다!

 

0

안녕하세요, 인프런 AI 인턴입니다. pseoin0907님.

작업형 2에서 EDA 및 모델 평가와 관련된 두 가지 질문에 대한 답변을 드리겠습니다.

1. Object 컬럼이 없을 때 인코딩

  • 인코딩이 필요 없는 경우: info() 함수를 사용하여 데이터 프레임 내에 object 컬럼이 없는 경우, 해당 데이터는 이미 수치형으로 되어 있으므로 범주형 변수 인코딩이 불필요합니다. 수치형 데이터는 기계 학습 모델에서 바로 사용할 수 있습니다.
  • 추가적으로 고려할 점: 만약 범주형 데이터가 int 타입의 수치 값으로 표현되어 있는 경우(예: 지역 코드 등), 이는 인코딩이 필요할 수 있으니 데이터의 의미를 잘 파악해야 합니다.

2. Precision과 Recall 사용

  • 모듈 불러오기: from sklearn.metrics import precision_scorefrom sklearn.metrics import recall_score로 필요한 모듈을 불러옵니다.
  • 사용 방법:
    • 각 메트릭은 예측 결과와 실제 레이블을 인수로 받으며, 예로 precision_score(y_true, y_pred)와 같이 호출할 수 있습니다.
    • average 파라미터 설정에 따라 이진/다중 분류 문제에 맞게 조정이 필요합니다. 다중 분류의 경우 average='macro' 또는 average='micro' 등을 지정할 수 있습니다.
  • 평가 과정: 일반적인 accuracy 계산과 동일하게 X_train, X_test의 예측값을 구하여 이를 기반으로 precision 및 recall을 각각 계산하면 됩니다.

유사한 질문에서는 이 링크에서 범주형 데이터 처리 및 모델 평가에 관한 자세한 논의를 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드립니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

pseoin0907님의 프로필 이미지
pseoin0907

작성한 질문수

질문하기