• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

5회 기출유형 작업2

23.11.17 14:20 작성 조회수 112

0

4회 기출유형 작업형 2에서는 train_test_split을 사용안했는데여기서는 왜 사용하는 걸까요?

 

train_test_split을 사용할때와 안할때가 궁금합니다

  • 원핫인코딩과 라벨인코딩 두개를 =어떨때 써야하는지도 궁금합니다

그리고 Y_tr 에 price를 넣으신 이유가 있으실까요

 

ps. 매번 친절하게 답변해주셔서 감사합니다

답변 1

답변을 작성해보세요.

0

train_test_split 사용 여부

필수가 아니에요~!! 모델을 평가해보고 싶다면 사용할 수 있습니다.

만약 레이블 인코딩이나 원핫인코딩을 비교하고 싶다면 사용이 필요합니다.

정말 긴급히 준비하는 사람에게는 없이 제출하라고 알려드리기도 했어요!

 

원-핫 인코딩 또는 라벨 인코딩

은 범주형 object 자료형이 있다면 반드시 사용해야 합니다.

편한 방법을 사용해주세요! 둘 다 성능을 비교해봐도 좋아요.

 

y_tr에 price가 있는 것은

train_test_split 를 사용하면서 검증데이터와 분할했을 때 들어갔어요

학습 데이터가 80%, 검정데이터가 20%으로 분리 했다면

y_tr에는 80%의 price값이 들어있습니다.

감사합니다 :)