inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모델링 및 평가(분류)

모델링 및 평가(분류) 강의에서

해결된 질문

212

뚜디니

작성한 질문수 13

0

아래 보시면 학습용 데이터와 검증용 데이터로 구분하는 것은 이해가 되는데, y부터 마지막까지의 식이 왜 나오는지 이해가 안됩니다...다시 설명 부탁드립니다.

# 학습용 데이터와 검증용 데이터로 구분
from sklearn.model_selection import train_test_split
y = (y_train['income'] == '>50K').astype(int)
X_tr, X_val, y_tr, y_val = train_test_split(X_train, y, test_size=0.1, random_state=2000)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

문자를 0과 1로 변환하기 위해 사용했어요!

y는

'income'이 '>50K'인 경우 1,

그렇지 않은 경우 0인 이진(target) 변수로 변환하기 위해 작성한 코드에요

 

그럼 무조건 문자일때 변경해야 하느냐?

아니요!

모델 학습까지는 변환하지 않더라도 정상 작동 됩니다.

선택의 문제인데

일부 평가지표에서 추가적인 설정이 필요할 때가 있어 0과 1로 변환했습니다. (타겟이 문자일 때 평가지표 강의 영상 확인 요청)

 

어떤 의미냐?

1 조건: y_train['income'] == '>50K' -> True 또는 False가 나옴

2 자료형 변경: .astype(int) -> 논리 연산의 결과(True/False)를 정수형(int)으로 변환 True 1, False0

 

기출에서 사용된적 있냐?

없습니다. 어렵다면 일단은 패스하고 넘어가주세요!

난이도가 올라갔을 때를 가정했습니다.

질문 드립니다.

0

38

2

강의 내용 관련 질문드립니다~

0

34

2

수강 연장 문의

0

32

1

강의자료 일괄 다운로드

0

41

2

수강기간 연장 문의드립니다

0

28

1

list 문제 질문드립니다~

0

28

2

빅분기 실기 12회 재도전

0

39

1

강의 기간 연장 가능여부 검토 요청건

0

30

1

수강기간 연장 문의 드립니다

0

36

2

수강기간 연장 문의드립니다

0

47

2

질문이요

0

51

2

수강기간 연장 문의드립니다.

0

50

2

문제 3-2 질문드립니다

0

43

2

수강기간 연장 문의 드립니다.

0

58

2

변수, 칼럼 , df 구분

0

49

2

수강기간 연장 문의드립니다.

0

49

2

수강기간 연장 문의

0

48

2

수강기간 연장 문의드립니다.

0

40

2

수강기한 연장 문의

0

79

2

수강기간 연장 문의드립니다

0

57

2

결정트리에서 적절한 깊이 선택 후 시각화 과정에서 학습 데이터만 사용하는 이유

0

44

2

수강기간 연장 문의드립니다.

0

70

2

수강연장 문의

0

76

2

수강연장문의

0

53

2