작성
·
41
0
X_train, y_train fit 학습 시
rf.fit(X_tr[cols], y_tr)
이렇게 되어있으면 X_tr[cols]의 첫행과 y_tr의 첫행이 매칭되면서 그 이후의 행들에 대한 데이터도 쭉 매칭되어 학습하고 이를 기반으로 test파일에 대해 예측을 하는 것이죠?
이게 X_train의 첫행
age fnlwgt education.num capital.gain capital.loss hours.per.week
34.0 177331 10 4386 0 40.0
이게 y_tr의 첫행
income
>50K
일 때
이런 매칭된 수많은 데이터 학습으로 'age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week' 값이 어떨 때, income의 값은 이렇더라는 데이터를 기반으로 값을 예측하는 것이 맞는건가요?
그래서 학습 시에 매칭이 되기위해 X_train과 y_train의 데이터 행 개수가 딱 맞아떨어져야 했던 것이죠?
답변