인프런 커뮤니티 질문&답변
X_test 데이터셋 전처리 질문
작성
·
172
0
안녕하세요,
X_test 데이터는 X_train과 y_train을 합친 Train 데이터셋과 동일하게 칼럼을 만들어야 한다고 이해했습니다.
혹시, X_test 데이터에 NA 값이 있어 전처리를 진행할때, 해당 칼럼을 삭제하거나 대체하지 않고 row 데이터를 삭제할 순 없나요?
Test 데이터셋은 행 삭제를 하면 안된다고 들어서요..
감사합니다.
답변 1
0
companionclub
지식공유자
안녕하세요.
X_test 데이터는 X_train데이터와 동일하기 때문에 y_train까지 포함해서 합치려면
y_test를 강제로 만들어서 합쳐주셔야 합니다. (변수하나 생성)
하지만, 시험에서는 그럴필요는 없다고 판단됩니다. (X_train과 X_test만 합쳐도 무방)
X_test의 row를 삭제하시면 안됩니다.
시험결과 파일은 각 row별 확률을 제출하는 것이기 때문에 (혹은 예측값),
만약 row를 지우시면 0점이 될수도 있습니다. 그 점 유념하셔서 절대 지우지마시고 연습하시길 권장드립니다.





