강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

차재훈님의 프로필 이미지
차재훈

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

X_test 데이터셋 전처리 질문

작성

·

172

0

안녕하세요,

 

X_test 데이터는 X_train과 y_train을 합친 Train 데이터셋과 동일하게 칼럼을 만들어야 한다고 이해했습니다.

 

혹시, X_test 데이터에 NA 값이 있어 전처리를 진행할때, 해당 칼럼을 삭제하거나 대체하지 않고 row 데이터를 삭제할 순 없나요?

 

Test 데이터셋은 행 삭제를 하면 안된다고 들어서요..

 

 

감사합니다.

답변 1

0

companionclub님의 프로필 이미지
companionclub
지식공유자

안녕하세요.

X_test 데이터는 X_train데이터와 동일하기 때문에 y_train까지 포함해서 합치려면

y_test를 강제로 만들어서 합쳐주셔야 합니다. (변수하나 생성)

하지만, 시험에서는 그럴필요는 없다고 판단됩니다. (X_train과 X_test만 합쳐도 무방)

 

X_test의 row를 삭제하시면 안됩니다.

시험결과 파일은 각 row별 확률을 제출하는 것이기 때문에 (혹은 예측값),

만약 row를 지우시면 0점이 될수도 있습니다. 그 점 유념하셔서 절대 지우지마시고 연습하시길 권장드립니다.

차재훈님의 프로필 이미지
차재훈

작성한 질문수

질문하기