작업형 2유형에서 질문 드립니다.

Question

안녕하세요. 작업형 2유형에서 강의 주신 범위에서는 train과 test가 주어지던가 X train, Y train, X test로 주어지는 두 가지 방향에 대해서 말씀 해주셨는데요. 만약 train data 한 개만 주어지는 경우도 생길까요? 이러한 경우, x_train, y_train, x_test, y_test를 각각 나누어 예측 및 분류 모형을 만들 수 있도록 data partition 코드 설명 가능 할까요?

companionclub · Answer

train에는 x_test도 제외해야 합니다. 어차피 x_test에는 y_test가 없어서 모델이 동작하지 않습니다. 예측변수가 없으니깐요. 전처리를 하고 데이터파티션을 하는 것을 추천드립니다!

companionclub · Answer

안녕하세요. 말씀하신대로 Data가 분할되지 않고 합쳐질 경우도 있을 것 같습니다. 그래서 강의 중에 그 부분에 대해서도 설명을 드렸는데요. 아무래도 Python으로도 시험을 볼 수 있기 때문에 아예 한개의 데이터 셋으로 주기 힘듭니다. 그리고 데이터파티션도 랜덤하게 샘플링되기 때문에 모두가 같은 데이터로 모델 평가가 불가능합니다. 따라서 그렇게 데이터를 줄 가능성이 희박합니다. 만약에 굳이 시험을 그렇게 낸다면 예를들어 150개의 Row를 가진 데이터를 주고 100Row까지는 Train, 나머지는 Test로 나누어서 사용하라고 할 것 같습니다. 모든사람들이 동일한 데이터를 가지기 위해서 말이죠. 그럴경우 출제예상 텍스트 파일에 있는 작업형1유형의 2번문제의 스크립트를 활용하시면 됩니다. iris 데이터 간단히 예를들면, df <- iris X_train <- df[c(1:100),c(1:4)] Y_train <- df[c(1:100),5] X_test <- df[c(1:101:150),c(1:4)] 위와 같이 데이터파티션이 가능할 것 같습니다. 가장 원시적으로 코딩해야 시험에서 헷갈리거나 실수할 확률이 적기 때문에 직접 숫자를 입력하는 것을 추천드립니다. 또한 모델 학습을 위해 X_train과 Y_train은 합쳐야하니 train_data <- cbind(X_train, Species = Y_train) 위와 같이 명령하면 원래 데이터로 학습할 수 있을 것 같습니다. 그럼 좋은하루되십시오!