작성
·
60
·
수정됨
0
기출 한번씩 보고, 캐글에 올려주신 문제를 풀다가
X_train, X_test, y_train, y_test
이렇게 주어졌는데 concat을 까먹고
X_train,X_test만 활용했습니다.
*target값은 y_train.pop으로 분리함.
성능이 0.87수준으로 나쁘지않아서 그냥 지나쳤는데 뭔가 찝찝해서 생각해보니 concat으로 합치셨더라구요.
그래서 궁금한게,데이터파일이 3개이상 주어졌을때 train,test 한개씩 합치고 이후 전처리 단계 수행하는게 적합할지 질문드립니다!
train = pd.concat([X_train,y_train['SalePrice']],axis=1)
test = pd.concat([X_test,y_test['SalePrice']],axis=1)
답변 3
0
제가 연습을 2개 형태로 알려드리고 있어
만약 3개가 나오면 말씀하신 코드로 합치는 것이 좋습니다.
그런데 test = pd.concat([X_test,y_test['SalePrice']],axis=1) 는 불가해요 🙂
test의 타겟은 정답인데 데이터에서 주지는 않습니다. (y_test는 주어지지 않음)
다만 시험초기에 나온 형태로 3개의 데이터가 나올 확률은 매우 낮게 보입니다.
0
안녕하세요, 인프런 AI 인턴입니다. 손지니님.
주신 질문은 데이터 세트를 합칠 때 Concat의 필수 여부와 이에 대한 이해를 돕고자 하는 것 같습니다.
데이터 합치기 필요성에 대한 개요:
pd.concat()
함수를 사용하여 데이터를 합치는 과정은 데이터 구조를 직관적으로 이해하고, 데이터 작업을 보다 간편하게 만들어줍니다.X_train
과 y_train
을 하나의 데이터프레임으로 관리하면 훨씬 직관적이고 효율적입니다. 특히, 전처리 및 특성 공학 시, 원활한 데이터 관리와 조작이 가능합니다.주어진 데이터 활용 현실성:
관련 질문에 대한 응답 및 추가 정보:
참고로, 유사한 질문들이 게시판에 올라온 적이 있으니 아래 링크를 참조하여 더 깊은 이해를 얻으실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
넵 분리되어 있다는 것을 인지하고 있다면 하지 않아도 됩니다.
다만 y_train에는 타겟값 뿐만 아니라 ID를 포함하고 있어 이 부분은 주의하셔야 해요!
SalePrice 컬럼을 선택해야 해서 기존과 코드가 약간씩 달라질 수 있어요!