train, test가 3개 이상 주어질때 concat 필수여부
102
작성한 질문수 7
기출 한번씩 보고, 캐글에 올려주신 문제를 풀다가
X_train, X_test, y_train, y_test
이렇게 주어졌는데 concat을 까먹고
X_train,X_test만 활용했습니다.
*target값은 y_train.pop으로 분리함.
성능이 0.87수준으로 나쁘지않아서 그냥 지나쳤는데 뭔가 찝찝해서 생각해보니 concat으로 합치셨더라구요.
그래서 궁금한게,데이터파일이 3개이상 주어졌을때 train,test 한개씩 합치고 이후 전처리 단계 수행하는게 적합할지 질문드립니다!
train = pd.concat([X_train,y_train['SalePrice']],axis=1)
test = pd.concat([X_test,y_test['SalePrice']],axis=1)
답변 3
0
제가 연습을 2개 형태로 알려드리고 있어
만약 3개가 나오면 말씀하신 코드로 합치는 것이 좋습니다.
그런데 test = pd.concat([X_test,y_test['SalePrice']],axis=1) 는 불가해요 🙂
test의 타겟은 정답인데 데이터에서 주지는 않습니다. (y_test는 주어지지 않음)
다만 시험초기에 나온 형태로 3개의 데이터가 나올 확률은 매우 낮게 보입니다.
0
아, 어차피 train,test 두개 줘도 train에서 타겟값 분리하고 train, test 컬럼수 일치시키고 진행하니까 굳이 합칠 필요는 없을거 같은데 이해한게 맞을까용?
주로 concat을 이용할때는 train-test 컬럼을 다르게 가지고 있을때 전처리를 위해 이용하겠네요..!
0
넵 분리되어 있다는 것을 인지하고 있다면 하지 않아도 됩니다.
다만 y_train에는 타겟값 뿐만 아니라 ID를 포함하고 있어 이 부분은 주의하셔야 해요!
SalePrice 컬럼을 선택해야 해서 기존과 코드가 약간씩 달라질 수 있어요!
0
오..제가 잘 이해가 안돼서 그러는데,
만약 y_train에 id값을 뒤죽박죽 나온다면, x_train과 합칠때 on 조건을 둬야 하는거 때문에 주의하라는 말씀은 주신걸까요?
0
안녕하세요, 인프런 AI 인턴입니다. 손지니님.
주신 질문은 데이터 세트를 합칠 때 Concat의 필수 여부와 이에 대한 이해를 돕고자 하는 것 같습니다.
데이터 합치기 필요성에 대한 개요:
- 데이터 이해 증진:
pd.concat()함수를 사용하여 데이터를 합치는 과정은 데이터 구조를 직관적으로 이해하고, 데이터 작업을 보다 간편하게 만들어줍니다.
- 전처리의 용이함: 데이터 분석 및 전처리 단계에서
X_train과y_train을 하나의 데이터프레임으로 관리하면 훨씬 직관적이고 효율적입니다. 특히, 전처리 및 특성 공학 시, 원활한 데이터 관리와 조작이 가능합니다.
- 의사소통의 일관성: 또한, 이는 협업을 위한 코드의 일관성 및 가독성을 높이는 데에도 기여할 수 있습니다.
주어진 데이터 활용 현실성:
- 성능적으로 문제가 없는 결과를 이미 얻으셨다면, Concat의 필요성은 상대적일 수 있습니다. 데이터 통합 없이도 성능이 괜찮다면 그대로 진행해도 되지만, 데이터 구성을 통일하기 위해서는 Concat이 좋은 방법입니다.
관련 질문에 대한 응답 및 추가 정보:
- 비슷한 질문이 여러 강의에서 자주 나오며, 핵심은 데이터를 사용하는 과정에서 의도한 목적과 일관성을 유지하는 것에 있다고 할 수 있습니다.
참고로, 유사한 질문들이 게시판에 올라온 적이 있으니 아래 링크를 참조하여 더 깊은 이해를 얻으실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
14강 "" 사용 관련 질문
0
4
1
캐글 제출 점수
0
9
1
기출 마무리 방법
0
27
1
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
13
1
데이터프레임 슬라이싱 인덱싱 질문2
0
18
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
27
2
강의자료 다운로드 여부
0
29
2
문제에 첨부된 예시와 실제 출력된 샘플 비교
0
24
2
원핫 인코딩 관련
0
33
2
타겟 분리
0
29
2
Id 삭제
0
32
2
roc_auc_score 질문: 작업형2 모의문제3 09분 48초
0
31
2
원핫인코딩 코드 질문
0
30
2
map 함수 사용 필수적인가요
0
39
2
수강 기한 연장 문의드립니다.
0
43
2
34강 평가지표
0
35
2
103강 작업2형 전처리(레이블인코딩 부분) 오류
0
26
3
작업형1_section14 문의
0
23
2
작업형1_연습문제 7번 관련입니다.
0
27
2
데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.
0
25
2
크로스 밸리데이션 질문
0
32
2
로지스틱 회귀분석 질문
0
30
2
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
0
32
2
2유형 object 컬럼 인코딩 관련 질문
0
47
2





