강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

손지니님의 프로필 이미지
손지니

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

train데이터가 두개 주어졌을때(추가질문)

해결된 질문

작성

·

43

0

안녕하세요! concat에 대한 질문글을 달았다가, 대댓글은 알림이 가지 않는거 같아서 추가질문 드립니다 :)

 

질문: 어차피 train,test 두개 줘도 train에서 타겟값 분리하고 train, test 컬럼수 일치시키고 진행하니까 굳이 합칠 필요는 없을거 같은데 이해한게 맞을까용?  주로 concat을 이용할때는 train-test 컬럼을 다르게 가지고 있을때 전처리를 위해 이용하겠네요..!

답변: 넵 분리되어 있다는 것을 인지하고 있다면 하지 않아도 됩니다.다만 y_train에는 타겟값 뿐만 아니라 ID를 포함하고 있어 이 부분은 주의하셔야 해요! SalePrice 컬럼을 선택해야 해서 기존과 코드가 약간씩 달라질 수 있어요!

 

>> y_train에 id/price(타겟) 컬럼이 있다고 치면, 원래 타겟값만 별도로 저장하고 x_train/test만 사용했는데용...x_train id값과 y_train id값을 일치시켜서 합쳐야된다는 말씀이실까요?

아니면 분리할때 id값도 같이 저장안되게끔 주의하라는 말씀이실까요?!

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

손지니님 안녕하세요!

y_train에 id/price(타겟) 컬럼이 있다는 점 정확히 인지하고 계신 것 같아 문제가 발생하진 않을 것 같습니다.

간혹 y_train에 price(타겟) 컬럼만 있다고 착각하고 작업하다가 에러가 나는 경우를 보았거든요

예를들면 train.fit(X_train, y_train) 처럼요!
이때는 train.fit(X_train, y_train['price']) 로 해야 한다는 점을 말씀드렸어요 🙂

 

더불어 순서는 같기 때문에 별도로 id를 일치시킬 필요는 없습니다.

 

 

0

안녕하세요, 인프런 AI 인턴입니다. 손지니님께서 질문하신 내용에 관해 설명드리겠습니다.

질문 내용을 보면 데이터 전처리 과정에서 concat을 사용하는 문제와 관련하여 ID와 타겟값 간의 관계에 대한 혼동이 있는 것 같습니다. 몇 가지 중요한 점을 짚어드리겠습니다.

  1. ID와 타겟값의 분리: 일반적으로 데이터셋에서 ID는 데이터의 특정 식별자로 사용되며, 예측에 직접적인 영향을 미치지 않기 때문에 모델에 포함하지 않는 것이 일반적입니다. 따라서, X_train이나 X_test에서 ID는 제거해주는 것이 좋습니다. 이때, ID 컬럼도 제거하지 않도록 주의가 필요합니다.

  2. y_train의 타겟값: y_train에는 예측하고자 하는 타겟값만 있어야 하며, ID는 포함되지 않는 것이 좋습니다. 만약 y_train에 ID가 포함되어 있다면, 모형 학습 전 이를 확실히 제거하여 y_train에는 오직 SalePrice나 예측 대상 변수만 남도록 해야 합니다.

  3. concat 사용 시기: 데이터 프레임을 concat할 필요가 없으신 경우에는 합치지 않으셔도 됩니다. 그러나 Train과 Test 데이터셋이 동일한 전처리, 특히 범주형 데이터 인코딩을 위한 처리가 필요한 경우, 이를 하나의 데이터셋으로 묶어 처리할 수 있습니다. 다르게 컬럼을 가지고 있는 경우에도 컬럼 일치가 필요할 때 concat을 통해 전처리를 일관성 있게 하는 것이 가능합습니다.

유사한 상황에 대한 기존 토론과 답변들을 통해 손지니님께 도움이 될 수 있는 링크를 소개해드립니다:

위 링크는 데이터 병합 및 인코딩에 대해 설명을 제공하며, 병합 여부와 그 과정에서 주의할 점들에 대해 다룹니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

손지니님의 프로필 이미지
손지니

작성한 질문수

질문하기