inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

train데이터가 두개 주어졌을때(추가질문)

해결된 질문

56

손지니

작성한 질문수 7

0

안녕하세요! concat에 대한 질문글을 달았다가, 대댓글은 알림이 가지 않는거 같아서 추가질문 드립니다 :)

 

질문: 어차피 train,test 두개 줘도 train에서 타겟값 분리하고 train, test 컬럼수 일치시키고 진행하니까 굳이 합칠 필요는 없을거 같은데 이해한게 맞을까용?  주로 concat을 이용할때는 train-test 컬럼을 다르게 가지고 있을때 전처리를 위해 이용하겠네요..!

답변: 넵 분리되어 있다는 것을 인지하고 있다면 하지 않아도 됩니다.다만 y_train에는 타겟값 뿐만 아니라 ID를 포함하고 있어 이 부분은 주의하셔야 해요! SalePrice 컬럼을 선택해야 해서 기존과 코드가 약간씩 달라질 수 있어요!

 

>> y_train에 id/price(타겟) 컬럼이 있다고 치면, 원래 타겟값만 별도로 저장하고 x_train/test만 사용했는데용...x_train id값과 y_train id값을 일치시켜서 합쳐야된다는 말씀이실까요?

아니면 분리할때 id값도 같이 저장안되게끔 주의하라는 말씀이실까요?!

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

손지니님 안녕하세요!

y_train에 id/price(타겟) 컬럼이 있다는 점 정확히 인지하고 계신 것 같아 문제가 발생하진 않을 것 같습니다.

간혹 y_train에 price(타겟) 컬럼만 있다고 착각하고 작업하다가 에러가 나는 경우를 보았거든요

예를들면 train.fit(X_train, y_train) 처럼요!
이때는 train.fit(X_train, y_train['price']) 로 해야 한다는 점을 말씀드렸어요 🙂

 

더불어 순서는 같기 때문에 별도로 id를 일치시킬 필요는 없습니다.

 

 

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 손지니님께서 질문하신 내용에 관해 설명드리겠습니다.

질문 내용을 보면 데이터 전처리 과정에서 concat을 사용하는 문제와 관련하여 ID와 타겟값 간의 관계에 대한 혼동이 있는 것 같습니다. 몇 가지 중요한 점을 짚어드리겠습니다.

  1. ID와 타겟값의 분리: 일반적으로 데이터셋에서 ID는 데이터의 특정 식별자로 사용되며, 예측에 직접적인 영향을 미치지 않기 때문에 모델에 포함하지 않는 것이 일반적입니다. 따라서, X_train이나 X_test에서 ID는 제거해주는 것이 좋습니다. 이때, ID 컬럼도 제거하지 않도록 주의가 필요합니다.

  2. y_train의 타겟값: y_train에는 예측하고자 하는 타겟값만 있어야 하며, ID는 포함되지 않는 것이 좋습니다. 만약 y_train에 ID가 포함되어 있다면, 모형 학습 전 이를 확실히 제거하여 y_train에는 오직 SalePrice나 예측 대상 변수만 남도록 해야 합니다.

  3. concat 사용 시기: 데이터 프레임을 concat할 필요가 없으신 경우에는 합치지 않으셔도 됩니다. 그러나 Train과 Test 데이터셋이 동일한 전처리, 특히 범주형 데이터 인코딩을 위한 처리가 필요한 경우, 이를 하나의 데이터셋으로 묶어 처리할 수 있습니다. 다르게 컬럼을 가지고 있는 경우에도 컬럼 일치가 필요할 때 concat을 통해 전처리를 일관성 있게 하는 것이 가능합습니다.

유사한 상황에 대한 기존 토론과 답변들을 통해 손지니님께 도움이 될 수 있는 링크를 소개해드립니다:

위 링크는 데이터 병합 및 인코딩에 대해 설명을 제공하며, 병합 여부와 그 과정에서 주의할 점들에 대해 다룹니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

1유형 강의 다 나간 후 어떻게 할까요?

0

14

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

10

1

작업형1 모의문제 4번에 3)문제 질문

0

21

2

이상치 전처리 작업

0

25

2

평가결과값 문의

0

29

2

시계열 데이터 날짜와 시간 format

0

35

2

평가지표 F1 스코어 질문드립니다.

0

27

2

작업형 2 기출7회분에서

0

38

2

작업형2 모의문제1 (30강)

0

34

2

수강 기간 연장 문의 드립니다.

0

42

2

수강 계획과 관련해 문의 드립니다.

0

30

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

62

2

수강기간 연장 문의드립니다

0

48

2