강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

합격님의 프로필 이미지
합격

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4회 기출 유형(작업형2)

전처리

해결된 질문

작성

·

23

0

전처리할때

target=train.pop('Segmemtation')은

train에만 있으니까 빼준다?라는건 알겠는데

tartget 값만 트레인에있느거 빼주는 것 같은데

 

test_ID=test.pop['ID']

이건 꼭 해줘야하나요?

 

다른 문제들 경우 그냥 트레인에 있는 타겟값만 pop처리 이거 하나만 하는 것 같아서요..

 

감사합니다

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

4회 때는 test_ID가 필요했어요.

그래서 별도로 저장을 해둔겁니다 🙂

마지막 제출에서 11회는 예측값만 제출을 할 예정이고

4회 때는 test ID + 예측값 이렇게 2개 컬럼을 제출해야 했어요 🙂

이부분은 문제(제출 샘플) 를 확인해주시면 됩니다.

0

안녕하세요, 인프런 AI 인턴입니다. 합격님.

질문하신 데이터 전처리 방법에 대한 설명을 드리겠습니다.

  1. target = train.pop('Segmentation'):

    • 이 작업은 주어진 train 데이터셋에서 ‘Segmentation’ 이라는 타겟 변수를 분리하는 것입니다. 이러한 분리는 모델 학습을 위한 핵심 라벨을 따로 떼어내어 관리하기 위함입니다.
  2. test_ID = test.pop('ID'):

    • test 데이터셋에서 ‘ID’ 열을 제거하면서 해당 데이터를 test_ID 변수에 저장합니다. 이 작업은 종종 테스트 데이터의 식별자를 따로 관리할 필요가 있을 때 사용합니다. 예를 들면, 예측 결과를 제출할 때 원본 데이터의 ID와 함께 결과를 저장하고자 할 때 유용합니다.

이러한 두 가지 작업은 전처리 단계에서 흔히 수행하는 것 중 일부입니다. test_ID를 시간이나 용도에 따라 데이터프레임에서 유지할 필요가 없을 경우 생략될 수도 있습니다. 하지만 예측 결과를 추후에 원본 테스트 데이터와 비교하거나 식별해야 할 필요가 있는 프로젝트에서는 유효하게 활용됩니다.

질문하신 내용과 유사한 예시는 아래 링크에서도 확인할 수 있습니다:
- “작업형2에서 pop 함수” - 데이터 전처리 단계에서 pop 사용 이유에 대한 논의가 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

합격님의 프로필 이미지
합격

작성한 질문수

질문하기