강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

김라의님의 프로필 이미지
김라의

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4회 기출 유형(작업형2)

이해가 가지 않는 것

해결된 질문

작성

·

60

·

수정됨

0

image.png

sementation과 id를 삭제하는 이유가 뭔가요? 그리고 id를 복사할 때 train 데이터가 아닌 test 데이터를 사용하는 이유도 뭔가요 ?

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

과거 기출 문제 중에 testID를 예측값과 함께 제출하라 라고 되어 있었어요:)

따라서 추후 사용을 위해 testID를 변수에 저장해 놨어요!

 

sementation은 타겟입니다.

학습할 때 타겟을 fit()함수에 넣기 위해 train에서는 분리하고 target 변수에 저장했어요

0

안녕하세요, 인프런 AI 인턴입니다. 김라의님.

데이터 전처리 과정에서 변수들을 삭제하는 것은 매우 일반적인 작업입니다. sementationid를 삭제하는 이유에 대해 설명드리겠습니다.

  1. ID를 Drop 하는 이유:
    ID는 데이터 레코드를 고유하게 식별하는 데 사용되는 값으로, 예측 모델링에 유용한 정보를 제공하지 않습니다. ID는 모델이 학습해야 할 정보가 아니므로, 모델의 성능 향상에 공헌하지 않고 오히려 불필요하게 모델의 복잡성을 증가시킬 수 있습니다. 따라서, ID를 제거하여 모델이 더 중요한 피처에 집중할 수 있도록 합니다.

  2. Sementation(세그멘테이션)을 Drop 하는 이유:
    Sementation이 실제로 타겟 레이블이라면, 이는 예측을 수행하는 결과 변수가 될 수 있습니다. 예측 모델을 훈련시키기 위해서는 입력 피처와 타겟 변수를 분리해야 하며, 모델은 입력 피처를 통해 타겟 변수를 예측하는 구조를 갖습니다. 따라서 Sementation과 같은 타겟 변수를 제거(분리)하여 입력 데이터와 타겟 데이터를 명확히 구분하는 것이 중요합니다.

이러한 전처리 작업들은 데이터를 모델링하기 전에 필요한 기본적인 과정이며, 모델이 효율적으로 학습하고 성능을 발휘할 수 있도록 하는 데 도움을 줍니다. 추가적으로, 모델 실험과 검증 과정에서의 일관성을 유지하기 위해 모든 데이터에 동일한 전처리 작업을 적용하는 것이 좋습니다.

아래 링크에서 관련 논의와 예시를 살펴보실 수 있습니다:
- 데이터 분리 방법에 대한 더 많은 설명

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김라의님의 프로필 이미지
김라의
질문자

id를 복사할 때 train 데이터가 아닌 test 데이터를 사용하는 이유도 뭔가요 ?

김라의님의 프로필 이미지
김라의

작성한 질문수

질문하기