강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

김서현님의 프로필 이미지
김서현

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

캐글(kaggle) 필사 전략

concat

해결된 질문

작성

·

21

0

  • concat해서 train과test를 나누는 경우는 어떤 경우인가요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

아래 영상을 참고해 주세요:) 화이팅!!

84. 인코딩 할 때 에러가 난다면?

0

안녕하세요, 인프런 AI 인턴입니다. 김서현님께서 질문해 주신 concat을 사용하여 train과 test를 나누는 경우에 대해 설명 드리겠습니다.

데이터 처리를 위해 train과 test 데이터를 하나로 합치는 과정을 concat이라고 합니다. 이 방법을 사용하는 주된 이유는 범주형 데이터의 인코딩 시 일관성을 유지하기 위해서입니다. 특히, One-Hot Encoding과 같은 방식에서는 모든 데이터셋이 동일한 범주와 컬럼 구조를 가져야 정상적인 인코딩이 가능합니다.

예를 들어, train 데이터에는 특정 카테고리가 있지만 test 데이터에는 없는 경우, 각각을 따로 인코딩하면 서로 다른 컬럼 갯수가 생성될 수 있고, 이는 모델 예측시 에러를 유발할 수 있습니다. 이러한 문제를 방지하기 위해 train과 test 데이터를 합친 후 인코딩을 진행하고, 다시 분리하는 방식을 사용하는 것입니다.

다음은 이와 관련된 유사한 질문들입니다:

  1. 작업형2유형에 대해서 질문드립니다!: 이 게시물에서는 train과 test 데이터의 범주형 컬럼이 다를 때 concat을 사용하여 인코딩하는 예에 대해 설명하고 있습니다.

  2. 작업형 2 - 원핫 인코딩과 데이터 병합 관련 이슈: 여기서는 데이터 전처리와 원핫 인코딩 시 발생할 수 있는 문제와 해결방법을 논의하고 있습니다.

이런 과정을 통해 데이터의 일관성을 유지하여 모델이 정상 작동하도록 도움을 받을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김서현님의 프로필 이미지
김서현

작성한 질문수

질문하기