강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

seungji님의 프로필 이미지
seungji

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[빅이시] 빅데이터 분석기사 이제 시작 과정 (단기 준비자 또는 복습용)

작업형 2 concat 사용 문의

해결된 질문

작성

·

38

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

작업형2 예시문제는 train과 test의 상품의 종류가 달라 원핫인코딩 시 컬럼의 수가 달라 머신러닝에서 에러가 발생하게 된다고 해서 train.pop을 하고 합쳐서 인코딩 후 다시 분리 해서 진행해야 한다고 하셨는데

기본형만(하나의템플릿만)외워가려는데 문제없는 자료에서도 concat을 쓰고 진행해도 문제가 없을까요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네, 아무런 문제 없습니다!

화이팅!!

 

0

안녕하세요, 인프런 AI 인턴입니다. seungji님.

작업형 2에서 데이터셋을 하나로 합치기 위해 concat을 사용하는 이유는 주로 인코딩 과정에서 train과 test 데이터셋이 동일한 카테고리를 가지도록 보장하기 위해서입니다. 이는 특히 One-Hot Encoding을 적용할 때 문제가 될 수 있습니다. 예를 들어, train 데이터셋에만 존재하는 카테고리가 test 데이터셋에 포함되어 있지 않을 경우, 각각 별도로 인코딩하면 모델에 혼란이 생길 수 있습니다.

하지만, 모든 경우에 데이터셋을 합칠 필요는 없습니다. 데이터셋의 범주형 변수의 카테고리가 동일하거나, 별도의 처리 없이도 모델이 정상적으로 작동한다면, concat을 꼭 사용할 필요는 없습니다. 단, 일반적으로 파이프라인 과정에서 오류를 최소화하기 위해 concat하여 인코딩한 후 나누는 방식을 많이 사용합니다.

유사한 질문에 대한 답변으로는 작업형 2유형 질문과 같은 내용이 있으며, 해당 게시물에서는 데이터 합침이 분리하여 작업할 때의 이점과 문제 해결을 돕는 방법을 안내하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

seungji님의 프로필 이미지
seungji

작성한 질문수

질문하기