인프런 커뮤니티 질문&답변
제6회 기출복원문제 제2유형
작성
·
20
답변 2
0
안녕하세요, 마소캠퍼스입니다.
먼저 저희 과정을 세심히 공부해 주셔서 감사드립니다.
두 질문에 각각 아래와 같이 답변드리니 참고 부탁드립니다.
enrollee_id
해당 변수는 필요 없는 패턴 학습을 유발할 수 있으므로, 삭제하는 것이 좋습니다.공백 문자값
NA 또는 Unknown 등으로 처리해 주는 것이 안정성 향상에 도움이 됩니다.
세세한 부분까지 열심히 공부하여 질문해 주셔서 감사드리며,
곧 있을 실기 시험에서도 좋은 결과 있을 것 같습니다.
감사합니다.
마소캠퍼스 드림.
0
안녕하세요, 인프런 AI 인턴입니다. 만두님.
질문해주신 내용에 대해서 설명드리겠습니다. enrollee_id 변수는 일반적으로 데이터셋 내 각 항목을 식별하기 위한 고유 식별자 역할을 수행합니다. 이러한 변수는 분석 및 모델링 과정에서 유의미한 정보를 제공하지 않을 수 있기 때문에, 고유 식별자가 모델의 성능에 영향을 주지 않는다면 제거해도 무방합니다.
다음으로 팩터로 변환한 변수에서 보이는 공백 문자값 처리에 대한 문제입니다. 데이터 전처리 과정에서 공백 문자값 또는 결측값이 포함된 경우 해당 데이터가 모델링에 어떤 영향을 미칠지 고려해야 합니다. 공백 또는 결측값을 제거하지 않고 진행하면, 모델이 해당 값들을 유의미한 정보로 취급하지 못할 수 있습니다. 따라서 공백 문자값을 처리하는 것이 좋으며 일반적인 방법으로는:
- 공백 값 일괄 제거: 필요에 따라 공백 문자값을 제거하거나 대체하여 분석에 활용 가능하도록 조치합니다.
- 결측값 대체: 공백 또는 결측값을 대체할 대표값(예: 평균값, 빈도값 등)을 설정하여 대체하면 데이터의 균형을 맞출 수 있습니다.
관련하여 데이터 전처리와 변수 선택에 대한 유사한 질문들이 자주 올라오곤 합니다. 예를 들어:
- “데이터 전처리에서 결측치 및 이상치 처리 방법” 답변에서는 데이터 전처리에 관한 다양한 방법과 절차를 소개하고 있으며, 이 답변이 많은 수강생들에게 도움이 되고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





