인프런 커뮤니티 질문&답변

만두

작성한 질문수

빅데이터분석기사 실기 R 올인원: 3주에 끝내는 완벽 대비

제6회 기출복원문제 제2유형

해결된 질문

작성

제6회 기출복원문제 제2유형에서 enrollee_id 변수도 불필요한 값으로 간주하고 삭제해도 될까요?

또한 팩터로 변환한 변수의 level을 확인해보면(enrolled_university, education_level 등) 공백 문자값이 많이 보입니다. 해당 값들에 대해서도 제거 처리 없이 진행해도 되는지 궁금합니다!

머신러닝 r 빅데이터 빅데이터분석기사

답변 2

Masocampus

지식공유자

안녕하세요, 마소캠퍼스입니다.

먼저 저희 과정을 세심히 공부해 주셔서 감사드립니다.

두 질문에 각각 아래와 같이 답변드리니 참고 부탁드립니다.

enrollee_id
해당 변수는 필요 없는 패턴 학습을 유발할 수 있으므로, 삭제하는 것이 좋습니다.
공백 문자값
NA 또는 Unknown 등으로 처리해 주는 것이 안정성 향상에 도움이 됩니다.

세세한 부분까지 열심히 공부하여 질문해 주셔서 감사드리며,
곧 있을 실기 시험에서도 좋은 결과 있을 것 같습니다.

감사합니다.

마소캠퍼스 드림.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 만두님.

질문해주신 내용에 대해서 설명드리겠습니다. enrollee_id 변수는 일반적으로 데이터셋 내 각 항목을 식별하기 위한 고유 식별자 역할을 수행합니다. 이러한 변수는 분석 및 모델링 과정에서 유의미한 정보를 제공하지 않을 수 있기 때문에, 고유 식별자가 모델의 성능에 영향을 주지 않는다면 제거해도 무방합니다.

다음으로 팩터로 변환한 변수에서 보이는 공백 문자값 처리에 대한 문제입니다. 데이터 전처리 과정에서 공백 문자값 또는 결측값이 포함된 경우 해당 데이터가 모델링에 어떤 영향을 미칠지 고려해야 합니다. 공백 또는 결측값을 제거하지 않고 진행하면, 모델이 해당 값들을 유의미한 정보로 취급하지 못할 수 있습니다. 따라서 공백 문자값을 처리하는 것이 좋으며 일반적인 방법으로는:

공백 값 일괄 제거: 필요에 따라 공백 문자값을 제거하거나 대체하여 분석에 활용 가능하도록 조치합니다.
결측값 대체: 공백 또는 결측값을 대체할 대표값(예: 평균값, 빈도값 등)을 설정하여 대체하면 데이터의 균형을 맞출 수 있습니다.

관련하여 데이터 전처리와 변수 선택에 대한 유사한 질문들이 자주 올라오곤 합니다. 예를 들어:

“데이터 전처리에서 결측치 및 이상치 처리 방법” 답변에서는 데이터 전처리에 관한 다양한 방법과 절차를 소개하고 있으며, 이 답변이 많은 수강생들에게 도움이 되고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

만두

작성한 질문수

전체 Q&A

질문하기