작성
·
135
0
1. 작업 2유형에서 결측치는 답변 주신대로 bagImpute를 사용하여 쉽게 정제 가능하다고 하셨습니다.
만약 이상치를 탐색할 때
금액의 경우에는 음수로 표시되어있는 것을 이상치라고 말씀해주셧는데요.
이외에 이상치로 알아볼 수 있는 종류는 어떤 것들이 있을까요?
이상치를 boxplot을 통하여 확인해도 될까요?
만약 가능하다면 boxplot을 확인할 수 없는지요?
2. 전체 코드 실행이 1분 미만이라고 하셨는데요.
중간중간 str 또는 summary 함수를 확인하고
완료가 되면 최종 제출하기 전 이러한 확인용 함수를 제거하면 될까요?
str과 summary를 확인하는게 너무 습관화가 되어 조금 신경이 쓰이네요.
답변 1
0
안녕하세요.
1. 사실 판단이 어렵습니다. 시험환경에서는 시각화의 지원이 용이하지 않기 때문에
거의 확인이 불가능하다고 볼 수 있습니다. 결국 summary 함수를 통해 확인하는 방법밖에 없습니다.
그리고 가격 같은 명확한 경우는 상식적으로 0원미만을 이상치로 생각할 수 있지만
잘 모르는 변수의 경우는 이상치라고 판단하기도 어렵습니다.
따라서 확실하지 않은 경우는 처리하지 않고 모델을 구축하는 편이 나으며,
summary 함수로 확인하고 확실한 경우에만 처리하시는 것이 낫습니다.
실제로 경험적으로 처리하지 않아도 크게 성능 차이가 나지 않았습니다.
2. 저도 str와 summary를 즐겨 사용하는데요.
중간에 그런 함수들로 확인을 많이 했고 최종적으로 제출할 때는 삭제를 했습니다.
메모장은 사용이 가능하니깐 메모장을 적극이용하시면 좋을 것 같습니다.
마지막으로 강의내용 중에 있지만 파일을 저장하시고 실제 출력까지 해보는 것이 안전합니다.
그리고 출력코드는 지우고 제출하시면 되겠습니다.
코드 전체 실행시간이 1분을 넘기면 안되기 때문에 그 점을 유의해주시면 되겠습니다.
감사합니다.
감사합니다.