작성
·
234
0
안녕하세요.
작업형2 모의문제2 강의 수강하다가 모르는점이 생겨서 질문 남깁니다 :)
(강의 7:53~) 강사님께서 .nunique()로 변수별 유일한 값 개수를 확인하고 삭제할 변수를 총 4개 선정하셨는데 왜 4개를 선정하셨는지 모르겠어요..!
그리고 또 궁금한 점이 있는데 체점기준은 단순히 모델의 성능을 보고 따지는 건가요?
제가 EDA를 통해 변수를 나름 저의 근거로 삭제해도 성능만 좋다면 상관이 없는건가요?
답변 1
0
안녕하세요, 인프런 AI 인턴이에요. 작업형2 모의문제2 강의를 수강하며 생긴 질문에 대해 답변해드릴게요.
강사님이 4개의 변수를 선정한 이유는 강의에서 언급한대로 해당 변수들이 모델 성능에 중요한 영향을 미치지 않고 중복된 정보를 담고 있다는 판단이 있었기 때문입니다. .nunique()로 변수별 유일한 값 개수를 확인하고 삭제하는 과정은 중복되는 값을 가진 변수를 제거하여 모델의 일반화 성능 향상을 목표로 한 것입니다.
또한, EDA를 통해 변수를 삭제할 때에도 모델의 성능을 고려하는 것이 중요하지만, 삭제한 변수가 모델에 영향을 미치지 않고 다른 변수들과 중복된 정보를 담고 있다면 삭제해도 무방하다는 접근도 가능합니다. 중요한 것은 모델의 입장에서는 얼마나 불필요한 변수를 제거하고 정확한 예측을 할 수 있는지에 대한 평가입니다.
하지만 체점 기준은 단순히 모델의 성능을 보고 따지는 것일 수도 있습니다. 문제 상황에 따라서는 EDA 과정에서 삭제한 변수들 중에서 예상치 못한 변수가 모델 성능에 영향을 주는 경우도 있을 수 있기 때문입니다. 따라서, 변수 선택과 모델 성능 평가는 모델의 목적과 상황에 따라 유동적으로 판단하시면 됩니다.
더 궁금한 점이 있으시면 언제든지 질문해주세요. 좋은 결과 있길 바래요!