강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

민지님의 프로필 이미지
민지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[기출 10회] 작업형2 target변수 결측치 처리

작성

·

19

0

안녕하세요.

 

기출 10회를 다시 풀어보고 있는데, 작업형 2에서 타겟 변수에 0이 있는 경우를 처리를 하는지 안하는지에 따라 rmse 값이 차이가 꽤 크더라구요. 이렇게 차이가 꽤 있는데도 결측치를 처리한 경우와 안한 경우 둘다 만점을 받을 수 있던 문제였나요?

 

#타겟변수에서 결측치를 제거한 경우의 rmse
rf_rmse = 673.8026644431536

#타겟변수에서 결측치를 제거하지 않은 경우의 rmse
rf_rmse = 960.485846380754

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

사실 검증데이터라 더 잘 나올 수 밖에 없습니다.

둘 다 40점에 문제가 없어 어떤 의도였는지 의문이에요!

민지님의 프로필 이미지
민지
질문자

흐음 만약에 이번 시험이나 추후 시험에 타겟에서의 결측치 처리 여부에 따라 점수 배점에 차이를 염두하기 위한 문제였을까요..? 혹 그럴 가능성이 있나요?

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

글세요. 작업형2는 어렵게 출제해도 되는데 다른 유형과 달리 난이도를 올리지 않고 있어요

작업형1과 3으로 조절하고 있는 느낌입니다.

민지님의 프로필 이미지
민지
질문자

아하.. 넵 ㅎㅎ 알겠습니다.. 감사합니다!

0

안녕하세요, 인프런 AI 인턴입니다. 민지님께서 질문하신 내용은 타겟 변수가 결측치로 채워져 있는 데이터를 어떻게 처리하는지가 모델의 성능에 미치는 영향을 이해하는 데 중요합니다. 타겟 변수에서 결측치로 치는 값들이 포함되는 경우와 그렇지 않은 경우, RMSE에 차이가 발생할 수 있습니다.

결론적으로, 타겟 변수의 결측치를 처리했을 때와 하지 않았을 때 모두 그 자체로는 가능한 접근 방식입니다. 현장에서는 타겟 변수의 ‘결측치’를 어떻게 정의하느냐에 따라 접근법을 달리할 수 있기 때문에 두 경우 모두 점수를 잘 받을 수 있는 경우가 있을 수 있습니다. 다만, 시험에서는 타겟 변수의 결측치를 어떻게 처리할 것인지를 지문에서 특별히 지시하지 않는 한, 일반적으로 데이터셋을 있는 그대로 사용하는 것이 기본으로 평가되곤 합니다.

몇 가지 일반적인 점검 포인트를 두고 설명 드리면:

  1. 문제 상황에 따른 처리:

    • 타겟 변수가 실제 결측에 해당하는 경우(수집 과정에서 결측되었거나, 0이 아닌 비즈니스적으로 많은 타겟 값으로 간주되는 경우)라면 이를 적절히 처리하는 것이 필요합니다.
    • 데이터 특성상 ‘타겟’ 변수의 0 값이 의도적으로 포함된 값인지 확실하지 않은 경우라면, 데이터 발견 과정에서 추가적인 도메인 지식이나 사업 배경 이해가 필요합니다.
  2. 평가 기준:

    • 작업형 문제에서 점수는 RMSE의 절대 수치보다는, 주어진 데이터와 문제 상황에서 출제자의 의도를 따를 수 있는지에 관한 점검이 더 중요할 수 있습니다.
  3. 결과 해석 및 응용:

    • 타겟 결측치를 포함했을 때와 하지 않았을 때 얻은 RMSE의 차이를 해석하고, 어떤 방식이 보다 합리적인 결과를 제시하는지를 추가적인 기준을 통해 검토해야 합니다.

비슷한 맥락에서 “시험환경 ver.2025 작업형2 RMSE”와 같은 게시물을 참고해보시면 타겟 변수를 어떻게 다루어야 했는지에 대해 보다 깊이 있는 논의를 확인하실 수 있습니다:
- 시험환경 ver.2025 작업형2 RMSE

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

민지님의 프로필 이미지
민지

작성한 질문수

질문하기