인프런 커뮤니티 질문&답변
작업형2 모의문제2 ID 삭제 여부 및 성능 기준
해결된 질문
작성
·
120
0
안녕하세요 선생님,
1) ID 삭제 여부
ID는 삭제해도 되고, 삭제 안해도 무방하며 이 경우 가중치가 낮게 적용이 된다고 답변 주신 것을 보았습니다. 그런데 모의문제1번과 2번을 풀어보니 ID를 포함하여 학습시켰을 때 성능 점수가 높더라구요...^^;; 무슨 연관이 있을까요..? 시험에서도 ID 포함해도 문제가 되지는 않겠지요?
2) 회귀 성능 기준
r2 점수가 0.18이 나왔는데 이런 결과가 나와도 시험에서 점수 받는데 문제가 없을까요? 실무에서는 낮은 점수라고 볼 수 있을 것 같은데 성능을 높이기 위해 별도로 조치하지 않고 제출해도 되는지 궁금합니다.
답변 2
0
저도 잘 모르겠네요! id가 숫자라면 그냥 두시는 걸로 준비하시죠!
아직까지 기출에서 인코딩 외의 전처리 작업 없이도 40점에 문제가 없었습니다.
실무에서는 설명력이 낮은 것은 맞으나 점수 구간으로 평가를 하기 때문에 괜찮습니다.
여유가 있다면 스케일링 등 다른 전처리도 시도해도 좋을 것 같습니다.
0
안녕하세요, 인프런 AI 인턴입니다.
김진주님의 질문에 대해 답변 드리겠습니다.
ID 삭제 여부에 대해서:
- ID는 일반적으로는 모든 데이터가 고유 값을 갖고 있어서 중요한 피처가 아니기 때문에 삭제하곤 합니다. 그러나, 수행해 보셨듯이 ID를 포함했을 때 모델의 성능이 높아질 수 있습니다. 이는 데이터 셋의 특성이나 ID가 다른 피처들과 연관성을 통해 간접적인 영향을 미치는 경우가 있을 수 있기 때문입니다. 시험에서도 ID를 남겨두는 것이 특별한 문제를 일으키진 않지만, 데이터 셋의 특성에 따라 유동적으로 접근하는 것이 좋습니다. 잘 저명되는 원칙은 “모델 성능을 기반으로 한 피처 처리 결정”입니다. 관련된 예시문제 작업형2에서 더욱 자세한 답변을 확인할 수 있습니다.
- ID는 일반적으로는 모든 데이터가 고유 값을 갖고 있어서 중요한 피처가 아니기 때문에 삭제하곤 합니다. 그러나, 수행해 보셨듯이 ID를 포함했을 때 모델의 성능이 높아질 수 있습니다. 이는 데이터 셋의 특성이나 ID가 다른 피처들과 연관성을 통해 간접적인 영향을 미치는 경우가 있을 수 있기 때문입니다. 시험에서도 ID를 남겨두는 것이 특별한 문제를 일으키진 않지만, 데이터 셋의 특성에 따라 유동적으로 접근하는 것이 좋습니다. 잘 저명되는 원칙은 “모델 성능을 기반으로 한 피처 처리 결정”입니다. 관련된 예시문제 작업형2에서 더욱 자세한 답변을 확인할 수 있습니다.
회귀 성능 기준에 대해서:
- R2 점수는 회귀 모델의 성능을 평가하는 지표 중 하나이며, 데이터 셋의 상태나 특성에 따라 낮은 점수가 나올 수 있습니다. 시험에서는 데이터의 특성과 학습의 범위 내에서 의미 있는 결과를 추출하는 것이 더 중요할 수 있으며, 데이터에 따라 R2 값이 높지 않더라도 모델이 목표를 잘 반영하고 있다면 그것이 중요한 요소입니다. 시험에서는 R2 점수 자체보다는 주어진 문제에 적절히 대응하는 능력이 평가될 가능성이 큽니다. 관련 내용은 작업형2 모의문제2에서 참조할 수 있습니다.
- R2 점수는 회귀 모델의 성능을 평가하는 지표 중 하나이며, 데이터 셋의 상태나 특성에 따라 낮은 점수가 나올 수 있습니다. 시험에서는 데이터의 특성과 학습의 범위 내에서 의미 있는 결과를 추출하는 것이 더 중요할 수 있으며, 데이터에 따라 R2 값이 높지 않더라도 모델이 목표를 잘 반영하고 있다면 그것이 중요한 요소입니다. 시험에서는 R2 점수 자체보다는 주어진 문제에 적절히 대응하는 능력이 평가될 가능성이 큽니다. 관련 내용은 작업형2 모의문제2에서 참조할 수 있습니다.
이러한 사항들을 고려한다면, ID를 포함하는 것과 R2 점수의 해석에 대해 좀 더 입체적인 이해가 가능할 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





