한가지 방법으로 작업형 2 풀기 질문

Question

안녕하세요 질 좋은 강의 올려주셔서 항상 감사합니다. 몇가지 질문을 하고싶은데 traget=train.pop('타겟') << 이거를 인코딩 하기 전에 하는것이 나을까요 아니면 검증데이터 분할하기 전에 하는것이 나을까요? 학습시간이 촉박해서 그런데 인코딩에서 레이블인코딩을 학습하지 않고 그냥 원핫인코딩 하나만 학습해서 시험을 쳐도 무리 없을까요? 그리고 머신러닝 학습에서도 lightgbm이나 XGBoost나 다른 모델을 쓰지않고 그냥 랜덤포레스트 하나만 학습해서 시험을 쳐도 합격하는데는 큰 무리가 없을지 궁금합니다! 감사합니다 추가적으로 작업형 2에서 이상치 조정, 스케일링, 하이퍼 파라미터 튜닝 이 세가지 작업도 굳이 하지 않아도 점수에 큰 영향이 없다면 패스하고 싶은데 괜찮을지 여쭤봅니다!!

퇴근후딴짓 · Answer

traget=train.pop('타겟') 전처리시 가장 먼저 실행해주세요. 타겟이 문자형이면 이후 인코딩 과정에서 오류가 발생할 수 있어요. 네 1가지 인코딩만 준비해도 됩니다. 랜덤포레스트만 준비하고 여유가 있다면 lightgbm 있으면 좋을 것 같아요 네 그동안 40점에 아무런 문제 없었어요! 화이팅!!!!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. pseoin0907님. 질문에 대해 답변드리겠습니다. target = train.pop(&lsquo;타겟&rsquo;) 의 위치: 일반적으로 target 열을 데이터프레임에서 추출하는 과정은 데이터 전처리의 가장 초기 단계에서 수행하는 것이 좋습니다. target 컬럼은 모델의 예측 대상이므로, 인코딩이나 스케일링 과정에서 혼합되지 않도록 해야 하기 때문입니다. 따라서, 인코딩 전에 target = train.pop('타겟') 을 수행하는 것이 바람직합니다. 인코딩과 모델 학습 전략: 원핫인코딩: 원핫인코딩은 범주형 변수에 대해 가장 일반적이고 안전한 인코딩 방법 중 하나입니다. 데이터 특성상 레이블 인코딩이 필요하지 않거나 중복되는 값이 많지 않다면 원핫인코딩만 학습해도 무리가 없습니다. 모델 선택: 랜덤포레스트는 강력하고 널리 사용되는 모델 중 하나입니다. 충분히 효과적인 결과를 기대할 수 있으며, 특히 데이터 전처리에 많은 시간을 들일 수 없는 경우에 적합합니다. XGBoost나 다른 복잡한 모델은 추가적인 성능 향상을 가져올 수 있지만 학습 시간이 더 필요하므로 실제 상황에 맞춰 선택하시면 됩니다. 시험 준비에 대한 조언: 기출 문제를 통해 유형을 익히고, 위에서 말씀하신 기본적인 전처리 및 랜덤포레스트 모델을 잘 이해하고 응용할 수 있다면 시험에 무리가 없을 것입니다. 다만 다양한 상황에 대비하기 위해 여유가 된다면 기본적인 인코딩 및 다른 모델도 간단하게라도 익혀두시는 것을 추천합니다. 위와 관련된 내용으로 이전에 유사한 답변(작업형 2 관련) 도 있으니 참고해 보시길 바랍니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.