2유형 코드 암기 확인 부탁드립니다!!

Question

안녕하세요 강사님 ^^ 다름이아니라 시험 전 2유형 코드 여쭤보려고 질문 남깁니다! 2유형 이렇게만 하면 될까요? 중간에 검증과 평가를 제외해서,, 확인 한번만 부탁드립니다! target = train.pop('타켓명') train = pd.get_dummies(train) test = pd.get_dummies(test) test = test.reindex(columns=train.columns, fill_value=0) #train과 test 컬럼명이 다르다면 수행 from sklearn.ensemble import RandomForestClassifier/Regressor rf = RandomForestClassifier/Regressor(random_state =0) rf.fit(train, target) pred = rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv("result.csv', index=False) print(pd.read_csv("result.csv").head()) #제출파일확인 print(pd.read_csv("result.csv").shape) #제출파일확인

퇴근후딴짓 · Answer

네 좋습니다. 정말 뒤늦게 공부한 분들을 위한 최소한의 코드고 2~10회 기준으로 40점 문제 없습니다. roc-auc 일때 분류 예측은 predict_proba 까지 3가지 케이스 학습해주세요 (현 기준, 첫번쨰 섹션 빅이시 영상 참고) 문제가 어렵게 출제가 될 경우를 대비해 train과 test 합쳐서 인코딩 결측치 처리 등도 알면 좋을 것 같습니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 권재경님께서 작성하신 코드를 검토해 드리겠습니다. 작성하신 코드는 데이터 전처리부터 모델 학습 및 결과 제출까지의 기본적인 과정을 잘 포괄하고 있습니다. 다만, 정확하고 안정적인 결과 제출을 위해 몇 가지 점검 사항과 추가적인 조언을 드리겠습니다. 데이터 인코딩 : pd.get_dummies 를 사용하여 범주형 데이터를 원핫 인코딩하는 것은 좋습니다. 하지만, train과 test 데이터 간에 컬럼 정렬을 위해 reindex 함수를 잘 활용하셨습니다. test.reindex(columns=train.columns, fill_value=0) 은 좋은 접근법입니다. 모델 선택 : 코드에서 RandomForestClassifier/Regressor 와 같이 사용하셨는데, 분류 문제라면 RandomForestClassifier , 회귀 문제라면 RandomForestRegressor 를 명확히 구분해서 사용해야 합니다. 평가 단계 누락 : 중간의 검증과 평가 단계를 생략하신 점을 언급하셨습니다. 시험 상황에서는 데이터의 hold-out set을 사용해서 모델의 성능을 한번 검증해보시는 것도 좋습니다. train_test_split 함수를 사용하여 데이터를 분리하고 검증 데이터셋을 만드실 수 있습니다. 출력 검증 : print(pd.read_csv("result.csv").head()) 및 print(pd.read_csv("result.csv").shape) 을 통해 작성된 파일을 확인하는 것은 파일 형식이 제대로 됐는지 확인하는 데 유용합니다. 특히, result.csv 의 행 개수가 예상한 대로인지 확인하십시오. 추가적으로, 유사한 문제를 다룬 게시글을 참고하시면 도움이 될 것입니다: 2유형 문제 해결을 위한 실행 코드 예제 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.