안녕하세요, 우선 첫번째 에러의 경우 ' Please move or remove them before you merge.' 이 부분은 대개 깃허브 처음 설정 시, git pull이나 git push가 안되었을 때 종종 발생하는 에러 입니다. 따라서, 순차적으로 진행하셔야 하고, 또는 매뉴얼로 ' git clean -d -f' 이 명령어를 사용하시는 걸 추천합나다. 참고 : https://stackoverflow.com/questions/36039687/git-pull-please-move-or-remove-them-before-you-can-merge Conda 활성화의 경우 보통 VSCode or PowerShell를 다시 실행시키면 되는 경우도 있습니다. Conda 활성화가 안되면, conda init powershell 시도해보시기를 바라며, 그 외 여러가지 시도할 것이 있기는 한데, 다음 글을 참조하셔서 진행하시기를 바랍니다. https://stackoverflow.com/questions/64149680/how-can-i-activate-a-conda-environment-from-powershell
질문 주셔서 감사합니다. scikit-learn 1.2.1 버전을 사용하시는 분들은 중간에 코드 2개를 수정해야 합니다. 먼저 라이브러리를 불러올 때는 기존 : from sklearn.metrics import roc_auc_score, plot_roc_curve , confusion_matrix 에서 수정 : from sklearn.metrics import roc_auc_score, RocCurveDisplay , confusion_matrix 변경바랍니다. def evaluate 함수 중간 코드에 기존 : roc_plot = plot_roc_curve (ml_model, X_test, y_test, name="Scikit-Learn ROC Curve") 에서 수정 : roc_plot = RocCurveDisplay.from_estimator (ml_model, X_test, y_test, name="Scikit-Learn ROC Curve") 으로 수정 바랍니다. 공식문서 참조 : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.RocCurveDisplay.html#sklearn.metrics.RocCurveDisplay.from_estimator
안녕하세요. 좋은 질문 감사합니다. 우선 기본 원칙은 훈련 데이터와 테스트 데이터를 별개의 데이터로 가정하는 것이 맞습니다. 같은 모집단으로 바라보고 처리하게 되면, 모형 학습 시, Data Leakage에 빠질 가능성이 존재합니다. 또한, train 데이터의 평균값을 test 데이터에 적용하는 방법이 실제 대회에서는 맞습니다. 이 부분은 제가 작업하면서 오류가 있었네요. 수정해서 올리도록 하겠습니다. 관련해서 좋은 디스커션이 있으니 확인 바랍니다. https://www.kaggle.com/c/titanic/discussion/177536
결측치 대치는 여러가지 방법이 있는데, 그 중 가장 쉬운 방법인, 빈도수가 가장 많이 나온 것을 대체 한 것입니다. 이 방법이 꼭 좋은 방법은 아니나, base 머신러닝 모형을 구축할 때는 쉽게 구축 할 수 있기 때문에 사용한다고 생각하면 될 것 같습니다. mode() 함수는 문자열의 각 값을 계산한 후, 높은 순부터 정렬하여 반환합니다. mode()[0]은 각 칼럼에서 가장 높은 값을 추출한다는 뜻입니다. 결측치 대치는 이 문제 하나만으로도 논문으로 나올 수 있는 매우 어려운 문제입니다. 본 강의에서는 가장 쉬운 방법을 택했다고 보면 될 것 같습니다. 문자열 결측치에서 가장 큰 어려운 문제는 high-cardinality 이슈가 있습니다. 관련 키워드로 검색해보시고, 혹시나 이해가 어려우면 추가로 강의를 제작해서 올리도록 하겠습니다.