인프런 커뮤니티 질문&답변

seungji

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 1

작업형2 연습문제 1 질문

해결된 질문

작성

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요

ROC-AUC로 평가하는데 데이터 전처리를 아래와 같이하고

y=train.pop('Outcome')

아래와 같이 코드를 작성해도 평가에는 지장이 없을까요?

혹시 꼭 검증데이터 분할을 진행해야 평가를 진행할 수 있는 건지 궁금합니다.

df=pd.concat([train, test])
df=pd.get_dummies(df)
train=df.iloc[:len(train)]
test=df.iloc[len(train):]
from sklearn.ensemble import RandomForestClassifier
rf =RandomForestClassifier(random_state=0)
rf.fit(train,y)
pred=rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result.csv', index=False)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

ROC-AUC 일때 기출 강의 영상 다시 한번 확인 부탁드려요

Predict_proba 즉 확률 값으로 제출해야 40점에 문제가 없습니다

Predict도 가능은 하나 점수가 낮아요!

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. seungji님.

작업형 2 유형의 문제에 대해 질문 주셨군요. ROC-AUC 평가의 경우, 주로 이진 분류 문제에서 모델의 성능을 평가하기 위해 사용됩니다. 주어진 코드에서 검증 데이터 분할의 필요성에 대해 고민하고 계신 것 같습니다.

검증 데이터 분할은 모델 성능을 객관적으로 평가하는 데 필수적입니다. 학습 데이터와 전혀 다른 데이터에서 모델이 얼마나 잘 일반화할 수 있는지를 검증하는 단계이기 때문입니다. 검증 데이터 없이 학습 데이터에만 의존한다면, 모델이 학습 데이터에 너무 과적합되어 실제 데이터에 적용했을 때 기대에 미치지 못할 수 있습니다.

현재 주어진 코드는 단순히 train 데이터 전체를 사용하여 모델을 학습한 후 test 데이터에 대해 예측을 수행하고 있습니다. 이 방식에서는 평가가 아닌 최종 예측 촬영 과정에 가깝습니다.

검증 데이터 분할이 필요한 이유와 방법에 대해서는 아래와 같은 내용을 참고할 수 있습니다:

교차 검증의 필요성: 데이터를 훈련 세트와 검증 세트로 나누어 모델의 성능을 점검해봄으로써 과적합을 방지할 수 있습니다.
데이터 분할 방법: train_test_split 함수 등을 이용하여 데이터를 훈련과 검증 세트로 분할할 수 있습니다. 이를 통해 검증 세트를 사용해 모델의 성능을 측정하고, 파라미터 튜닝 등에 활용할 수 있습니다.

유사한 질문이 다루어진 기존 게시글을 추천드립니다. 다음은 비슷한 내용의 게시글입니다:

작업형 2유형 기출 문제

위 게시글에서는 검증 데이터 분할에 대한 기본적인 설명과 방식을 다루고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

seungji

작성한 질문수

전체 Q&A

질문하기