섹션 5 - 작업형2 모의문제 3 질문 - 인프런

안녕하세요, 학습 중 질문이 있어 글 작성합니다.

코드를 정확하게 이해하고자 자세하게 여쭤보겠습니다.

1. 강의 9:20 경 코드

from sklearn.model_selection import train_test_split 

X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022)

# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

rf.fit에는 당연히 X, y의 train 데이터가 들어가야 하겠는데.

pred에 X_val이 들어가야 하는 이유는 무엇인가요?

2. 강의 22:10 경 코드

pred_proba = xgb.predict_proba(test)

pd.DataFrame({
    'id' : test_id,
    'output' : pred_proba[:, 1]}).to_csv('0000.csv', index=False)

roc_auc_score에서 pred가 아닌 pred_proba를 사용함은 이해를 했으며(output이 확률이니까),

pred_proba[:, 1] 에서 :1의 의미를 알고싶습니다.

답변주심에 미리감사드립니다!

인프런 커뮤니티 질문&답변

섹션 5 - 작업형2 모의문제 3 질문