인프런 커뮤니티 질문&답변

변재현

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4회 기출 유형(작업형2)

4회 작업형 2 f1_score 평가할때 rf_f1 = f1_score(y_val, rf_pred, average= 'macro') 써도 되나요?

해결된 질문

작성

수정됨

강사님 안녕하세요! 두가지 질문이 두 가지 있습니다.
1)

from sklearn.model_selection import cross_val_score scores = cross_val_score(train, y scoring = 'f1_macro', cv=5) 이거 대신에

train_test_split(train.drop('Segmentation',axis =1),train['Segmentation'], test_size = 0.2, random_state =0 ) 이렇게 데이터를 나눈 뒤, 평가를 해도 되는지 궁금합니다.

2)그리고 cross_val_score를 쓰지 않고, 아래처럼 기존에 쓰던 직접 f1-score를 구해 모델 평가하는 방식도 괜찮은가요?

rf_f1 = f1_score(y_val, rf_pred, average='macro')

감사합니다

cols = list(train.select_dtypes(include = 'O'))
cols #['Gender','Ever_Married','Graduated','Profession','Spending_Score','Var_1']

# train[cols].nunique() #(2,2,2,9,3,7)
# for col in cols:
#   print(train[col].value_counts())

train = train.drop('ID',axis =1)
test_id = test.pop('ID')

# from sklearn.preprocessing import LabelEncoder
# for col in cols:
#   le = LabelEncoder()
#   train[col] = le.fit_transform(train[col])
#   test[col] = le.transform(test[col])
# train.head()

train = pd.get_dummies(train).astype(int) #(6665,30)
test = pd.get_dummies(test).astype(int) #(2154,29)
# print(train.shape,test.shape)


# print(train.shape,test.shape) #(6665, 29) (2154, 28)
train.head()

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train.drop('Segmentation',axis =1),train['Segmentation'], test_size = 0.2, random_state =0 )
print(X_train.shape,X_val.shape,y_train.shape, y_val.shape) #(5332, 28) (1333, 28) (5332,) (1333,)

from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state = 0, max_depth = 9, n_estimators = 700)
rf.fit(X_train,y_train)
rf_pred = rf.predict(X_val)
rf_f1 = f1_score(y_val, rf_pred, average= 'macro')
print(rf_f1) # 0.5350437339763565 /9 700 0.543685768934749


# # from lightgbm import LGBMClassifier
# # lgbm = LGBMClassifier()
# # lgbm.fit(X_train, y_train)
# # lgbm_pred = lgbm.predict(X_val)
# # lgbm_f1 = f1_score(y_val, lgbm_pred, average= 'macro')
# # print(lgbm_f1) #0.5277491575057244

pred = rf.predict(test)
sumbit = pd.DataFrame({'ID':test_id,
                       'Segmentation': pred})
sumbit.to_csv('submission.csv', index = False)
pd.read_csv('submission.csv') #0.31924

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

네, 잘하고 계십니다 🙂

크로스 밸리데이션은 사용하지 않아도 됩니다

작업형2 40점 구간이 그리 어렵지 않아

위에 작성한 방식으로 해도 충분 합니다

변재현

질문자

네 감사합니다!

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

변재현님께서 질문해주신 내용에 대해 답변드리겠습니다.

교차 검증과 train_test_split:

교차 검증을 통한 cross_val_score는 데이터셋을 여러 개의 폴드로 나누어 여러 번 평가하는 방법으로, 모델의 일반화 성능을 보다 안정적으로 평가할 수 있습니다. 반면에, train_test_split을 사용하면 데이터가 한 번만 나누어지기 때문에 평가 결과가 데이터의 분할에 민감할 수 있습니다. 지도 강사의 접근 방식을 사용하거나, train_test_split을 사용하여 모델을 평가해도 됩니다. 하지만 더 견고하게 평가하려면 교차 검증을 사용하는 것이 좋습니다.

직접 F1-score 평가:

네, f1_score를 사용하여 평가할 수도 있습니다. cross_val_score 없이도 f1_score(y_val, rf_pred, average='macro')를 통해 모델의 성능을 직접 평가하는 것은 유효한 방법입니다. 이렇게 평가하면, 주어진 검증 데이터에 대해 탐색적 분석이나 모델 튜닝을 할 때 유용할 수 있습니다. 중요한 것은 평가 방식의 일관성과 문제의 요구사항에 맞춰 사용하는 것입니다.

다음과 같은 URL을 통해 유사한 질문에 대한 관련 답변을 참고해 보실 수 있습니다:

4회 기출-2유형 macro-f1 score 관련
- 교차 검증과 cross_val_score 사용법에 관한 설명이 포함되어 있어 도움이 되실 수 있습니다.
오늘시험 작업형2 f1 score 관련 질문드려요
- f1_score 함수 사용 시 average 매개변수의 설정 방법에 대한 내용을 참고하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

변재현

작성한 질문수

전체 Q&A

질문하기