nealzs
@nayoyoun1249
Reviews Written
-
Average Rating
-
Posts
Q&A
test data๋ฅผ ์์ธกํ ๋ scaling ์ง๋ฌธ
์ ๋ต ํญ์ ์์ธํ ๋ต๋ณ ๊ฐ์ฌํฉ๋๋ค! grid search๋ก light gbm์ ์ด์ฉํ ์ eval set๋ฅผ ์ง์ ํด์ฃผ์ง ์์ผ๋ฉด ์์ ์ฝ๋๊ฐ ๋์ง ์๋ ๊ฑฐ ๊ฐ์ต๋๋ค. ๋ ๊ฒ์ํด๋ณด๊ณ ์์ต๋๋ค!! ใ ใ ์ง๋ฌธ1) "eval_set์ ๊ฒ์ฆ ๋ฐ์ดํฐ ์ ์ ์ง์ ์ง์ ํ๋ ๊ฒ์ธ๋ฐ" ๋ผ๊ณ ๊ฐ๋ฅด์ณ์ฃผ์ จ๋๋ฐ => ๊ทธ๋ ๋ค๋ฉด ๋ณดํต grid search cv๋ฅผ ์ด์ฉํ์ฌ ๋ถ์์ ๋ง์ฝ์ ์ ๊ฐ XGBoost๋ฅผ ์ฌ์ฉํ๋ค๋ฉด(scikit learn์ grid search์ ํธํ์ด ์ ๋๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ฉด) eval_set์ ๋ฃ์ ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ๋ train data์์ ๋ถ๋ฆฌํ test data(์ฌ๊ธฐ์์ test data๋ ์ค์ ์์ธกํ๊ณ ์ํ๋ target์ด ์๋ train data์์ ๋ถ๋ฆฌ๋ test data) ์ด์ธ์ train data์์ ๋ณ๋๋ก ๋ถ๋ฆฌํ (validation) data ๋ฅผ ๋ฃ๋ ๊ฒ์ธ๊ฐ์? (๋ง์ ๋ถ์์๋ค์ด ์ด๋ค์์ผ๋ก ํ๋์ง ๊ถ๊ธํฉ๋๋ค) ์ง๋ฌธ2) feature engineering ์ค outlier๋ค์ ์ต๋ํ ์ ๊ฑฐํ์ง ์๋ ์ชฝ์ผ๋ก ๋ฐฉํฅ์ ์ก์๊ณ ์ด๋ฅผ ๊ฐ๋ น ํ๊ท ์ด๋ median๋ฑ์ผ๋ก ๋์ฒดํ๋ ์์ ์ ์งํํ๋ค๊ณ ๊ฐ์ ํด๋ณด๊ฒ ์ต๋๋ค. ์ฌ๊ธฐ์ ๋์ฒดํ๊ณ ์ ํ๋ ๋ ์ฝ๋์ target ๊ฐ์(binary๋ผ๋ฉด 0 ๋๋ 1) ๋ฐ๋ผ outlier์ target class๊ฐ 1์ผ๋ ํน์ target class 0์ผ๋๋ก ๋๋์ด ๊ฐ์ ๋์ฒดํ๊ฒ ๋๋ค๋ฉด ๋์ฑ๋ ๊ณผ์ ํฉ์ ์ํ์ฑ์ด ์ปค์ง๋์ง ๊ถ๊ธํฉ๋๋ค. ์์ฒ๋ผ class์ ๋ฐ๋ผ ๋ฐ๋ก ์ฒ๋ฆฌํด๋ ๋๋ ์ง ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก ๋ง์ ๋ถ์์๋ค์ด ๊ทธ๋ ๊ฒ ํ๋์??? ๋ถ์์์ ๊ฒฝํ์ ์ํฅ์ด ํฌ๊ฒ ์์ฉ๋๋ ๋ถ๋ถ์ธ ๊ฒ ๊ฐ์ ์์ง๊น์ง๋ ์ ์ฒ๋ฆฌ๋ฅผ ํ๋ฉด์ "์ด๋ ๊ฒ ํด๋ ๋๋?"๋ผ๋ ์๊ฐ์ ๋ง์ด ํ๊ฒ ๋์ฌ ์ง๋ฌธ์ ๊ณ์ ํ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ฃ์กํจ๋ค ใ ใ ๋ํ scaling์ด๋ ์ด์์น ์ฒ๋ฆฌ๋ฅผ ์ด๋์ ๋ ๋๋๋ค๋ฉด (classification๊ธฐ๋ฐ์ ์๊ณ ๋ฆฌ์ฆ ์ผ๋) feature data ๊ฐ์ correlation๋ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ผ์น๋์ง ๊ถ๊ธํฉ๋๋ค. regression ๊ฐ์ ๊ฒฝ์ฐ์๋ ๋ค์ค๊ณต์ ์ฑ ๋ฌธ์ ๊ฐ ์ํฅ์ด ํฐ๊ฒ์ผ๋ก ์๊ณ ์์ด์ ๋ฌธ๋ ๋ ์ฌ๋์ต๋๋ค.
- 0
- 7
- 840
Q&A
test data๋ฅผ ์์ธกํ ๋ scaling ์ง๋ฌธ
๋ค! ๋ต๋ณ ๊ฐ์ฌํฉ๋๋ค!! 3. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ค๋ก ์ด์ด์ง๋ ์ง๋ฌธ์ ์ ๊ฐ ์ ์ดํดํ์ง ๋ชปํ์ต๋๋ค. 1๋ฒ ๋ต๋ณ๊ณผ ์ฐ๊ด๋ ๋ถ๋ถ๋ ์๋ ๊ฒ ๊ฐ์ผ๋ ๋ค์ ํ๋ฒ ์ฌ ์ ๋ฆฌํด์ ์ง๋ฌธ์ ์ฌ๋ ค์ฃผ์๊ธฐ ๋ฐ๋๋๋ค. => ์ง๋ฌธ1) binary ๋ฌธ์ ์ train ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌ ๋ฐ ์ค์ผ์ผ๋งํ๋ ์์ ์ค์ ์๋ฅผ ๋ค์ด ํน์ feature์ outlier๋ค์ ํด๋น feature์ ํ๊ท ๊ฐ์ผ๋ก ๋์ฒด ํ๋ ค๊ณ ํฉ๋๋ค. ์ด ์ค train ๋ฐ์ดํฐ์ target data class๊ฐ 1์ธ ๊ฒฝ์ ๊ฐ๋ค๋ง ๋์ฒดํด๋ ๋๋ ๊ฑด์ง ๊ถ๊ธํฉ๋๋ค. ์ดํ test data๋ ๊ฐ์ ์์ ์ ์ํํ๋ค๋ฉด test data์๋ y data๊ฐ ์์ผ๋ train data์ ํด์คฌ๋ ์์ ์ ๋ชปํ๊ฒ ๋๋๊ฑฐ ์๋๊ฐ์? => ์ง๋ฌธ2) grid_cv = GridSearchCV(lgbm_clf, param_grid = params, scoring = "precision") grid_cv.fit(X_train, y_train, early_stopping_rounds = 100, eval_metric = "precision", eval_set = [(X_train, y_train),(X_test, y_test)]) ์์์ ๋ต๋ณํด์ฃผ์ ๊ฒ์ฒ๋ผ eval set๊ฐ ํด๋น ์ฝ๋์์ ์ํฅ์ด ์๋ค๋ฉด, eval_metric = "precision", ๋ ์ํฅ์ด ์๋ ๊ฒ์ธ๊ฐ์? scoring = "precision" ๊ณผ eval_metric์ ์ฐจ์ด๋ฅผ ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๋ง์ ๊ฒ์์ ํด๋ดค์ง๋ง ํด๋น ํ๋ผ๋ฏธํฐ์ ๋ํ ์ค๋ช ์ด ์์ธํ ์์ด์ ์ง๋ฌธ๋๋ ธ์ต๋๋ค.
- 0
- 7
- 840
Q&A
test data๋ฅผ ์์ธกํ ๋ scaling ์ง๋ฌธ
๋ต๋ณ ๊ฐ์ฌํฉ๋๋ค!! ๊ทธ๋ ๋ค๋ฉด ๋ง์ฝ์ binary ๋ถ๋ฅ์์ train_test_split๋ฅผ ํตํด test size๋ฅผ 0.3์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ด๋ค๋ฉด grid search cv๋ฅผ ํ๊ธฐ ์ํด์๋ ์ 0.7์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ฅผ validation์ฉ์ผ๋ก ๋ ๋๋์ด eval set ์ ๋ฃ์ผ๋ฉด ๋๋ ๊ฑด๊ฐ์? ๊ทธ๋ฆฌ๊ณ ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋ ์ดํ, ์ต์ข ์ผ๋ก ์์ธกํ๊ณ ์ํ๋ ๋ฐ์ดํฐ ์ ํธ๋ฅผ ํตํด ์์ธก์น๋ฅผ ๋ฝ์ผ๋ฉด ๋๋ ๊ฑด๊ฐ์? ์์ ์ง๋ฌธ๋๋ ธ๋ ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง์ ๊ดํด 0.3 ์ ํด๋นํ๋ test data ๊ฐ ์๋ ์ต์ข ์์ธกํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ ์ ํธ, ์ฆ target value๊ฐ ์๋ ๋ฐ์ดํฐ์ ํธ์๋ ํด์ฃผ๋๊ฒ ๋ง๋ ๊ฑด๊ฐ์? ์ ์ฉ์นด๋ ์ฌ๊ธฐ ๋ถ๋ฅ ๊ฐ์๋ฅผ ๋ฃ๋ค ์๋ฌธ์ ์ด ์๊ฒผ์ต๋๋ค. ํด๋น ๊ฐ์์์ class ๊ฐ 1์ ํด๋น๋๋ feature์ outlier๋ค์ ์ฒ๋ฆฌํ๊ฒ ๋๋๋ฐ ๋ง์ฝ ์ ๊ฐ class1์ ํด๋น๋๋ feature์ outlier๋ค์ ํด๋น feature์ ํ๊ท ๊ฐ์ผ๋ก ๋ณ๊ฒฝํ์๋ค๋ฉด ๊ทธ๋ ๋ค๋ฉด ์ต์ข ์ผ๋ก ์์ธกํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ๋ ์ด๋ค ์์ผ๋ก ์ฒ๋ฆฌํด์ผ๋๋์ง ๊ถ๊ธํฉ๋๋ค ๋ง์ฝ ์ ๊ฐ ์๋์ ๊ฐ์ด light gbm์ ์ํํ๋ค๋ฉด overfitting ๋๋ ๊ฑด๊ฐ์?? grid_cv = GridSearchCV(lgbm_clf, param_grid = params, scoring = "precision") grid_cv.fit(X_train, y_train, early_stopping_rounds = 100, eval_metric = "precision", eval_set = [(X_train, y_train),(X_test, y_test)]) eval_set์ (X_vali, y_vali), (X_test, y_test)์ ๊ฐ์ด ๋ฃ์ด์ผ ๋๋์ง ๊ถ๊ธํฉ๋๋ค ๋ํ ์ ๊ฐ ๋ง์ฝ precision score๋ฅผ ์ค์ ์ผ๋ก ๋ณด๊ณ ์ถ๋ค๋ฉด ์๋์ ๊ฐ์ด ํ๋ฉด ๋๋์ง... scoring๊ณผ eval_metric์ ์ฐจ์ด๋ฅผ ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ง๋ฌธ์ด ๋ง์์ ์ฃ์กํฉ๋๋ค!! ์์ง ๋ง์ด ํท๊ฐ๋ฆฌ๊ณ ๋ฐฐ์ฐ๋ ์ค์ ๋๋ค!! ๋งค๋ฒ ๊ฐ์ฌํฉ๋๋ค
- 0
- 7
- 840
Q&A
Decision Tree parameter ๊ด๋ จ
์ ๋ต๋ณ๊ฐ์ฌํฉ๋๋ค!!! ๊ถ๊ธํ๊ฒ ๋ ์๋๋ฐ ์์๋ธ ๊ธฐ๋ฒ์ ์ด์ฉํ ๋ ์ฌ๋ฌ๊ฐ์ weak learner ๋ฅผ ์ด์ฉํ๋ค๊ณ ์ค๋ช ํด์ฃผ์ จ๋๋ฐ, ์ ๊ฐ ์ดํดํ๊ฒ ๋ง๋ ํ์ธ์ฐจ ์ง๋ฌธ๋จ๊น๋๋ค. ๋ณดํ ๋ฐฉ์์ด๋ฉด weak learner ๋ค์ด ์๋ก ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด์ฌ๋ ์๊ด์ด ์๋๊ฑฐ๊ณ ๋๋ค ํฌ๋ ์คํธ์ GBM์ weak learner๋ฅผ ๋ณดํต decision tree๋ฅผ ์ด์ฉํ๋ ๊ฒ์ธ๊ฐ์? ์ฆ voting ๋ฐฉ์์ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ ๋ฐ๋ฉด boosting ๊ณผ bagging์ decision tree์ ๊ธฐ๋ฐ๋์ด ์๋ ๊ฒ์ธ๊ฐ์? (classifiaction ๋ด์์) ์๋ฅผ๋ค์ด GBM์ weak learner๋ฅผ k-nn์ผ๋ก ์ฌ์ฉํ ์ ์๋ ๊ฒ์ธ์ง ๊ถ๊ธํฉ๋๋ค. ์๋๋ฉด ํ์ฌ ์๋์ ๊ฐ์ ์ฝ๋์์ GradientBoostingClassifier ํจํค์ง์ default estimator๊ฐ decision tree ์ธ๊ฐ์? ํ๋ผ๋ฏธํฐ๋ฅผ ์ ํ ๋ ๋ณดํ ๊ณผ๋ ๋ค๋ฅด๊ฒ estimator๋ฅผ ์ ํ๋ ๊ฒ์ด ์์ด ๊ฐ์๊ธฐ ๊ถ๊ธํ์ต๋๋ค. ๊ฒ์๋ ์ด์ฌํ ํด๋ณด๋ฉด์ ์ง๋ฌธ๋จ๊ธฐ๊ณ ์์ต๋๋ค!!!!! start_time = time.time() gb_clf = GradientBoostingClassifier(random_state = 0) gb_clf.fit(X_train, y_train) gb_pred = gb_clf.predict(X_test) gb_accuracy = accuracy_score(y_test, gb_pred) print("GBM accuracy: {0:.4f}".format(gb_accuracy)) print("GBM consumed time: {0:.1f}sec".format(time.time() - start_time))
- 0
- 3
- 416
Q&A
๋ฌธ๋ฒ ๊ด๋ จ ์ง๋ฌธ...
ํ์ดํ๋ ๋ฐ์ดํฐ๋ก ๊ฐ์ ๋ด์ฉ์ ํ ๋๋ก ๋ถ์์ ๋๋ฆฐ ๊ฒฐ๊ณผ ์ ๋๋ค ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ๊ฐ์ ๋ด์ฉ๊ณผ ๊ฐ์ accuracy๋ฅผ ๋ณด์ด์ง๋ง ๋๋คํฌ๋ ์คํธ์ ๋ก์ง์คํฑ ํ๊ท๋ถ์์์๋ ์ ํ๋๊ฐ ๋ค๋ฆ ๋๋ค. ํน์๋ํด์ ์ ์ฒ๋ฆฌ ๊ณผ์ ๊ณผ ํจํค์ง ์ฌ์ค์น ๋ฑ์ ํด๋ณด์์ง๋ง ์ญ์ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ์ฌ ์ง๋ฌธํ๊ฒ ๋์์ต๋๋ค. sklearn์ ํจํค์ง ๋ฒ์ ์ฐจ์ด์ผ๊น์? ๋ฒ์ ์ด ๋ฌ๋ผ๋ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ผ๊ฒ์ผ๋ก ์์๋๋๋ฐ... ํน์ ๋ฐ์ warning์ด ์ฐ๊ด๋์ด ์๋์ง ๊ถ๊ธํฉ๋๋ค..(์ฌ์ง)
- 0
- 5
- 301
Q&A
๋ฌธ๋ฒ ๊ด๋ จ ์ง๋ฌธ...
๋ต๋ณ ๊ฐ์ฌํฉ๋๋ค!! ๊ทธ๋ฌ๋ฉด ์๋ณธ ๋ฐ์ดํฐ ์ฆ, x_titanic_df (x_titanic_df๊ฐ ์๋ณธ ๋ฐ์ดํฐ๋ผ๋ ๊ฐ์ ํ์) ๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๊ณ ์ ์งํ๊ณ ์ถ๋ค๋ฉด, ๋ฐ๋ก train_x = x_titanic_df.copy() ์ฒ๋ผ ๋ฐ๋ก ๋ณต์ฌ๋ฅผ ํ๊ณ ๋ณต์ฌ๋ train_x๋ฅผ ์ด์ฉํ์ฌ ์ํ๋ ์์ ์ ํ๋ฉด ๋ ๊น์?? ์ ๋ ํจ์์ ๋ฐํ๊ฐ์ x_titanic_df์ ๋ค์ ๋ฃ์ด์ฃผ์ง ์์๋๋ฐ x_titanic_df๊ฐ ์ ์ฒ๋ฆฌ ์์ ์ด ์ํ๋ dataframe์ผ๋ก ๋ฐ๋์ด ์์ด์ ์ง๋ฌธ์ ๋จ๊ธฐ๊ฒ ๋์์ต๋๋ค.
- 0
- 5
- 301
Q&A
folium ์ธ์ฝ๋ฉ ๋ฌธ์
ํญ์ ์์ธํ ์ค๋ช ๊ฐ์ฌํฉ๋๋ค ๊ฐ์ ๋ค์ผ๋ฉด์ ์ด์ฌํ ๋ฐฐ์ฐ๊ณ ์์ด์!! github๋ ์ด์ฉํด ๋ณด๊ฒ ์ต๋๋ค.
- 1
- 7
- 608
Q&A
folium ์ธ์ฝ๋ฉ ๋ฌธ์
์ค!!! folium์์ ํ๊ธ์ด ์ ํํ๋ฉ๋๋ค!! ๊ฐ์ฌํฉ๋๋ค!! ํด๋น ํจํค์ง๋ฅผ ์ค์นํ์์๋ ์ฃผํผํฐ ๋ ธํธ๋ถ ์์์ ํ๊ธ์ด ์ ํํ๋๋ ๊ฒ์ด folium์ ์ด์ฉํ ์๊ฐํ์๋ง ์ ํ๋ ๊ฒ์ด ์๋๋ผ ์ ์ฒด์ ์ผ๋ก ์ ์ฉ๋๋ ๊ฒ์ธ๊ฐ์?? ์์ง ๊นํ๋ธ๋ ์ด๋ป๊ฒ ์ฌ์ฉํ๋์ง ์ ๋ชจ๋ฅด๊ฒ ์ด์์.. ใ ใ
- 1
- 7
- 608
Q&A
๋ฐ๋ณต๋ฌธ ๋ฐ์ดํฐ ๊ตฌ์กฐ (๋ฆฌ์คํธ ์์ ์ญ์ )
num_list๋ฅผ ๋ค๋ฅธ ๋ณ์์ ๋ณต์ฌ ํ๋ฉด ๋๋ ๊ฒ ๊ฐ์๋ฐ ์์ง ์์์ ๋ฌด์์ด ๋ฌธ์ ์ธ์ง ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค;; ใ ใ (์ฌ์ง)
- 0
- 2
- 360
Q&A
์กฐ๊ฑด๋ฌธ ์ง๋ฌธ
๋ต ๊ฐ์ฌํฉ๋๋ค~
- 0
- 2
- 184




