묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 채점기준
분류에서 roc_auc_score회귀에서 mse 등 자체적으로 검증데이터 평가 진행 시 각 평가지표 별로 몇점 이상 나와야지 40점 만점 획득 가능할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전) 제출값 궁금합니다
예시문제 작업형2(신 버전) 제출csv 팡리 형식 예시를 보면pred컬럼에 0또는 1이 있는데1(남자)일 확률 (0.xx)로 제출하는 것이 헷갈립니다...정확하게 확률로 구하는거였으면 형식 예시를 다르게 보여줘야하는게 아닌가해서요 문제가 정확하지않는건지아니면 roc-auc 문제는 '양수'를 택했을 때 확률을 구하는건지 알려주세요~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(체험)제2유형 튜닝
우선 선생님 강의 매우 잘 듣고 있습니다. 공부하는데 너무 큰 도움 주셔서 감사합니다.(체험)제2유형 질문 드립니다.roc-auc-score 결과값이 모델 튜닝을 이것저것 해보아도 0.6을 넘지 못하네요. =============================================================import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.describe())# # 사용자 코딩 # target 성별pd.set_option("display.max_columns", None)# train = train.drop(["회원ID", "환불금액"], axis=1)# test = test.drop(["회원ID","환불금액"],axis=1)train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)train = train.drop(["환불금액"], axis=1)test = test.drop(["환불금액"],axis=1)# print(train.head(2))n_list = ['총구매액', '최대구매액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']# from sklearn.preprocessing import RobustScalerfrom sklearn.preprocessing import StandardScaler# scaler = RobustScaler()scaler = StandardScaler()train[n_list] = scaler.fit_transform(train[n_list])test[n_list] = scaler.transform(test[n_list])cols = ["주구매상품", "주구매지점"]from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target = train.pop("성별") from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=20, max_depth=5, n_estimators=500)rf.fit(X_tr, y_tr)pred = rf.predict(X_val)from sklearn.metrics import roc_auc_scoreresult = roc_auc_score(y_val, pred)print(result)===============================================================작성 코드인데, 어떤걸 추가 해야 결과값이 더 좋을수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 적합도검정 문의
선생님 안녕하세요!적합도 검정 강의에서, [문제] 지난 3년간 빅데이터 분석기사 점수 분포가 60점 미만: 50%, 60-70점 35%, 80점이상 15%로였다. 이번 회차부터 단답형을 제외하고, 작업형3을 추가하여 300명을 대상으로 적용한 결과 60점 미만: 150명, 60-70점: 120명, 80점이상: 30명이었다. 이 문제에서 #관찰 ob = [150, 120, 30] #기대 ex = [0.5*300, 0.35*300, 0.15*300] from scipy import stats stats.chisquare(ob,ex) 코드를 이렇게 작성하셨는데요.캐글 T3-Chisquare에서 해당 문제를 같은 코드로 하려니.. 오류가 납니다ㅠ에러메시지는 다음처럼 나오는데.. 혹시 인강과 캐글은 어떤 차이가 있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 작업형 2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강의에서는 원핫 인코딩 후 분류 예측모델을 만들었는데, 저는 결측치, 이상치가 없어 전처리는 따로 진행하지않고수치형- MinMax 스케일링범주형- 라벨 인코딩 두가지 피처엔지니어링 진행한 후 바로 랜덤포레스트 모델 만들고 학습 및 예측 하여 제출해도 무방한가요?검증 데이터로 나누는 작업(f1-score) 이것도 하지 않으면감점인지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 split 관련
섹션 11. 예시문제 작업형 2유형에서 질문드립니다 train.val 데이터셋 구분할 때 이미 cols 을 적용해서x_tr,x_val,y_tr,y_val = train_test_split(train[cols], target, test_size = 0.15, random_state= 2023)이런식으로 구분을 했는데model에 적용할때도 꼭 cols 컬럼을 지정해줘야하나요? model.fit(X_tr,y_tr)pred = model.predict_proba(X_val)이렇게만 적으면 안되나요? 수치형데이터에서는 cols 컬럼을 지정해서 model.fit 을 했는데문자형 데이터에서는 또 cols 컬럼을 지정하지 않았는데 다르게 데이터를 넣는 이유가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제 2회 기출 작업형 2번 문제 관련 질문입니다.
안녕하세요 선생님. 문제풀이 중 궁금증이 있어 글 남깁니다.작업형 2번 문제 중 X_train 데이터와 y_train 데이터가 나뉘어 문제가 출제되었을 때, 풀이 중에 concat을 사용하여 두 데이터를 합쳐서 진행하는 부분이 있었습니다.이 부분에서 저는 df라는 변수를 생성하여 두 데이터를 합쳤고 그대로 문제풀이를 진행했는데,이렇게 문제를 풀어도 결과값은 제출이 가능하였습니다.하지만 강의 중 풀이에서는 합치기 전 데이터로 진행하시는 것으로 인지하는데, 애초에 제가 풀이한 대로 진행해도 문제가 없는지, 실제 시험에 3개의 데이터로 출제됐을 때 이렇게 문제풀이를 진행해도 되는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션12 작업형 2회 기출유형
섹션12 작업형 2회 기출유형아래처럼 풀이했을 때, TypeError: float() argument must be a string or a real number, not 'LabelEncoder' 오류메시지 뜹니다. 어디서 오류가 난건지 이러한 풀이방법은 잘못된건지 알 수 있을까요? # EDAX_train = X_train.drop(columns = ['ID'])X_test_id = X_test.pop('ID')y_train = y_train.drop(columns = ['ID']) # 수치형 데이터 스케일링num = ['Customer_care_calls', 'Customer_rating', 'Cost_of_the_Product', 'Prior_purchases', 'Discount_offered', 'Weight_in_gms']from sklearn.preprocessing import RobustScalerscaler = RobustScaler()X_train[num] = scaler.fit_transform(X_train[num])X_test[num] = scaler.fit_transform(X_test[num]) # 범주형 데이터 원핫인코딩cols = ['Mode_of_Shipment', 'Product_importance', 'Gender']X_train = pd.get_dummies(data = X_train, columns = cols)X_test = pd.get_dummies(data = X_test, columns = cols) # 범주형 데이터 라벨인코딩from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()X_train['Warehouse_block'] = encoder.fit(X_train['Warehouse_block'])X_test['Warehouse_block'] = encoder.fit(X_test['Warehouse_block']) # 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size = 0.2, random_state = 2023) # 모델 및 평가from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr, y_tr)pred = model.predict_proba(X_val) # 평가from sklearn.metrics import roc_auc_scoreroc_auc_score(y_val, pred[:, 1])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 csv 제출
시험환경 테스트에서는 csv파일명을 : result.csv로 제출하라고 되어있는데실제 시험에서는 수험번호를 파일명으로 제출하나요? 강의 속에서는 항상 수험번호를 csv 파일명으로 만들어서 궁금해서 문의 드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출유형 마지막 문제
United kingdom 단독이 아닌 포함된 country를 찾으려면 어떤 방식을 사용할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모델 선택 질문 드립니다.
안녕하세요~ 수강생입니다!작업형2 유형을 풀다보니 문득 궁금한 점이 있어서 질문 올립니다. 만일 실전에서 회귀문제 RMSE를 묻는 문제라고 가정한다면....모델을 아래 코드 예시와 같이 다양하게 할 수 있을텐데요..#### 랜포를 썼을 경우 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=2023, max_depth=5) model.fit(X_tr, y_tr) pred = model.predict(X_val) from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error def rmse(y_test, y_pred): return np.sqrt(mean_squared_error(y_test, y_pred)) # print('r2_score:', r2_score(y_val, pred)) # print('mean_absolute_error:', mean_absolute_error(y_val, pred)) # print('mean_squared_error:', mean_squared_error(y_val, pred)) # print('rmse:', rmse(y_val, pred)) #### 부스트를 썼을 경우 from xgboost import XGBRegressor model = XGBRegressor() model.fit(X_tr,y_tr) pred=model.predict(X_val) from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error def rmse(y_test, y_pred): return np.sqrt(mean_squared_error(y_test, y_pred)) # print('r2_score:', r2_score(y_val, pred)) # print('mean_absolute_error:', mean_absolute_error(y_val, pred)) # print('mean_squared_error:', mean_squared_error(y_val, pred)) # print('rmse:', rmse(y_val, pred) 예를들어 위 예시 코드 중에 랜포가 부스트보다 성능이 좋았다면,최종 제출해야 하는 것은 아래의 코드처럼 1) 랜포나 부스트 둘중에 성능이 좋은 것을 선택, 2) 각 모델에서 하이퍼파라미터 튜닝을 해본 후에 질문의 RMSE가 성능이 제일 잘 나온 것(하이퍼파라미터 값 고정)으로 쭉 뒤에 코딩하고 제출하면 되는 건가요?결국 1)번과 2)번의 불필요한 모델이나 평가방법은 주석 처리하거나 삭제처리문제의 RMSE 성능을 봐야하는데 RMSE 코드를 잘모를 경우를 대비하여 sklearn.metrics에 질문의 RMSE 외에 r2_score, mean_absolute_error, mean_squared_error 값들을 한번 보는 용도인거죠? #### 랜포를 썼을 경우 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=2023, max_depth=5) model.fit(X_tr, y_tr) pred = model.predict(X_val) from sklearn.metrics import mean_squared_error def rmse(y_test, y_pred): return np.sqrt(mean_squared_error(y_test, y_pred)) # print('rmse:', rmse(y_val, pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치가 있는 행을 제거할 때
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 df = pd.DataFrame({ '날짜': ['20220103', '20220105', None, '20230127', '20220203', '20220205', '20230210', '20230223', '20230312', '20230422', '20', '23'], '제품': ['A', 'B', None, 'B', 'A', None, 'A', 'B', 'A', 'B', 'A', 'A'], '판매수': [3, None, 5, 10, 10, 10, 15, 15, 20, None, 30, 40], '개당수익': [300, 400, 500, 600, 400, 500, 500, 600, 600, 700, 600, 600] 판매수 컬럼에 결측치가 있는 행을 제거하라고 할 때, df = df['판매수'].dropna()df = df.dropna(subset = '판매수')1번과 2번의 차이는 무엇인가요? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업 2유형 질문드립니다!
저는 문제를 풀이할 때 고객의 성별을 예측하라고 해서 roc_auc를 사용했지만 predict를 사용했습니다. 하지만 이번에 올려주신 강의를 보고 roc_auc는 proba를 사용해야된다고 알게되었는데요,proba는 어차피 분류모델에서만 적용되는걸로 알고있는데 그렇다면 분류모델에서 사용가능한 평가지표(f1 스코어, 정확도, 재현율 등) 별 정해져있는게 있을까요? predict 를 써야하는지 predict_proba를 사용해야되는지요...! 확률과 확률값에 대한 차이가 도통 감이 안와서 문의드립니다. 예를들어 평가지표가 주어지지 않고 이 문제에서 단순히 백화점 구매 고객의 성별을 예측하라는 말을 읽고 어떻게 확률값을 구하라는것을 알 수 있을까요..? 예시결과도 단순히 0과 1로 나와있어서 오히려 더 궁금합니다.사실 제가 predict를 사용한것도 예시결과가 0, 1로 되있어서 그런건데 확률값을 구한다고 하면 proba로 구했을때처럼 0.45 이런식의 소수점이라 생각했거든요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
셤이 코앞이라.. 작업형 3 유형 도저히 감이 안 오는데요..
이제 일주일 남은 시점에서.. 3유형 어떤 부분을 중점으로 학습하면 도움이 될까요 ? 비모수 검정까지 공부 하려니 좀 벅찹니다.. ㅠ ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3 y_test 결과값 조회시 0.87이 나오면 점수가 그렇게 반영되는건가요?
영상 마지막 부분에 선생님께서 y_test 결과값 조회시 0.87이 나오면 작업형2번 문제에 대해서 배점이 100%를 만점으로 쳤을 때 87%의 배점이 반영되는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션4 작업형 모의문제3/문제7번 관련
안녕하세요! 섹션4 모의문제 7번 관련하여, 행으로 되어있는 2001,2003의 평균과 데이터를 비교하는 문제인데요,앞에서의 문제4처럼 열과 행을 바꿔주어 아래처럼 코딩해도 되는것인지 문의드립니다.값은 동일하게 나오더라구요. df=df.Tprint(sum(df[2001]>df[2001].mean())+ sum(df[2003]<df[2003].mean()))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러메시지 마주하기 - 4번 에러 관련
안녕하세요!4번 에러에서 이상값을 x_train과 y_train에 동일하게 삭제해 주어야 하는것을 보았는데요,이상치 삭제의 경우, x_test에서는 동일하게 삭제하지 않는 것인지 문의드립니다. x_test는 주어진대로 돌려야 하는걸까요? 또한 train데이터를 train/val 나누는 경우는 나누기전에 미리 파일을 합쳐서 이상치 삭제를 하면 되는 것일까요~ ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 label encoding
작업형 2유형 라벨 인코딩 할 때다른 교재에서는 X_train 과 X_test 데이터를 모두 fitting 시키던데수업에서 다룬 X_train은 fit_transform 시키고 X_test는 Transform만 시키는 방식과어떤 차이가 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오즈비 노션 어디 있나요?
어디 있는지 보이지가 않네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 변수를 변환 할 때 문의 드립니다.
작업형 2에서 변수 unique 수에 따라서 원핫 혹은 라벨 인코딩을 한다고 하던데 보통 몇개를 기준으로 하나요 ? unique 가 많을 때 원핫이 유리한지 라벨인코딩이 유리한지.. @ @ 헷갈려서요..