묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제1
train 데이터를 별도 분리안하고 범주형은 라벨 인코더로 스케일링하고나서 수치형데이터도 값이 큰건 minmaxscaler나 robustscaler로 적용하고 싶어서 개별 컬럼 선택해서 적용해보는데... 에러가 뜨는데 머가 문제인지 알수 있을까요?수치형 범주형 개별로 스케일링 하고 싶으면 데이터를 분리했다가 다시 합쳐야 하는 걸까요?train['Total_Trans_Amt'] = scaler.fit_transform(train['Total_Trans_Amt']) test['Total_Trans_Amt']=scaler.transform(test['Total_Trans_Amt'])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3번 질문
안녕하세요 드디어 내일이네요작업형 3유형이 어떻게 나올지 몰라 조금 걱정이 되면서 이것저것 다시 복습하고 있었는데,가설검정을 하기 위한 전제 조건으로는데이터의 정규성과 등분산을 검정 해야 한다고 알고 있습니다. (shapiro, levene)이 때 도출 된 p값이 유의수준(알파) 보다 높아야 귀무가설이 채택되며 가설검정을 할 수 있는데,작업형 예시 3유형 쌍체표본(ttest_rel) 검정 시, 강의영상에는 뮤값(이후혈압 - 이전혈압)에 대해따로 검정(정규성, 등분산)을 안 하셨던데 정석대로라면 해야 하는게 맞는건가요?(당연히 문제에는 가설검정이 진행을 할 수 없도록 문제는 내지 않겠지만요) 만약 정규성과 등분산 검정해서 귀무가설이 기각 되면 (정규성이나 등분산을 만족하지 못하면),어떻게 진행을 해야 할까요? (윌콘슨 검정 등을 통해 진행 해야 하는건지요?) 첫 유형이라 예시문제 정도 수준으로 나올 것 같긴한데, 준비를 하면 할 수록 더 걱정이 되네요 ㅎ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 데이터 주어지는 개수에 따라
안녕하세요 선생님! 먼저 좋은 강의 정말 감사드립니다!@작업형 2를 풀다보니.. 데이터가 2개 주어지는 경우와 3개 주어지는 경우로 나뉘어지는데! 2개 주어지는 경우는 분할을 한다고 기억하면 되는 걸까요??!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2) 질문있습니다.
강사님, x_train, y_train을 굳이 concat하지 않고 바로 진행해도 문제 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict_proba 와 predict
안녕하세요! 시험 앞두고 갑자기 한번 더 확인하고싶은 사항이 있어 문의드립니다 ㅠㅠ!예측할 pred작성시 평가방법이 roc_auc_score 일때만 predict_proba를 사용했었는데, 이거 말고도 혹시 proba를 붙여서 써야하는 경우가 또 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 예시 문제 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형3 예시문제 1번 표본평균 구하는 문제 관련 질문드립니다. 1번 표본평균을 구할 때, df['diff'] 열을 만든 후에 바로 평균을 구한 값으로 제출하면 된다고 하셨는데 이 부분이 이해가 안 가 문의드립니다. (df['diff'] = df['bp_after'] - df['bp_before'])뮤 값이 (치료 후 혈압 - 치료 전 혈압)의 평균값이면df['diff']의 평균 값을 구한 후에 그 값을 다시 평균을 내야하는게 아닌가 해서요! 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
지수표현식 문의
시험에서 지수표현식 사용안하는 코딩을 쓰지 않아도 되나요? 시험에서 문제될 게 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7번 문제 이 풀이도 맞는 풀이인가요?
(사진)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
그룹별로 최댓값 구하기
[코드 1]b = a.groupby(['neighbourhood_group','neighbourhood']).size().reset_index(name = '컬럼의 갯수')b = b.groupby(['neighbourhood_group'], as_index=False).max()print(b)[코드 2]b = a.groupby(['neighbourhood_group','neighbourhood']).size().reset_index(name = '컬럼의 갯수')b = b.sort_values('컬럼의 갯수', ascending=False)b = b.groupby('neighbourhood_group').head(1) 코드1번과 코드 2번의 결과값이 다른 이유가 무엇인지 모르겠습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 오류multi_class must be in ('ovo', 'ovr') 해석 및 해결 방법 문의 드립니다
roc_auc_score 시 multi_class must be in ('ovo', 'ovr') 오류 해석 및 해결 방법 문의 드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
메모리 오류 관련
안녕하세요작업형 2관련 마지막으로 시험환경으로 연습해보고 있는데 갑자기 'killed' 오류 메세지가 나면서 모델링이 되지 않습니다. 기존 코랩과 비슷하게 했는데 어떤 차이가 있을까요?? import pandas as pdX_test = pd.read_csv("data/X_test.csv")X_train = pd.read_csv("data/X_train.csv")y_train = pd.read_csv("data/y_train.csv")# 사용자 코딩pd.set_option('display.max_columns', None)pd.options.display.float_format = '{:.3f}'.formatX_train = X_train.drop('cust_id', axis = 1)cust_id = X_test.pop('cust_id')X_train = X_train.fillna(0)X_test = X_test.fillna(0)cols_n = ['총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기']cols_c = ['주구매상품', '주구매지점']from sklearn.preprocessing import RobustScalerscaler = RobustScaler()X_train[cols_n] = scaler.fit_transform(X_train[cols_n])X_test[cols_n] = scaler.transform(X_test[cols_n])from sklearn.preprocessing import LabelEncoderfor col in cols_c: le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col])from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state = 38)model.fit(X_train, y_train)pred = model.predict_proba(X_test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
튜닝 관련
안녕하세요 튜닝하다가 궁금한 점이 생겼는데요max_depth는 기본이 3이고 3~12 를 넣어보라고 하셨는데,2나 1을 넣어서 roc_auc_score가 높아지면 낮춰도 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 및 강의 문의드립니다.
안녕하세요. 이제 막 강의를 듣기 시작했는데요. 혹시 교재는 별도로 판매하시나요?그리고..지금 커리큘럼에는 작업형 3에 관한 강의는 없는데요. 혹시 나중에 작업형 3에 관한 강의는 업데이트가 되는건가요? 아니면 작업형 3에 관한 것은 새소식에 올려주신 글들을 참고하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc
roc_auc로 할 때1) 이진 분류 구할 때(=양성인 확률값을 구하는 것)pred = 모델.predict_proba(X_val)roc_auc_score(y_val, pred[:,1])pred_final = 모델.predict_proba(X_test)submit = pd.DataFramd({'pred': pred_final[:,1]})2) 다중 분류 구할 때(= 각 클래스에 대한 확률값을 구하는 것)pred = 모델.predict_proba(X_val)roc_auc_score(y_val, pred,multi_class='ovr')pred_final = 모델.predict_proba(X_test)submit = pd.DataFramd({'pred': pred_final[:,1]})=> roc_auc를 쓸 때는 predict는 안쓴다고 보면 되는 건가용?=> 이 정도만 알면 되는 걸까용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model.fit에러
작업형2 기출2회 풀다가 에러가 생겨서 문의드립니다.원인이 뭘까요...ㅠ from sklearn.ensemble import RandomForestClassifier model= RandomForestClassifier(random_state=200) model.fit(X_tr,y_tr) pred=model.predict_proba(x_val) [전체코드]import pandas as pdX_train=pd.read_csv('X_train.csv')y_train=pd.read_csv('y_train.csv')X_test=pd.read_csv('X_test.csv')X_train=X_train.drop(['ID'], axis=1)IDX=X_test.pop('ID')from sklearn.preprocessing import LabelEncoderla=LabelEncoder()cols=['Mode_of_Shipment','Product_importance','Gender']for col in cols: X_train[col]=la.fit_transform(X_train[col]) X_test[col]=la.transform(X_test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val=train_test_split(X_train, y_train['Reached.on.Time_Y.N'], test_size=0.2, random_state=200)# 모델링from sklearn.ensemble import RandomForestClassifiermodel= RandomForestClassifier(random_state=200)model.fit(X_tr,y_tr)pred=model.predict_proba(x_val)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형질문입니다
대응표본과 독립표본이 정규분포를 따르는지 아닌지에 따라서 문제가 나올 가능성도 있나요?ex) wilcoxon, mannwhitneyu
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_test_split는 언제 해야하나요?
항상 답변 감사합니다.어떤 문제는 train_test_split로 나누지 않았고, 5회차 작업형2에서는 나눴는데혹시 어떤 기준인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[]순서..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요Print 구문에서[cond1]과 [‘views’]의 순서가 왜 이렇게 되는지 궁금합니다.print(df[‘views’][cond1].mean())는 안되나요?[] []이 나열되는 기준이 궁금합니다 ㅠㅠ잘 이해가 안가요… ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
쌍체표본 ttest_rel 질문입니다.
선생님 안녕하세요, ttest의 검정통계량을 구할 때, 입력된 순서에 따라 양수가 나오는경우와 음수가 나오는 경우가 있어 혼동이 되어 질문드립니다.stats.ttest_rel(A,B, alternative = 'less') 와 stats.ttest_rel(B,A, alternative = 'greater')을 같은 의미로 볼 수 있을까요? A와 B의 순서를 바꿔주고 alternative값을 반대로 바꿔준 경우입니다.이럴경우, t-score가 양수/음수값으로 나누어서 출력되는데, 어떤것이 맞는것인지 질문 드릴 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 관련
슬라이싱 관련 궁금한 점이 생겼는데요언제 iloc, loc를 사용하는 것일까요?열을 선택할 때 쓰는 것이라고 생각해왔었는데pred_proba에서 1일 확률을 선택할 때 iloc를 안 쓰더라구요...model = lgb.LGBMClassifier() model.fit(X_tr, y_tr) pred_proba = model.predict_proba(X_val) pred = model.predict(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(accuracy_score(y_val, pred)) print(f1_score(y_val, pred)) submit = pd.DataFrame({ 'id' : id, 'output' : pred_proba[:,1] }) submit.head()