월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 질문
작업형 2유형의 경우, 랜덤 포레스트 모델을 사용하기 전에범주형 (object, category...)에 해당하는 데이터에 원핫인코딩을 적용하는 것으로 알고 있습니다.일부 강의에서는 select_dtypes로 해당하는 데이터들을 찾아서 그 부분들만 원핫인코딩을 한 것으로 알고 있는데, 기출에서는 그냥 train이나 test 데이터 통째로 get_dummies 사용하신 것 보고 궁금증이 남아 문의 드립니다. 굳이 범주형, 수치형 구분하지 않고 get_dummies 에 적용해도 될까요?두 번째 질문으로는,, 작업형 2유형 문제에서 가령 roc_auc_score 를 평가 지표로 삼아라 ~ 따위의 문제가 나오는데 이때 roc말고 f1_score같은 분류 문제에서 사용되는 다른 평가지표를 사용하게 된다면 감점의 요인으로 작용할까요?두 가지 질문 드리고 싶습니다. 양질의 강의 감사합니다!
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀분석
1.강의가 많아서 로지스틱 회귀분석 부분을 못 찾겠습니다어느 부분을 봐야할까요? 2작업형3 예시 문제 해설에서 로지스틱 회귀분석이 '분류'모델이라고 하셨는데회귀분석에 분류와는 어떻게 다른지 궁금합니다.. 3갑자기 C로 변수를 묶는것도 이해가 안되는데 언제 묶는건지 궁금합니다... 분산분석에서만 C로 묶는것인지, 로지스틱에서도 쓰는건지요.
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가 방법
문제에서 f1, roc auc 등 다양한 방법으로 평가를 하게 하는데, 평가가 틀리거나ㅡ다른 방법으로 평가를 진행하더라도 불이익이ㅡ없나요?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 평가할 때 pos_label 사용 방법 질문입니다.
질문 : f1_score 혹은 recall_score 때, pos_label을 두 가지로 사용할 수 있고, 이렇게 사용하는 것 맞죠? 1번 방법 : 타겟값을 미리 0,1로 변경y_train = (y == '>50K').astype(int) f1_score(y_val, pred, pos_label = 1) 2번 방법 : 타겟값을 모델 평가할 때 pos_label로 0,1로 변경f1_score(y_val, pred, pos_label = '>50K') 시험이 다가오니 사소한 것도 확인 받아야 마음이 편하네요. 매번 감사합니다 ㅠㅠ
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델학습
피쳐엔지니어링에서가장 베이직한 방법이범주형 데이터 - > 인코딩 진행 후 평가 하는 방법이 맞을까요 모델을 학습하는 여러가지 방법을 정리해보려고 하는데 맞는지 확인부탁드립니다 ㅠ ㅠ데이터 : 범주형+수치형 데이터범주형 인코딩 -> 모델학습 (범주형만 학습 )-> 평가 범주형 인코딩 -> 모델학습 (범주형+수치형 학습) - > 평가수치형 스케일링 -> 모델학습 (수치형 )-> 평가범주형 인코딩 + 수치형 스케일링 -> 모델학습 (범주형+수치형 학습)-> 평가보통 1이랑 2중에 2을 일반적으로 많이 사용하나요?그리고 다른 모델은 테스트 안해보고 랜덤포레스트만 사용하고 제출하게 되면 점수에 영향이 많이 미칠까요..?보통 어떤 모델 사용하면 좋을지 추천 부탁드립니다 ㅠㅠ
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델에 대한 평가가 끝나면 그대로 두나요?
질문 : roc_auc_score, f1_score, r2_score 등 모델에 대한 평가가 끝나면 제출하기 전에 주석처리하나요? 모델에 대한 평가가 끝나면 중요한 건 test제출인 것 같은데, 시험 제출하기 전 모두 주석 처리해야하나요? 시험이 다가오니 사소한 것도 확인받고 싶네요 ㅠㅠ 매번 감사합니다.
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2 모의 문제 1번에서 범주형 라벨링(삭제 /원핫/ 라벨링) 을 하면서 모델 성능을 비교했는데, 수치형 스케일링( 민맥스., 로버스트, 스탠다드) 는 따로 진행하지 않으신 이유가 있을까요~? 시험에서는 수치형 스케일링도 적용 하면서 함께 비교하는게 좋을까요? 그렇게되면 인코딩 x 스케일링경우의수가 9개가 되어 모두 비교하는게 좋은지 궁금합니다!
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightGBM관련 질문입니다!
라벨인코딩해도 상관이 없을까요?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 작성법
유형 2의 경우 csv파일을 만들어서 오른쪽 위의 제출 유형1,3은 따로 페이지를 넘어가서 답안 작성하는것이 맞나요?강의에서는 이런식으로 마지막 값이 출력되는 코드까지 작성해주시는데 print(int(df.loc[7, '교사수'])) 1717이라는값이 눈에 보이면 풀이코드를 적지않고 답안에 값만 적어도 정답으로 인정되는건가요?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 질문입니다!
시험에서 LGB만 사용할 생각이면... 평가지표(f1, rmse 등..)를 굳이 돌리지 않고 제출해도 문제가 없을까요..?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 ,2
작업형2번에서 분류인지 회귀인지는 정확히 어떻게 구분하나요?원핫 인코딩 할 때 아래 1~4까지 다 가능한 식일까요? c_train = pd.get_dummies(c_train[cols]) ---1c_train[cols] = pd.get_dummies(c_train[cols]) ---2c_train = pd.get_dummies(c_train) ----3c_train[cols] = pd.get_dummies(c_train) ----4<=50K -> 0,>50K -> 1 을 예측하는 문제에서 y = (y_train['income'] == '>50K').astype(int) 이거말고 원핫 인코딩이나 라벨인코딩을 할 수 있나요?회귀 rmse 에서 np.exp() 해주는 이유가 뭔가요?roc_auc 평가지표 일때는 분류문제에서만 가능한가요?roc_auc 말고 확률을 구하는 평가지표는 없는걸까요? 결측치를 제거할 때, x_train,y_train,x_test 데이터 셋이 있을 경우y_train에 대해서는 이상치, 결측치가 존재 하지 않는거죠? 그리고 y_train에는 피쳐엔지니어링은 진행안하는거죠? y_train은 정답 데이터기때문에 이상치나 결측치가 존재하지 않고 아무런 처리를 하지 않는다고 보면 될까요? 원핫인코딩을 할 때 전체 데이터 셋에 대해서 넣게 되면 pd.get_dummies(c_train) y_train 값은 뺀 뒤에 원핫인코딩을 진행해야 되는 건가요? x_train, x_test 에 대해서만 결측치, 이상치, 피쳐엔지니어링을 진행 한다고 보면 될까요?x_train,x_test 에 대해서 결측치가 존재할 때, 행 삭제를 하면 안되니까 절대 dropna를 사용하면 안된다고 생각하면 될까요? 대신 컬럼 삭제는 가능하지만, x_test의 target 컬럼만 제외하고 컬럼 삭제가 가능하다고 생각하면 되나요? (컬럼삭제를 잘 사용하지 않긴하지만 혹시나 궁금해서 여쭤봅니다 )
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다른문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업 3유형 다른 기출을 풀어보고 있는데 선회회귀 문제에서 import statsmodels.formula.api as ols model = ols('weight ~ age + Cholesterol', data=df).fit() model.summary하였더니 TypeError: 'module' object is not callable 이런 오류가 나왔는데 어떤건지 알 수 있나요...?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석 및 분산분석 범주형 변수 처리 문의
회귀분석의 경우 ols 함수 사용시 자동으로 원핫 인코딩을 하기에 범주형변수를 C처리를 안해줍니다.하지만 분산분석은 ols 사용시 독립변수가 범주형 변수이면 C처리를 해줘야하는데 이렇게 구분해서 사용하면 되는건가요? 같은 ols함수인데 회귀분석이냐 분산분석이냐에 따라 사용법이 조금 달라 헷갈려서 확인차 문의드립니다. 추가로, 시험환경예시 작업형 유형3 에서는 회귀분석에서 Logit 모형을 사용하는데 범주형 변수를 C처리 했는데 그냥 모두 범주형 변수는 C처리 해주는게 나을까요..?ㅠ
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len,sum
선생님 데이터 갯수를 구할때 len이랑 sum을 쓰는데어떤 문제는 sum을 쓰고 언제는 len을 쓰던데 혹시 어떻게 구분해야 할까요?ㅠㅠ
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
C를 사용하는 법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수치형이면서 범주형인 값에 C값을 넣어주면 되는거 맞나요?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 재구조화 melt 하는 이유
일원분산분석에서 아노바테이블을 이용하여 분석할 때 재구조화하는 이유가 궁금합니다! 이원분산분석에서는 따로 재구조화 할 필요는 없는 건가요!!?
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 제출 관련 질문있습니다.
안녕하세요, 선생님.수강생입니다.. 선생님 강의 여러번 반복해서 공부했는데 부디 이번에 꼭 합격하길.... ㅠㅠ한가지 질문이 있어서 글 남깁니다.. 어찌보면 아주 기초적인 질문입니다. 작업형 1유형과 3유형은 제출하는 공간이 따로 있어서 헷갈리지 않는데요~작업형 2유형은 중간 중간 print로 값 체크하고 마지막에는 전부 주석 처리 하는 것까지 이해했습니다. 그렇다면 정말 최종적으로는 submit으로 to_csv('result.csv') 파일 제출까지 하고 제대로 제출했는지 한번 read_csv 해서 확인한 후에는 read_csv 프린트로 확인한 것도 주석 처리 필수인가요? 마지막은 to_csv('result') 로 코드가 끝나야 하는지 궁금합니다 ㅠㅠ
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과적합 계산 질문
안녕하세요, 혹시 작업형2에서 과적합을 계산할 때, 검증데이터 분리 후-> 모델학습 후 -> 아래와 같은 코드로 계산하는 것이 맞을까요?계속 train과 과적합이 심한데(train_f1= 0.9, test_f1= 0.7).. 실제 데이터셋을 줄 때는 과적합이 나진 않겠죠? #과적합 평가 # 훈련 세트에서의 예측 및 F1 Score 계산 train_pred = model.predict(x_tr) train_f1 = roc_auc_score(y_tr, train_pred) print("Training F1 Score:", train_f1) # 검증 세트에서의 예측 및 F1 Score 계산 val_pred = model.predict(x_val) val_f1 = roc_auc_score(y_val, val_pred) print("Validation F1 Score:", val_f1)
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 민맥스스케일링에 대해 다시질문할게용 ㅠㅠ
강의에서 코딩하셨던 민맥스스케일링 코드에서 범주형 수치형데이터 분리없이 바로 X_train[cols]로 써도되나요? )2,. 코딩 옆에 n_train[cols]=scaler.fit_transform[cols] 라고 적혀있었는데 여기서 왼쪽의 n_train[cols]를 n_train으로 바꿔적어도될까요? 안되면 그 이유가 궁금합니다
- 해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 질문 드립니다.
안녕하세요. 데이터를 불러오는 것 조차 못하던 제가 지금은 어느 정도 작업을 수행하고 있네요..ㅎ갑사합니다!! 작업형 2번 concat에 관해 여쭙고 싶은게 있어서 질문드립니다. train,test (2개의 데이터가 주어진 경우 / train, test 컬럼에서 내용이 다를 때 인코딩)df=pd.concat([train, test],axis=0) 후 인코딩 하고분리 : train=df[:train,shape[0]].copy() test=df[train,shape[0]:].copy() 이렇게 하는 것은 알고 있습니다. <질문>그러면 데이터가 3개(X_train, Y_train ,test)이렇게 주어진 경우 train=pd.concat([X_train, Y_train],axis=1)로 변경하고 작업을 계속 해도 무방한가요?아니면 다시 분리를 해줘야 하나요? 또 분리를 해야한다면 코드도 궁금합니다!또한, 위에 1번에서는 axis=0을 한게 컬럼이 동일 하기 때문에 행으로 합친것이고 2번에서 axis=1로 한 것은 옆에다(열 쪽으로) 합쳐야 하기 때문에 그런거겠죠?!