묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
x_train, y_train 분리 시
현재는 train.csv로 출제되기에,인코딩 전 타겟데이터를 분리해서target = train.pop('col') 하잖아요? 만약 x_train, y_train 분리 시, 인코딩 전에(혹은 아무 과정에서나)target = y_train.pop('col') 처럼 분리해도 되죠?이 과정이 모델링 시,model.fit(x_train, y_train['col'])과 마찬가지인 것이죠??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형3 2-2 번문제
solar 와 o3 가 고정된 상태의 다중선형회귀 분석이면 temperture ~ wind 로 회귀분석을 해야 하는거 라고 생각했습니다그냥 위에서 한거 그대로 활용해서 pvalue 값만 가져와도 되는건가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBClassifier 관련 문의
기출 6번 유형 2번에서 XGBClassifier를 써 보니 오류가 나네요원인이 무엇인지 잘 모르겠습니다. ㅜ.ㅜ ValueError Traceback (most recent call last) <ipython-input-40-1402441d5d03> in <cell line: 30>() 28 from xgboost import XGBClassifier 29 xg = XGBClassifier() ---> 30 xg.fit(x_tr, y_tr) 31 pred2 = xg.predict(x_val) 32 1 frames/usr/local/lib/python3.10/dist-packages/xgboost/sklearn.py in fit(self, X, y, sample_weight, base_margin, eval_set, verbose, xgb_model, sample_weight_eval_set, base_margin_eval_set, feature_weights) 1489 or not (classes == expected_classes).all() 1490 ): -> 1491 raise ValueError( 1492 f"Invalid classes inferred from unique values of `y`. " 1493 f"Expected: {expected_classes}, got {classes}" ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3 4], got ['High' 'Low' 'Medium' 'Very High' 'Very Low']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 원핫인코딩시
get_dummies 에서 drop_first=True 를 필수로 작성해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 "이전셀실행"과 동일한 기능이 시험환경에서도 있나요?
계속 코랩으로 연습하다보니 궁금해 문의드립니다.유형2에서 베이스라인잡아놓고 돌아와서 인코딩이나 스케일할때 강의중에는 이전셀실행을 사용하는데 시험환경에서는 이전셀실행 기능이 있는지와 어떤식으로 해당 기능이 적용되는가 급 궁금해 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 시 문의
랜덤포레스트에서 estimators와 depth 파라미터 수정할때,둘중 어떤것을 미세조정으로 먼저 맞추는 것이 낫나요? 그리고 estimators=100, depth =3이라고 하셨는데,아무것도 설정 안해줫을 값이랑 같지가 않습니다.아무것도 설정안해주며 자동으로 기본값으로 되는거아닌가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 RMSE가 너무 크게 나오는 문제
아래와 같이 코딩을 했는데, RMSE값이 42만 정도가 나옵니다. 강사님 강의에서는 4만 수준으로 나오는데요.무엇이 잘못된건지 모르겠습니다...ㅜimport pandas as pd train=pd.read_csv('mart_train.csv') test=pd.read_csv('mart_test.csv') # print(train.info(), test.info()) y=train.pop('total') # print(y.describe()) # print(train.info(), test.info()) print(train.shape, test.shape) total=pd.concat([train,test], axis=0) print(total.shape) total=pd.get_dummies(total) print(total.shape) train=total[0:700] test=total[700:] print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=2024) rf.fit(X_train, y_train) pred=rf.predict(X_val) # print(pred) from sklearn.metrics import mean_squared_error print(mean_squared_error(pred, y_val)**0.5) result=rf.predict(test) # print(result) print(result.shape) final=pd.DataFrame({ 'pred':result }) final.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 타겟을 수치형으로 변환해야하는 경우
타겟값 변경은 주로 분류 문제에서 범주형 라벨을 숫자로 변환해야 할 때 사용됩니다. 예를 들어, 이진 분류에서는 True/False, Yes/No와 같은 값이 입력될 수 있으며, 이러한 값을 0과 1처럼 변환하여 모델에서 사용할 수 있습니다. 예로 주신 (y_test['income'] != '<=50K').astype(int)은 소득이 특정 값보다 작거나 큰지를 0과 1로 변환하는 작업입니다. 이 작업은 타겟 라벨을 모델에서 이해할 수 있는 형식으로 변환하기 위해 필요합니다. 그렇다면 범주형을 숫자로 변환해서 모델에서 이해하도록 변경해야하는 경우는 그럼 어떤 경우가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
[6. 학습 및 평가] 단계에서 RandomForestClassifier / RandomForestRegressor 까지만 하고평가지표를 뽑아보지 않은 상태로[7.예측 및 제출]을 해도 무방하지 않은지 궁금해졌습니다. (방금 빼먹고 푼 거 맞습니다.ㅠ) 처음 나온 평가지표를 기준점으로 삼아위에서 전처리 작업 등을 추가하지 않는 극초보생 기준의 궁금증입니다.작업형2를 반드시 40점 맞아야하는 관점에서 답변해주시면 감사하겠습니다. (평가지표 다시 외우는 중~ㅋ)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) concat 문의
target = train.pop('성별')train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)df = pd.concat(['train', 'test']) concat 해서 원핫인코딩으로 해보려고 했는데 TypeError: cannot concatenate object of type '<class 'str'>'; only Series and DataFrame objs are valid와 같은 에러가 발생하는데 왜그런건가요 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 순서와 alternative
뮤d = (살충제를 뿌린 후의 곤충 수- 살충제를 뿌리기 전의 곤충 수)의 평균귀무: 뮤d>=0대립: 뮤d<0before_spr : 살충제를 뿌리기 전의 곤충 수after_spr : 살충제를 뿌린 후의 곤충 수 stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less') 이게 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출 작업형2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요안녕하세요target=train.pop['TotalCharges'] 하면'method' object is not subscriptable이라는 메세지가 뜨는데 왜그런 걸까요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 이것이 맞나요?
데이터 입력 순서는μd = (before – after)라면stats.ttest_rel(df['after'],df['before']로 μd = (after - before)stats.ttest_rel(df['before'], df['after']로 작성해주세요 alternative는 대립가설이 참일 때 기준, 첫번째 파라미터 자리가 큰지 작은지에 맞춰 작성하면 됩니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stats.ttest_rel
stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less')stats.ttest_rel(df['before_spr'], df['after_spr'], alternative = 'greater')둘다 값이 같아야 하는 거 아닐까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 문제에서 평가할 때 classification report로 진행할 경우 문제가 있을까요?
classification report로 하면 여러 지표를 한눈에 볼 수 있으니각각의 코드를 안외워도 되는 이점이 있는 것 같습니다. 문제에서 f1 classification report 불러와서 봐도 되겠지요..?from sklearn.metrics import classification_report report =classification_report(y_val, pred_rf) print(report)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 문의
랜덤포레스트에서 하이퍼 파라미터 할때,learning_rate 하면 오류나던데,랜덤포레스트에서는 적용이 안되나요?max_depth랑 n_estimators로만 파라미터 수정하면되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 스코어 시 에러 문의
# f1 스코어 from sklearn.metrics import f1_score print(f1_score(y_val, pred)) ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted']. 영상에서는 바로 출력되던데, 이것은 무슨 오류인가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 인코딩과 스케일링
작업형 2에서데이터 스케일링(min_max, standard scaler)는 안하시는 것 같은데 혹시 이유가 있을까요? 보통 분석 흐름에는 데이터 표준화를 하는 경우가 많은 것 같아서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 ttest_ind 검정
독립표본 ttest_ind 검정에서 ttest_ind(A, B)를 쓸때 A에 오는 것을 어떤것으로 해야 하나요? 예) 오렌지주스를 투여받은 기니피그 치아길이 평균이 아스코르브산을 투여받은 기니피그 치아길이 평균과 일치하는 지 구해라
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 / 라벨인코딩
object형 처리 시 어떤 때에 원핫인코딩하는게 좋고 라벨인코딩하는게 좋고 하는 기준이 있을까요?