묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 원핫인코딩시
get_dummies 에서 drop_first=True 를 필수로 작성해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 "이전셀실행"과 동일한 기능이 시험환경에서도 있나요?
계속 코랩으로 연습하다보니 궁금해 문의드립니다.유형2에서 베이스라인잡아놓고 돌아와서 인코딩이나 스케일할때 강의중에는 이전셀실행을 사용하는데 시험환경에서는 이전셀실행 기능이 있는지와 어떤식으로 해당 기능이 적용되는가 급 궁금해 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 시 문의
랜덤포레스트에서 estimators와 depth 파라미터 수정할때,둘중 어떤것을 미세조정으로 먼저 맞추는 것이 낫나요? 그리고 estimators=100, depth =3이라고 하셨는데,아무것도 설정 안해줫을 값이랑 같지가 않습니다.아무것도 설정안해주며 자동으로 기본값으로 되는거아닌가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 RMSE가 너무 크게 나오는 문제
아래와 같이 코딩을 했는데, RMSE값이 42만 정도가 나옵니다. 강사님 강의에서는 4만 수준으로 나오는데요.무엇이 잘못된건지 모르겠습니다...ㅜimport pandas as pd train=pd.read_csv('mart_train.csv') test=pd.read_csv('mart_test.csv') # print(train.info(), test.info()) y=train.pop('total') # print(y.describe()) # print(train.info(), test.info()) print(train.shape, test.shape) total=pd.concat([train,test], axis=0) print(total.shape) total=pd.get_dummies(total) print(total.shape) train=total[0:700] test=total[700:] print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=2024) rf.fit(X_train, y_train) pred=rf.predict(X_val) # print(pred) from sklearn.metrics import mean_squared_error print(mean_squared_error(pred, y_val)**0.5) result=rf.predict(test) # print(result) print(result.shape) final=pd.DataFrame({ 'pred':result }) final.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 타겟을 수치형으로 변환해야하는 경우
타겟값 변경은 주로 분류 문제에서 범주형 라벨을 숫자로 변환해야 할 때 사용됩니다. 예를 들어, 이진 분류에서는 True/False, Yes/No와 같은 값이 입력될 수 있으며, 이러한 값을 0과 1처럼 변환하여 모델에서 사용할 수 있습니다. 예로 주신 (y_test['income'] != '<=50K').astype(int)은 소득이 특정 값보다 작거나 큰지를 0과 1로 변환하는 작업입니다. 이 작업은 타겟 라벨을 모델에서 이해할 수 있는 형식으로 변환하기 위해 필요합니다. 그렇다면 범주형을 숫자로 변환해서 모델에서 이해하도록 변경해야하는 경우는 그럼 어떤 경우가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
[6. 학습 및 평가] 단계에서 RandomForestClassifier / RandomForestRegressor 까지만 하고평가지표를 뽑아보지 않은 상태로[7.예측 및 제출]을 해도 무방하지 않은지 궁금해졌습니다. (방금 빼먹고 푼 거 맞습니다.ㅠ) 처음 나온 평가지표를 기준점으로 삼아위에서 전처리 작업 등을 추가하지 않는 극초보생 기준의 궁금증입니다.작업형2를 반드시 40점 맞아야하는 관점에서 답변해주시면 감사하겠습니다. (평가지표 다시 외우는 중~ㅋ)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) concat 문의
target = train.pop('성별')train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)df = pd.concat(['train', 'test']) concat 해서 원핫인코딩으로 해보려고 했는데 TypeError: cannot concatenate object of type '<class 'str'>'; only Series and DataFrame objs are valid와 같은 에러가 발생하는데 왜그런건가요 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 순서와 alternative
뮤d = (살충제를 뿌린 후의 곤충 수- 살충제를 뿌리기 전의 곤충 수)의 평균귀무: 뮤d>=0대립: 뮤d<0before_spr : 살충제를 뿌리기 전의 곤충 수after_spr : 살충제를 뿌린 후의 곤충 수 stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less') 이게 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출 작업형2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요안녕하세요target=train.pop['TotalCharges'] 하면'method' object is not subscriptable이라는 메세지가 뜨는데 왜그런 걸까요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 이것이 맞나요?
데이터 입력 순서는μd = (before – after)라면stats.ttest_rel(df['after'],df['before']로 μd = (after - before)stats.ttest_rel(df['before'], df['after']로 작성해주세요 alternative는 대립가설이 참일 때 기준, 첫번째 파라미터 자리가 큰지 작은지에 맞춰 작성하면 됩니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stats.ttest_rel
stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less')stats.ttest_rel(df['before_spr'], df['after_spr'], alternative = 'greater')둘다 값이 같아야 하는 거 아닐까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 문제에서 평가할 때 classification report로 진행할 경우 문제가 있을까요?
classification report로 하면 여러 지표를 한눈에 볼 수 있으니각각의 코드를 안외워도 되는 이점이 있는 것 같습니다. 문제에서 f1 classification report 불러와서 봐도 되겠지요..?from sklearn.metrics import classification_report report =classification_report(y_val, pred_rf) print(report)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 문의
랜덤포레스트에서 하이퍼 파라미터 할때,learning_rate 하면 오류나던데,랜덤포레스트에서는 적용이 안되나요?max_depth랑 n_estimators로만 파라미터 수정하면되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 스코어 시 에러 문의
# f1 스코어 from sklearn.metrics import f1_score print(f1_score(y_val, pred)) ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted']. 영상에서는 바로 출력되던데, 이것은 무슨 오류인가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 인코딩과 스케일링
작업형 2에서데이터 스케일링(min_max, standard scaler)는 안하시는 것 같은데 혹시 이유가 있을까요? 보통 분석 흐름에는 데이터 표준화를 하는 경우가 많은 것 같아서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 ttest_ind 검정
독립표본 ttest_ind 검정에서 ttest_ind(A, B)를 쓸때 A에 오는 것을 어떤것으로 해야 하나요? 예) 오렌지주스를 투여받은 기니피그 치아길이 평균이 아스코르브산을 투여받은 기니피그 치아길이 평균과 일치하는 지 구해라
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 / 라벨인코딩
object형 처리 시 어떤 때에 원핫인코딩하는게 좋고 라벨인코딩하는게 좋고 하는 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 반올림 명시 없으면
소수점 몇 번째 자리든 다 작성하면 되나요?그 이전에 문제에서 반올림 명시를 하겠죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 삭제
X_test, X_train, y_train 데이터일때결측치 채울때는 X_test, X_train 모두 채우고결측치나 이상치 삭제시에는 X_train, y_train만 삭제하고 X_test는 삭제하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
MSE 구하는법
안녕하세요. 회귀분석 모델의 MSE 구하는 방법에 대해 문의드립니다.ols 모델 학습하고 난 후, model.mse_resid 메서드로 MSE 구하는 방식이 있더라구요. 근데 선생님이 정석적으로 풀이해주신 방법의 답과 차이가 있어서 문의드립니다. 자유도 처리나 계산 방법에 따라 차이가 있는 것으로 추정되는데, 이럴 경우 어떤 방식을 활용하는 것이 더 나을지 궁급합니다.혹은 똑같은 방법으로 답을 구할 수 있는 메서드가 있는지도 궁금합니다.