묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모델 성능 향상
혹시 회귀든 분류든 랜덤포레스트 model 정의할 때 코드 안에 max_depth를 3~12 범위 내로 변화하면서 error나 score 점수 변동 확인해서 error의 경우 낮은 값, score의 경우 높은 값 나오도록 유도해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제환경 작동 상황 문의
실제 환경에서 문제 풀어보는 중인데, 이렇게 자동으로 밑줄 쳐지고 ctrl+/를 동시에 눌러도 주석 처리되지 않고 그냥 드래그한 코드 사라지고 /만 남는 오류? 같은 상황이 종종 나오는데 이럴 땐 어떻게 하면 좋을까요...?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이런거 질문을 해도 될지 고민은 되지만 직업형 3 문제에서
작업형 3유형에서 강의의 예시 문제들은어떤 검정이다라는게 제목으로 있는데 실제 문제에서도 단일표본검정이다독립표본검정이다 이런것을 알려주나요?실제 체험환경에 문제를 보면 이건 없는거 같아서요.문제를 보고 어떤 검정을 해야 하는지 판단하는게 맞지요?혹시 이럴때 어떤 검정을 해야 하는지 뭘 보고 어떻게 판단하면 좋을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제2 원핫인코딩 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요선생님께서 컬럼의 수가 많으면 원핫인코딩시 자료가 너무나 방대해진다고해서 해당 문제에서((4198, 21), (1499, 20)) 다음과 같이 컬럼의 수가 많아 라벨인코딩을 하려했습니다 그런데 선생님은 원핫인코딩을 하셨더라구요? 그렇게 해도 되는건가요? 그리고 제가 궁금해서 원핫인코딩후의 shape를 찾아보니 (4198, 29) (1499, 29) 으로 컬럼의 수가 별로 안늘어났는데 왜 이런거죠?? 알려주시면 감사하겠습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 풀이 4
target = train.pop('target') cols = ['gender', 'enrolled_university', 'education_level', 'major_discipline', 'experience', 'company_size' , 'company_type', 'last_new_job'] for col in cols: train[col] = train[col].fillna(train[col].mode()[0]) test[col] = test[col].fillna(test[col].mode()[0]) from sklearn.preprocessing import LabelEncoder cols2 = train.select_dtypes(include='O').columns for col in cols2: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])# 결측치 처리 train = train.fillna("X") test = test.fillna("X") # train과 test 합쳐서 원핫인코딩 combined = pd.concat([train, test]) combined_dummies = pd.get_dummies(combined) n_train = len(train) train = combined_dummies[:n_train] test = combined_dummies[n_train:]저는 위의 방식으로 풀었고 풀이는 아래 방식으로 풀었는데, result.csv에서 roc_auc 결과를 비교하면 많이 다르게 나타납니당... 예를 들어 같은 인덱스임에도 제 방식에서는 roc_auc가 0.2로 나오는데 풀이에서는 0.02가 됩니다. 이 경우에는 풀이에 따라서 0,1로 완전히 다르게 인식되는데도 점수 받는데 상관이 없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩
인코딩을 할 때 train에 test가 다 포함이 돼서 레이블 인코딩이 좋다 하셨는데 그렇게 판단해서 레이블만 하고 원핫을 안해도되나요? 평가지표를 써야해서 어쨌든 둘다 코드를 넣어놓고 비교를 했는지 까지 보는건가요? 채점할 때 그런거도 보는건지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
# Section 4. 이직 여부 예측 _concat여부
안녕하세요. 혹시 '이직 여부 예측'예제처럼 Train데이터와 Test데이터의 컬럼수의 차이가 클때, 강사님의 풀이법처럼 concat하지않고 basetline대로 진행하면 평가지표가 많이차이날까요? cocat없이 저는 진행하니 ROC-AUC가 아래와같이 나옵니다. 0.6487124056282382# ROC-AUC from sklearn.metrics import roc_auc_score roc_auc= roc_auc_score(y_val,pred) print('roc_auc:', roc_auc) # roc_auc: 0.6487124056282382
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 평가지표 roc_auc인 경우 제출하는 pred형태
작업형2 이진분류 문제에서평가지표로 roc_auc_score을 주고, pred결과 예시는 A,B와 같은 문자로 제시되어있는 경우에model.predict_proba을 제출하는게 아니라 model.predict을 제출해야 되는건가요? 강의 1회독할 때 위와같은 경우에도 확률값을 나타내는 predict_proba 을 그대로 제출해도 된다들었는데, 알려주시면 감사하겠습니다! ( 직전에 동일한 질문올렸는데, 이상하게 질문이 삭제가 되어서 다시 올립니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 ( 4. 일원 분산 분석) 질문
4.일원 분산 분석에서 질문 6번 7번에성적의 제곱합과 성적의 평균 제곱을 구하라고 되어있습니다.정답은 411.8과 137.266667로 되어있구요근데 적어주신 정답은 groups의 제곱합과 평균제곱이 아닌지 해서 여쭤봅니다.책이랑도 똑같은데 어떻게 해석하는지를 잘 모르겠습니다. ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2과목 풀이 방법 질문입니다.
target값 분리를 하여 진행하는 경우에는 스케일링 전에 하면 되는지 후에 하면 되는지 궁금합니다 원핫인코딩을 하는 경우에는 수치형과 범주형을 구분하지 않아도 된다고 하셨는데 라벨인코더를 사용하는 경우에도 일치 할까요 ? 또한 추가적으로 minmax와 같은 수치형 스케일링이 필수적인지도 여쭤보고 싶습니다 ,,, ! 선택인 경우에는 어떤 경우에 하면 될지도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험문제
시험문제에서 단일표본 검정을 진행해라.독립표본 검정을 진행해라.대응표본 검정을 진행해라. 이런식으로 제시해주나요?조금 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 3 Section 3. 항공권 가격 예측에서
[작업형2] 연습문제 섹션 3 Section 3. 항공권 가격 예측에서 문제 풀이를 보면 train = train.drop('flight', axis=1)test = test.drop('flight', axis=1)원핫인코딩을 하면 컬럼수가 많아서져 flight를 삭제한다고 되어 있습니다.(기본에서요)그런데 이해가 안되는게...flight 의 가격을 예측하는건데이것을 삭제하고 모델을 학습 시킨다는게 이해가 안되거든요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state관련
random_state=0을 아래에서 처럼 분리할때랑 , 학습할때 총 두번넣어줘도 상관없을까요? # 검증용 데이터 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0) # 모델 학습 및 평가from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=0)model.fit(X_tr, y_tr) pred = model.predict(X_val)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 문제 어디에서 볼 수 있을까요?
수업에서는 문제가 바로 있었는데 기출문제 강의에는 자료랑 해설만 있고 문제가 어디있는지 못찾겠어요요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때 저는 iloc을 사용했는데 문제 풀이는 iloc을 사용 안 했더라구요.이전? 강의들에서는 사용했던거 같은데...그런데 둘 다 오류는 안나도 답이 나오긴 한네요.무슨 차이 일까요? 제 코드..df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:len(train)] test = df.iloc[len(train):] 강의 코드# train과 test 합쳐서 원핫인코딩 combined = pd.concat([train, test]) combined_dummies = pd.get_dummies(combined) n_train = len(train) train = combined_dummies[:n_train] test = combined_dummies[n_train:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형(작업형1)
문제3에서 주어진 내용이 시험과 동일한건가욥?? 주어진 데이터에서 ‘co’와 ‘nmhc’ 컬럼을 각각 Min-Max 스케일링하시오.스케일링된 ‘co’, ‘nmhc’ 컬럼의 표준편차를 각각 구하시오.‘co’ 컬럼의 표준편차에서 ‘nmhc’ 컬럼의 표준편차를 뺀 값을 소수점 3자리로 반올림하여 구하시오. 해당 3.에서 2.와 같이 '스케일링된'이라는 말이 없어서 뜬금 없지만(?) 스케일링되지 않은 ‘co’ 컬럼의 표준편차에서 ‘nmhc’ 컬럼의 표준편차를 빼서 출력했는데 이렇게 명확한 형용사가 없어도 앞 내용에 맞게 생각해서 출력해야 할까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 6 질문드려요
연습 문제 6에서는 다수의 범주, 수치형 컬럼에 결측치가 있는데, 최빈값, 중앙값이 아닌특별히 범주형은 X로 수치형은 -1 으로 결측치를 채운 이유가 있을까요? RandomForest은 결측치가 마킹을 해도 어느정도 학습이 가능하다고 알고 있는데,다른 모델들도 마찬가지로 X, -1으로 마킹해도 학습이 가능한걸까요?아니면 RandomForest만의 장점인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 연습문제 4~5 일원 분산 분석
연습 문제 일원 분산 분석에서 ols 모델 작성할 때 C( ) 작성 안 하는 게 맞는 건가요? group에 C( )를 해줘야 하는 거 아닌가 궁금해서 질문합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 시험 환경에서 display 함수
display(df) 실행했을때 에러가 뜨는데 왜 display() 함수가 실행이 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 결측치 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df['f1'] = df['f1'].dropna() 안녕하세요 f1컬럼의 결측치 삭제를 선생님처럼 안하고 저처럼하면 왜 결측치 처리가 안될까요?