묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 스케일러와 범주형 인코딩 관련 컬럼지정 질문
2유형 학습중 이해를 잘 못한 부분이 있습니다. 먼저 수치형 변수 스케일러의 경우스케일러함수(train) 이렇게만 사용하거나스케일러함수(train['수치형변수'] 이렇게 사용할 때가 있고 동일하게 변수형 변수 인코딩의 경우라벨인코딩(train) 이렇게는 사용 안하고항상 라벨인코딩(train[cols]) 이렇게 사용하시는데원핫인코딩(train) 이런식으로 사용하시는 부분에 있어서 어떤 함수가 파이썬에서 자동으로 수치형과 범주형을 구분해서 변환해주는지 궁금합니다. GPT에도 확인했지만 물어볼 때마다 답이 다르네요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시나공 교재에 해당 내용은 없나요?
2026년 시나공교재도 같이 활용해서 하고있는데 이 교재에 모의문제 내용은 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 모의문제 풀이 질문
문제를 풀다가 유사한 코드를 작성하니 정답이 보여서 질문 드립니다 안뜨게 할 수 있을까요?
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
작업형 제 2유형 질문
잦은 질문으로 귀찮게 해드려 죄송합니다 ㅜ2유형에서 지금까지 기출에서 결측치가 없는 상태로 출제가 되었는데 만약 결측치가 있을 경우코딩순서와 어떻게 결측치를 대치하는지 풀이가 궁금합니다ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cond 변수
cond = df['age'] <= 0 df[cond] 위에서 보통 df 뒤에 컬럼명을 적을 때 'age'컬럼처럼 따옴표를 붙여주는데, cond같은 경우에는 안붙여도 출력이 되는데 어떤 이유일까요?cond가 컬럼명이 아니라 변수명이기 때문에 그런건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3
문제에서 평가지표가 ROC-AUC, 정확도, F1 세가지가 있고모델&평가할 때 이 지표 세가지를 다 구해서 확인을 했는데마지막에 test데이터를 활용해서 실제 예측을 할 때는 왜 pred_proba를 사용한건가요?ROC-AUC를 기준으로 선택해서 그런건가요?그럼 정확도 기준으로 선택하면 pred 사용해도 되는건가요? <문제>## 심장마비 확률이 높은사람?- 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대 심박수 등의 컬럼이 있음- 평가: ROC-AUC, 정확도(Accuracy), F1 을 구하시오- target : output (1:심장마비 확률 높음, 0:심장마비 확률 낮음)- csv파일 생성 : 수험번호.csv (예시 아래 참조) <모델&평가># xgbfrom xgboost import XGBClassifierfrom sklearn.metrics import roc_auc_score, f1_score, accuracy_scorexgb = XGBClassifier(random_state=2022)xgb.fit(X_tr, y_tr)pred = xgb.predict(X_val)pred_proba = xgb.predict_proba(X_val)print(roc_auc_score(y_val, pred_proba[:,1]))print(f1_score(y_val, pred))print(accuracy_score(y_val, pred)) <예측 및 csv 제출>pred_proba = xgb.predict_proba(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정(빈칸) 풀이답
from scipy import stats stats.wilcoxon(df['after'],df['before'],alternative='greater')안녕하세요~ 가설점정 강의자료중에 빈칸으로 공부를 하다가 질문남깁니다. 빈칸자료로 풀었을때 답이 /usr/local/lib/python3.11/dist-packages/scipy/stats/_wilcoxon.py:172: RuntimeWarning: invalid value encountered in scalar divide z = (r_plus - mn) / se WilcoxonResult(statistic=np.float64(0.0), pvalue=np.float64(1.0)) 이맇게 나오는데요~ 강의자료랑 답도 다르고 ..왜 그런가요?ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형(작업형1) 2문제
다른분이 동일한 질문한 내용이 있는데 답변이 이해가 되지 않아 추가문의드립니다. df['맡은학생수'] = (df['1학년'] + df['2학년'] + df['3학년'] + df['4학년'] + df['5학년'] + df['6학년']) / df['교사수'] df.sort_values(['맡은학생수'], ascending=False) print(df) print(int(df.head(1)['교사수']))위는 풀이에 대한 내용이고 결과값은 20이 나왔습니다.(강의의 답은 19입니다.)풀이에 잘 못된 부분이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 필사 전략 강의 중 질문
-강의위치) 24:57df[cond1&2] 적고 'Run All'을 눌렀을 때,강의에서는 저렇게 표 형식으로 결과값을 볼 수 있는데 제 컴퓨터에서는 표 형식이 아니라 저렇게 풀어서 나옵니다.설정을 변경해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글
우측 상단 'Save Version'옆에 >I 버튼 눌러서 데이터 경로 복사할 수 있다고 하셨는데제 컴퓨터에선 저 버튼이 안 뜹니다!!저 버튼을 어떻게 활성화 할 수 있는거죠? <강의> <제 컴퓨터>
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)
질문1)모델 학습 및 예측하기 전에 왜 수치형 데이터만 cols로 뽑으셨는지 궁금합니다. 혹시 object 형태는 인코딩 작업으로 모두 수치형 자료로 바꿔줘야 하는데 그 과정을 생략하기 위해서 cols 형태로 뽑으신건가요 ? 질문2)target = train.pop()이부분이 잘 이해가 가지 않습니다 model.fit(train[cols], train['성별'])을 해줘도 상관은 없는건가요? 항상 수업에서 검증 데이터를 x_tr, x_val, y_tr, y_val로 나눠서 model.fit(x_tr, y_tr)형태로 넣는 것에 익숙하다 보니 혼동이 오는 것 같습니다 ㅠㅠ!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
train 데이터에 ID값을 갑자기 왜 삭제하나요 ? train = train.drop("ID", axis=1) train.head(1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
영상에서는 원핫 인코딩 이후 int형으로 바뀌는데 저는 bool 형식으로 바꼈습니다. 정상적인가요?<class 'pandas.core.frame.DataFrame'> RangeIndex: 6665 entries, 0 to 6664 Data columns (total 30 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 6665 non-null int64 1 Age 6665 non-null int64 2 Work_Experience 6665 non-null float64 3 Family_Size 6665 non-null float64 4 Segmentation 6665 non-null int64 5 Gender_Female 6665 non-null bool 6 Gender_Male 6665 non-null bool 7 Ever_Married_No 6665 non-null bool 8 Ever_Married_Yes 6665 non-null bool 9 Graduated_No 6665 non-null bool 10 Graduated_Yes 6665 non-null bool 11 Profession_Artist 6665 non-null bool 12 Profession_Doctor 6665 non-null bool 13 Profession_Engineer 6665 non-null bool 14 Profession_Entertainment 6665 non-null bool 15 Profession_Executive 6665 non-null bool 16 Profession_Healthcare 6665 non-null bool 17 Profession_Homemaker 6665 non-null bool 18 Profession_Lawyer 6665 non-null bool 19 Profession_Marketing 6665 non-null bool 20 Spending_Score_Average 6665 non-null bool 21 Spending_Score_High 6665 non-null bool 22 Spending_Score_Low 6665 non-null bool 23 Var_1_Cat_1 6665 non-null bool 24 Var_1_Cat_2 6665 non-null bool 25 Var_1_Cat_3 6665 non-null bool 26 Var_1_Cat_4 6665 non-null bool 27 Var_1_Cat_5 6665 non-null bool 28 Var_1_Cat_6 6665 non-null bool 29 Var_1_Cat_7 6665 non-null bool dtypes: bool(25), float64(2), int64(3) memory usage: 423.2 KB add코드add텍스트
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
데이터프레임을 만들때 'ID'는 test_id로 pop 했기 때문에 'ID':test_ID가 되는게 이해가 되는데 그러면 'Segmentation'은 :pred가 아닌 target이 되어야 하는것 아닌가요? target = train.pop('Segmentation') test_ID = test.pop('ID') # 예측 결과 -> 데이터 프레임 submit = pd.DataFrame({ 'ID': test_ID, 'Segmentation':pred }) submit
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
rf.fit(train,target)에 들어가는 값과 pred = rf.predict(test)에 들어가는 값이 train,target, test가 들어가는 이유가 있나요? 저기 들어가는 값의 기준이 궁금합니다. # 모델 선택 및 학습 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(train, target) pred = rf.predict(test) pred
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
sementation과 id를 삭제하는 이유가 뭔가요? 그리고 id를 복사할 때 train 데이터가 아닌 test 데이터를 사용하는 이유도 뭔가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 3
영상 위치) 21:25 결과 예측 관련 질문입니다. 1) 랜덤포레스트랑 XGB로 평가한 후, 마지막에 예측은 XGB로 했는데어떤 기준으로 XGB를 선택하는건가요?? 2) pred랑 pred_proba 중에 pred_proba를 사용한 이유가 있나요?pred_proba = xgb.predict_proba(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
강사님은 0부터 496이 나오는데 저는 1489까지 나옵니다. 그리고 답도 차이가 많이 납니다. 괜찮은 것 인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이해가 가지 않는 것
predict를 사용할때와 predict_proba를 사용할때의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
원핫 인코딩을 했을때 강의에는 0또는 1로 나오는데 제가 했을땐 True와 False로 나옵니다. 괜찮은가요?