묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 1. 환자의 당뇨병 여부 예측
트레인 테스트 인포에서 object 타입이 없어서 원핫인코딩 안하고 바로 분할부터 시작했다고 이해했는데,, 제가 이해한게 맞을까요???그리고랜덤포레스트 돌리고 샘플 받고roc-auc-scre 돌리고 샘플 받고최종 파일 샘플 볼때,,,세 샘플로 서로 비교하면서?? 제대로 잘 나온건지 확인?? 하는 방법?? 이 있는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제4 풀이
작업형2 연습문제4에서 풀이는 아래와 같은데,# 결측치 처리 train = train.fillna("X") test = test.fillna("X") # train과 test 합쳐서 원핫인코딩 combined = pd.concat([train, test]) combined_dummies = pd.get_dummies(combined) n_train = len(train) train = combined_dummies[:n_train] test = combined_dummies[n_train:]저는 다음과 같이 결측치가 있는 object 항 삭제 후 label encoder 진행해서 풀었습니다. 오류 없이 작동했으면 괜찮은 건가요?cols = ['gender', 'enrolled_university', 'education_level', 'major_discipline', 'experience', 'company_size', 'company_type', 'last_new_job'] train = train.drop(cols, axis=1) test = test.drop(cols, axis=1) # print(train.shape) # test.isnull().sum() # print(test.shape) from sklearn.preprocessing import LabelEncoder colss = train.select_dtypes(include='O').columns for col in colss: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])만약에 결측치 있는 object 항 제거하고 label encoder 코드 작성했을 때 오류가 생기면 이때는 합쳐서 원핫 인코딩 하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2와 작업3
작업형 2 개념이 자꾸 헷갈려서요ㅠ예시문제 작업형2 2025 보면, 평가지표로 평가하는데강의에서 레이블인코딩, 원핫인코딩 비교해서 오차가 적은 것으로 택하던데,랜덤포레스트와 라이트지비엠 이것도 각각 비교해서 오차가 적은거 평가 안해도되는건가요?? 제가 약간 헷갈리는 점이ㅠ 원래 작업형 2는인코딩부분(레이블/원핫), 학습부분(랜덤/라이트지비엠) 크게 이 두 부분에서각각 경우의 수 대로 다 하면서? 평가를 비교해서 해야하는건지 궁금합니다 작업형3 부분에서 원래 가설검정?(t검정, F검정 등등)도 나오는데,, 빅이시 부분에선 로지스틱회귀, 선형회귀 부문을 초점을 맞추었던데,,, 검정부분 보다는 로지스틱회귀, 선형회귀 등 출제 확률이 더 높다고 봐도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 머신러닝 분류, 회귀
안녕하세요 작업형 2 머신러닝 분류에서 LightGBM과 랜덤포레스트를 배운 것은 이해했습니다 회귀에서는 선형회귀를 배우면서 LightGBM과 랜덤포레스트가 또 나오는데요 그럼 LightGBM과 랜덤포레스트는 분류 회귀 문제 가리지 않고 만능처럼(시험대비용으로)사용이 가능한 건가요.. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3] 이원분산분석 코드 실행 오류
안녕하세요. 다름이 아니라 작업형3번의 이원분산분석 학습하는 중에 강사님의 코드를 그대로 가져와서 실행만 했을 뿐인데 자꾸 오류가 납니다.. 해설 부분 전에 직접 풀이할 수 있는 빈칸에 이원분산분석 데이터가 잘못 되어 있는 것 같아 아래 해설의 데이터도 가져와서 코드를 그대로 실행하였습니다..시리즈 오브젝트를 불러올 수 없다는데 무엇이 잘못된걸까요..?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
randomforest vs lightGBM
안녕하세요 작업형 2과목 머신러닝 문제에 따라 lightGBM을 써야만 하는 경우도 있나요 아니면 머신러닝할 때는 랜덤포레스트로 비비고 들어갈 수 있나요?? 시간은 부족하고 아직 연륜이 부족해서 여쭤봅니다 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 9회 작업형2 질문
제가 시험장에서 코드가 생각이 안 날 가능성을 대비해서, 작업형2는 우선 한 가지 방법으로 풀고 거기에 살을 붙여가며 연습하려 합니다.근데 여기서 든 생각이, 어차피 RandomForest 한 가지 방법으로 풀 거면 모델 성능 측정은 모델 간의 성능을 비교할 목적이니 굳이 안 해도 될 것 같고, 성능 측정을 하지 않는다면 train과 validation을 나눠주는 train_test_split도 굳이 안 해도 될 것 같고, 결론적으로는 경우에 따라 Classifier/Regressor만 맞게 써준다면 아래의 코드만으로도 웬만한 문제는 감점당하지 않고 넘어갈 수 있지 않나 하는 생각이 들었습니다.target = train.pop('농약검출여부') train = pd.get_dummies(train) test = pd.get_dummies(test) test = test.reindex(columns=train.columns, fill_value=0) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=0) model.fit(train, target) pred = model.predict(test) pd.DataFrame({'pred': pred}).to_csv('result.csv', index=False) pd.read_csv('result.csv')강사님께서 올려주신 실기 응시 가이드를 보니 성능이 너무 낮지만 않다면 점수가 많이 까일 가능성은 낮아보여서, 우선은 이걸로 밀고 가면서 최소한의 점수는 확보하려는데, 그러한 목적으로는 이 코드가 문제가 없을지 궁금합니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 3
안녕하세요 선생님! 섹션 3 처럼 object가 많이 나왔을때 labelencoder를 하지 않고cols = train.select_dtypes(include='object').columns for col in cols: set_train = set(train[col]) set_test= set(test[col]) same = (set_train == set_test) if same: print(col, "\t카테고리 동일함") else: print(col, "\t카테고리 동일하지 않음") print("\n ===== target 기술 통계 =====") print(train['price'].describe())이렇게 하는 이유가 궁금합니다!! 이런것도 외우고 가야될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본과 대응표본 구분
선생님 안녕하세요. 대응표본과 독립표본을 구분하는 꿀팁이 있을까요?연습문제 > 가설검정 > 2번은 대응표본인것 같은데 독립표본이라고 적혀있어서요.신약효과검정이 대응인데, 이것도 어떻게보면 기존충전기와 개발충전기라면 대응으로 볼 수 있지 않나요? 시험문제엔 '독립/대응표본으로 검정하라' 와 같이 알려주진 않죠?ㅜㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8번 답을 구할 때 해당 코드의 의미를 모르겠습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 코드가 9번 답 코드에 존재하는데 이 과정이 왜 있는지 몰라 문의 드립니다.pred = (pred > 0.5).astype(int)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문
선생님 작업형 2는 train.info() 했을 때 결측치가 없고 object 형이 많거나 해도 라벨 인코딩 말고 원핫 인코딩을 하고 모델은 randomforest lightgbm 사용해서 점수 더 잘 나온것을 기준으로 제출해도 될까요?
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
다중 선형 회귀 상수항 추가 관련 질문
답변 항상 감사드립니다.다중 선형 회귀분석에 있어 상수항을 추가하는 sm.add_constant를 쓰는 경우가 있고,안쓰는 경우가 있는것 같아 질문드립니다.8회 3유형 2번 문제는 쓰셨고,10회 3유형 2번 문제는 상수항을 추가 안하셨는데,상수항 추가 함수를 쓰고 안쓰고의 기준이 있을까요?써야하는 경우 설명 가능하신지 여쭤뵙니다.추가질문)2유형 문제풀이시pd.get_dummies를 활용한 원핫인코딩과LabelEncoder를 활용한모델 결과값이 왜 크게 차이가 있나 질문입니다.실험결과,x가 범주형일경우 LabelEncoder가 더 적합한 핏을 보이나,계량경제학적으로 어떠한 이유로 이러한 결과가 있나 여쭤뵙니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 냉정한 시각 부탁드립니다.
1유형 : 내주신 문제39개중에 20번대 후반 이후로 잘 못푸는 상태(datetime부분이 약함)2유형 : 40점 만점 가정3유형 : 분산분석 제외 summary에서 찾는것 모두 가능 (카이제곱, 독립성, logit, ols) 이 상태인데 남은 4일동안 1유형을 보강할지,분산분석을 알아갈지 고민인데 어떻게 생각하시나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 연습문제 단일 표본 검정 질문
제가 시험환경에서 돌려보았습니다#1 표본데이터의 평균을 구하시오Caffeine(mg)print(df['Caffeine(mg)'].mean())#2 샤피로 검정 0.9322031137746971print(stats.shapiro(df['Caffeine(mg)']))#단일표본t검정의 검정통계량과-5.501737036221897 pvalue print(stats.ttest_1samp(df['Caffeine(mg)'],95,alternative='less'))samp=stats.ttest_1samp(df['Caffeine(mg)'],95,alternative='less')print(samp.pvalue)print(format(5.8686553916715e-06,'.10f')) 결과ShapiroResult(statistic=0.9826578166170536, pvalue=0.9322031137746971)TtestResult(statistic=-5.501737036221897, pvalue=5.8686553916715e-06, df=24)5.8686553916715e-060.0000058687 ####질문 만약 문제에서 p_value값을 물어보았고 반올림하여라 그런말 없이 물어본다면 지수표기법을 바꿔서 적어야할텐데. 일반표기법을 어디까지 적어야할지요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형
eda 진행하여 object인 컬럼들 모두 라벨인코딩 진행한 후, X_train=X_train.drop(columns=['ID']) X_testID = X_test.pop('ID')from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022) model.fit(X_train,y_train) pred = model.predict_prova(X_test)진행하였는데 모델 학습 돌리는 과정중에 계속 런타임이 빙글빙글 돌아가면서 학습이 되지않습니다 왜 그런걸까요..? ㅠㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred[:,1]
작업형 2에서 pred를 그냥 쓰는게 아니라 pred[:,1]를 쓸때 이해가 안가서 그냥 이대로 암기했었습니다.이걸 쓰는 이유를 정확히 알고 싶은데roc_auc는 양수의 확률 값을 예측한걸 평가하는 것이고,나머지 분류지표는 0또는 1을 예측한걸 평가하는 지표이기 때문에roc_auc경우에만 양수인 컬럼을 따로 지정하기위해 pred[:,1]를 사용하는 것이 맞을까요?그렇다면 roc_auc일때만 pred[:,1]이렇게 따로 지정해주면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번
cond = df['age']>=80 print(df['views'][cond].mean())이렇게 작성해도 크게 문제가 없나요? views와 cond 자리 바꿈!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_id
test_id = test.pop('id')이렇게 따로 빼두는 이유가 저장할때 id컬럼을 생성하기 위해서라면,굳이 pop함수로 빼지 않고 저장할때 직접적으로pd.DataFarme({'id':test['id'], 'y_pred':pred}) 이렇게 test['id']로 적으면 안되는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 코드 실행 에러
안녕하세요. 섹션5-27 강의 수강 중 입니다. 인코딩 파트의 가장 윗 부분 코드와 관련하여y_train = train.pop("income")단독 실행 시 KeyError 에러가 발생합니다.다만, 상단의 모두 실행으로 실행 시 정상 작동 됩니다.에러 메시지에서도 '위의 예외는 다음 예외의 직접적인 원인이었습니다.' 라고만 표시되어 어떻게 조치를 취해야 하는지 감이 잘 오지 않습니다ㅠㅠ + 상단의 데이터 불러오기에서 데이터를 확인했을 때 income 컬럼이 있는 것 확인했습니다. + 바로 아래의 원핫인코딩 코드에 커서를 놓고 런타임-이전 셀 실행 으로 실행하니까 이때는 또 정상 작동을 하네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 런타임
랜덤포레스트 사용에서 model.fit으로 학습시키는 코드를 실행시키면 굉장히 오래 돌아가는데 왜그러는걸까요??