묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경test 제2유형
강사님 안녕하세요.강사님께서 말씀해주신 랜포 + train, test = train.align(test, join='left', axis=1) 하고나서에러메시지가 뜨길래 추가적인 fillna(0)를 해주고, 아래와 같이 작성했는데요 문제에서 제시한 예시와 제 답안의 수치가 너무 차이가 많이납니다.어떤부분이 문제일까요? ㅜ_ㅠ 확인 부탁드립니다.isnull 에 무조건 0채우라고해서 fillna(0)한거밖에 차이가 없습니다. import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.info())# print(test.info())train = train.fillna(0)test = test.fillna(0)# df.isnull().sum()target = train.pop('총구매액')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)train = train.fillna(0)test = test.fillna(0)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(x_tr, y_tr)pred = rf.predict(test)submit = pd.DataFrame({'pred':pred})submit.to_csv('result.csv', index=False)ans = pd.read_csv('result.csv')print(ans) 저장
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형1(ver. 2025)
예시문제 작업형1(ver.2025) 문제풀어보니강의내용과 실제 데이터 시험환경 금액이 다릅니다. 체험유형사이트가 data를 업데이트 한것 같은데 맞나요? 아니면 제가 지금 잘못풀어낸건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2, 작업형3 pd.get_dummies시 drop_first 유무
작업형2 할때는 pd.get_dummies(df) 할때 drop_first가 들어가지 않았었는데 작업형3 강의에서는다중공선성을 피하기 위해pd.get_dummies(df, drop_first=True)넣으라고 되어있는데 각 유형별로 저렇게 나눠서 꼭 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
궁금한게있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2개의 파일, 3개의 파일도 연습해봐야 한다고 말씀하셨는데 시험에서 train, test 데이터 외에 다른 파일이 있을수도 있다는 말씀이신건가요?? 만약 그렇다면 어떤식으로 데이터를 나눠야하고 그래야하는지 잘 모르겠습니다 ㅜㅜ 추가로 마지막에 y_test 데이터는 따로 만들어야하는 데이터인지도 궁금하구요 추가로 랜덤포레스트랑 lightgbm 말고 xgboost 도 꼭 알아야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형3번
[기출7회, 작업형3번, 문제 1번]문제: 주어진 조개 데이터 300개 중 앞에서부터 210개는 train 데이터로 만들고, 나머지 90개는 test데이터로 만든다. 강의 해설 :train = df.iloc[:210] test = df.iloc[210:]저의 풀이train = df[:int(len(df)*0.7)] test = df[:int(len(df)*0.3)]저의 풀이로 진행했을 경우 1-1, 1-2번 답은 강의와 동일한데1-3번 오류율 구할때 답 차이가 나네요 ㅠ강의 0.478저의 답 : 0.5 train = df[:int(len(df)*0.7)]test = df[:int(len(df)*0.3)]이렇게 분리하면 안되는걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2
작업2유형에서데이터 전처리 과정중 인코딩을 할때어떨때는 pd.concat([train, test])로 데이터를 합치고 할때가 있고 어떨때는 바로 인코딩하던데 기준이 어떻게 되나요? 좀 헷갈려요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해당 문제 코드 작성 문의
#print(train.shape, test.shape) #print(train.isnull().sum()) #print(test.isnull().sum()) Xtrain = train.drop(['ID', 'Segmentation'], axis = 1) ytrain = train['Segmentation'] Xtest = test.drop(['ID'], axis = 1) test_ID = test['ID'] col_cat = Xtrain.select_dtypes(include = 'object').columns col_num = Xtrain.select_dtypes(exclude = 'object').columns # 수치형 스케일링 from sklearn.preprocessing import MinMaxScaler, OneHotEncoder scaler = MinMaxScaler() Xtrain[col_num] = scaler.fit_transform(Xtrain[col_num]) Xtest[col_num] = scaler.transform(Xtest[col_num]) # 범주형 인코딩 encoder = OneHotEncoder(handle_unknown = 'ignore', sparse_output = False) Xtrain_ohe = encoder.fit_transform(Xtrain[col_cat]) Xtest_ohe = encoder.transform(Xtest[col_cat]) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(Xtrain_ohe, ytrain, test_size = 0.2, random_state = 2002) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_train, y_train) y_pred = model.predict(X_val) y_test = model.predict(Xtest_ohe) submit = pd.DataFrame({'ID' : test_ID, 'y_test' : y_test}) submit.to_csv('0000.csv', index = False) submit2 = pd.read_csv('0000.csv') print(submit2) 이정도 수준으로 코딩 작성했는데 큰 문제 없겠죠? 중급 ~ 고급사이로 인지됩니다 제가 생각하기엔
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜포 회귀/분류구분
제2유형 랜포로 일관되게 풀건데요. 분류 : RandomForestClassifier회귀 : RandomForestRegressor 구분을 어떻게 진행할까요? 문제에서RSME 등과같은 오류율(- E로)끝나는 검증방법 제시하면 회귀로 풀면되고, ROU-AUC / F1등 구분하는 경우 분류로 풀 예정입니다. 추가적으로 ROU-AUC는 predic_proba 해줘야겠네요. ㅎㅎ이렇게 구분하는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 체험환경 작업형2
해당 건 랜덤포레스트 + 강사님이 최근에 공지 올리신 chat GPT 통해서 진행하는 건이요. train, test = train.align(test, join='left', axis=1)해도 에러가 뜨더라구요. 확인해보니 NaN이 많고, float64에러(?) 발생되어 train, test = train.align(test, join='left', axis=1)밑에 한번 더 test = test.fillna(0)를 해줘야 에러메시지가 없어지던데 어떻게 구성해야되나요? 체험환경 문제조차 못풀고있는 제가 답답하네요.. ㅋㅋㅋ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target = train.pop('TotalCharges')
안녕하세요 인프런과 시나공을 열심히 하고 있는데요지난번에도 질문을 드렸는데 계속 안돼서 다시 질문드립니다 ㅠ한 셀에서 연습중인데요쌤 말씀대로 target = train.pop('TotalCharges') --> 실행하고밑에 겟더미스 실행하면 ---> KeyError: 'TotalCharges'가 나옵니다.. 다른 문제에서도요 똑같이..그래서 저 train.pop부분을 주석처리하고 연습하긴 하는데 이게 맞는건가요??ㅜ 그리고 2유형은 시나공에 나와있는 코드를 모두 한 셀에 적어서 결과파일 만들어서 제출하는거 맞죠??#데이터 전처리 target = train.pop('TotalCharges') print(train.shape, test.shape) train = pd.get_dummies(train) test=pd.get_dummies(test) print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번질문드립니다..
강의자료랑 비교햇을때 원핫인코딩에서columns = cols 는 해야하나요???안해도 저렇게 값은 나오고 train_oh = pd.get_dummies(train)test_oh = pd.get_dummies(test)print(train.shape, test.shape, train_oh.shape, test_oh.shape) 처음 개념강의에서 그냥 train 썼던거같은데 헷갈리네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기체험환경 예시문제 작업형 강의 언제올라오나요?
실기체험환경 예시문제 작업형 강의 언제올라오나요? 시험일정이 얼마안남아서 미리 공부했으면 합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6번 제3유형
아래 해설에있는 ob / ex는 수험자가 구하는건가요? 아니면 문제풀이에 제시해서 주는건가요. sort_index().to_list()해당 건 안풀어본거라서요.ob = df['항암약'].value_counts().sort_index().to_list() ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 빅분기놀이터 질문
제가 작업형3에 매우 자신이없고 작업형1도 9회차 유형보고 많이 꺾여서 캐글 빅분기놀이터 작업형1 35개였나요? 그걸 하루에 한번씩 계속 회독중인데 이렇게공부해도 괜찮은걸까요..?? 문제를 외워버리는거같아서요 ㅠ그리고 또 풀긴푸는데 자꾸 좀 멍청하게 푸는듯해서.. 예를 들면 함수나 한줄이면 끝날걸 변수를 계속 만들거나 조건을 몇개씩 만들어서 푸는거같아서요 아니면 표에서 직접 눈으로 푼다던가하는거같아요 이래도 괜찮을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 질문.
판다스5 강의 2:51 에서 아래 코드가 있는데요.여기서 원산지,메뉴 기준으로 그룹핑 하면 정상인데df.groupby(['원산지','메뉴']).agg(['mean','sum'])원산지, 칼로리를 하면 에러가 뜨더라구요. 왜그런거죠? 왜 칼로리를 넣으면 안되는건가요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
불필요한 컬럼 삭제 시
특별한 기준이 있나요 ?평가 지표에 따라 무조건 삭제해도 괜찮은 것인지..만약 중요한 변수라고 생각했으나 삭제하니 평가지표가 오른다거나 하면어떻게 해야 하는지 궁금하네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표(RMSE) 값이 선생님 결과치보다 더 좋은 방향(낮게)으로 나왔는데, 괜찮을까요...?
안녕하세요, 선생님.늦게나마 이번 실기 준비하고 있습니다!항상 감사드려요! 해당 문제를 스스로 풀어 출력된 결과를 선생님의 결과와 비교하는 가운데, 다음과 같은 차이점이 있었습니다. 수치형 변수의 결측치를 mean 값으로 대체유니크 값이 너무 많은 변수(Item_Identifier)를 삭제위의 두 경우 제외 동일한 조건에서 레이블 인코더를 통한 인코딩(train, test 모두 범주형 변수 유니크 값이 동일하여 concat 진행 안함)lgbm 회귀보다 rf 회귀 모델이 RMSE 검증 결과 더 낮은 에러 값을 갖기에 rf 모델 선택결과적으로 선생님과 근소한 차이로 RMSE 값이 조금 더 낮은 모델을 학습시킬 수 있었는데, 혹시 위의 과정 상 문제가 있는 것은 아닐지 걱정됩니다.물론, 전처리 과정이나 변수 선택 등 코딩하는 사람에 따라 다를 수 있겠습니다만, 배우는 과정에서 선생님의 코드가 정석이기에 가급적 따라 배우려고 하는 마음에 오히려 좋은 결과를 의심하게 되네요.번거롭게 해드려 죄송하면서 한편으로 항상 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 다중회귀분석 다중공선성 제거
원핫 인코딩 (pd.get_dummies)를 사용하여 다중공선성을 제거 했을때, from statsmodels.formula.api import olsmodel = ols('매출액 ~ 광고비 + 유형_B + 유형_C', data=df).fit()print(model.summary())강의에서는 B와 C를 보는 경우만 보여주셨는데, 혹시 유형 A,B,C까지 다같이 보고 싶을때,model = ols('매출액 ~ 광고비 + 유형_A+ 유형_B + 유형_C', data=df).fit()이렇게 유형A도 포함시켜서 작성해야 하는지 문의드립니다! 추가로 기출이나 보통 A,B,C 전체 독립변수를 물어보는 경우가 자주 있는지 궁금합니다~!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시 문제 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제가 시험 2주 전에 다 바뀌어서 당황스러운데 특히 3유형이 신유형 같아요 ㅠ 이걸 어떻게 대비해야할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요체험환경 예시문제가 싹 바뀌었어요ㅜㅜ 풀이 영상이 업로드 가능할까요..?