묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강 중 문의드립니다!
안녕하세요! 수업 강의 잘 듣고 있습니다궁금한게 있어서 문의 남깁니다! numeric_only=True는 이번에 시험환경이 업데이트 되어, sum이나 corr 를 사용할때 붙이는 걸로 인지했습니다. 공부하던 도중에 어떤 곳은 inplace=True가 붙고 어떤 곳은 안붙어서 혹시 어느 때에 쓰면 되는지 궁금합니다! 원본 객체를 그대로 쓰며 수정하겠다는 의미 자체는 알겠는데.. df.dropna() 이런 곳에도 붙고 여기저기 붙는것같아서 명확히 알면 좋을 것 같습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일 제출할 때 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 5) 제출파일 생성# from sklearn.metrics import mean_squared_error# def rmse(y_true, y_pred):# return mean_squared_error(y_true, y_pred) ** 0.5# print(rmse(y_val, pred)) # pred = rf.predict(test)# submit = pd.DataFrame({'pred':pred})# submit.to_csv('result7.csv', index = False) 파일확인print(pd.read_csv('result7.csv').head(5))이렇게만 하면 자동제출 되는건가요? 아니면 따로 제가 제출하기위해서 뭔가를 클릭해줘야하는 환경인가요...? 시험환경을 잘모르겠어서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse 값 구하기
랜덤포레스트 후 rmse 값을 구할 때 이렇게 구해도 상관없을까요?? from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error import numpy as np rf=RandomForestRegressor(random_state=0) rf.fit(X_tr,y_tr) pred=rf.predict(X_val) mse=mean_squared_error(y_val,pred) rmse=np.sqrt(mse) print(rmse)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 일부 문의
단순 선형회귀 분석에서 잔차를 구할때 잔차 = df[종속변수] - model.predict(df['독립변수]) 이렇게 구하는데, 다중선형 회귀분석에서 구하는 방식인 model.resid 으로 구해도 되는지 문의드립니다. 잔차제곱 평균을 mse라고 할때 mse = (model.resid **2).mean()으로 구하는데, 마인드맵에서 잔차의 평균제곱오차 (MSE) = model.mse_resid로 나타나있는데 두 개의 값이 다르게 나오는데 혹시 다르게 나오는 이유를 알려주시면 감사하겠습니다! 작업형3 회귀분석 관련 범주형 변수일때 원핫 인코딩을 적용하게 되면 숫자로 안바뀌고 True,False로 값이 뜨는데, 이유와 어떻게 숫자로 바꿀수 있는지 알려주시면 감사하겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 5회 pred값이 선생님 결과랑 달라요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 pred1 15586.882 15407.713 14912.474 18482.735 6168.016 16953.75 기출 5회 정답파일 제출 Value값인 pred가 책이랑 다른데, 이럴수가 있나요? 제출한다면 선생님꺼랑 똑같은 인덱스에 똑같은 pred값이 들어갔어야할텐데,,, random_state도 똑같이 전부 0으로 맞췄는데 이럴수가 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 로지스틱 회귀분석
강의서에서 잔차이탈도는 model = glm(formula, data=데이터, family=sm.families.Binomial()).fit()이렇게 구하는것으로 나와있는데, 작업형3 마인드맵 자료 주신거에는로그우도 : model.lif잔차이탈도 : -2 * model.lif이렇게 되어 있는데,로그우도, 잔차이탈도 모두 logit summary에서도 확인할 수 있는것인지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 마인드맵 로지스틱 회귀분석
작업형3 마인드맵 올려주신것 중에서 로지스틱 회귀분석 관련오즈비에 대한 설명은 작업형3 예시 문제 강의에서 확인가능한데,나머지 (오류율,AIC/BIC,잔차,로그우도 등) 부분에 대한 설명은 현재 강의에서 볼 수 없는데설명해주시는 강의가 따로 있을까요??!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경test 제2유형
강사님 안녕하세요.강사님께서 말씀해주신 랜포 + train, test = train.align(test, join='left', axis=1) 하고나서에러메시지가 뜨길래 추가적인 fillna(0)를 해주고, 아래와 같이 작성했는데요 문제에서 제시한 예시와 제 답안의 수치가 너무 차이가 많이납니다.어떤부분이 문제일까요? ㅜ_ㅠ 확인 부탁드립니다.isnull 에 무조건 0채우라고해서 fillna(0)한거밖에 차이가 없습니다. import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.info())# print(test.info())train = train.fillna(0)test = test.fillna(0)# df.isnull().sum()target = train.pop('총구매액')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, join='left', axis=1)train = train.fillna(0)test = test.fillna(0)from sklearn.model_selection import train_test_splitx_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(x_tr, y_tr)pred = rf.predict(test)submit = pd.DataFrame({'pred':pred})submit.to_csv('result.csv', index=False)ans = pd.read_csv('result.csv')print(ans) 저장
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형1(ver. 2025)
예시문제 작업형1(ver.2025) 문제풀어보니강의내용과 실제 데이터 시험환경 금액이 다릅니다. 체험유형사이트가 data를 업데이트 한것 같은데 맞나요? 아니면 제가 지금 잘못풀어낸건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2, 작업형3 pd.get_dummies시 drop_first 유무
작업형2 할때는 pd.get_dummies(df) 할때 drop_first가 들어가지 않았었는데 작업형3 강의에서는다중공선성을 피하기 위해pd.get_dummies(df, drop_first=True)넣으라고 되어있는데 각 유형별로 저렇게 나눠서 꼭 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
궁금한게있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2개의 파일, 3개의 파일도 연습해봐야 한다고 말씀하셨는데 시험에서 train, test 데이터 외에 다른 파일이 있을수도 있다는 말씀이신건가요?? 만약 그렇다면 어떤식으로 데이터를 나눠야하고 그래야하는지 잘 모르겠습니다 ㅜㅜ 추가로 마지막에 y_test 데이터는 따로 만들어야하는 데이터인지도 궁금하구요 추가로 랜덤포레스트랑 lightgbm 말고 xgboost 도 꼭 알아야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형3번
[기출7회, 작업형3번, 문제 1번]문제: 주어진 조개 데이터 300개 중 앞에서부터 210개는 train 데이터로 만들고, 나머지 90개는 test데이터로 만든다. 강의 해설 :train = df.iloc[:210] test = df.iloc[210:]저의 풀이train = df[:int(len(df)*0.7)] test = df[:int(len(df)*0.3)]저의 풀이로 진행했을 경우 1-1, 1-2번 답은 강의와 동일한데1-3번 오류율 구할때 답 차이가 나네요 ㅠ강의 0.478저의 답 : 0.5 train = df[:int(len(df)*0.7)]test = df[:int(len(df)*0.3)]이렇게 분리하면 안되는걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2
작업2유형에서데이터 전처리 과정중 인코딩을 할때어떨때는 pd.concat([train, test])로 데이터를 합치고 할때가 있고 어떨때는 바로 인코딩하던데 기준이 어떻게 되나요? 좀 헷갈려요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해당 문제 코드 작성 문의
#print(train.shape, test.shape) #print(train.isnull().sum()) #print(test.isnull().sum()) Xtrain = train.drop(['ID', 'Segmentation'], axis = 1) ytrain = train['Segmentation'] Xtest = test.drop(['ID'], axis = 1) test_ID = test['ID'] col_cat = Xtrain.select_dtypes(include = 'object').columns col_num = Xtrain.select_dtypes(exclude = 'object').columns # 수치형 스케일링 from sklearn.preprocessing import MinMaxScaler, OneHotEncoder scaler = MinMaxScaler() Xtrain[col_num] = scaler.fit_transform(Xtrain[col_num]) Xtest[col_num] = scaler.transform(Xtest[col_num]) # 범주형 인코딩 encoder = OneHotEncoder(handle_unknown = 'ignore', sparse_output = False) Xtrain_ohe = encoder.fit_transform(Xtrain[col_cat]) Xtest_ohe = encoder.transform(Xtest[col_cat]) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(Xtrain_ohe, ytrain, test_size = 0.2, random_state = 2002) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_train, y_train) y_pred = model.predict(X_val) y_test = model.predict(Xtest_ohe) submit = pd.DataFrame({'ID' : test_ID, 'y_test' : y_test}) submit.to_csv('0000.csv', index = False) submit2 = pd.read_csv('0000.csv') print(submit2) 이정도 수준으로 코딩 작성했는데 큰 문제 없겠죠? 중급 ~ 고급사이로 인지됩니다 제가 생각하기엔
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜포 회귀/분류구분
제2유형 랜포로 일관되게 풀건데요. 분류 : RandomForestClassifier회귀 : RandomForestRegressor 구분을 어떻게 진행할까요? 문제에서RSME 등과같은 오류율(- E로)끝나는 검증방법 제시하면 회귀로 풀면되고, ROU-AUC / F1등 구분하는 경우 분류로 풀 예정입니다. 추가적으로 ROU-AUC는 predic_proba 해줘야겠네요. ㅎㅎ이렇게 구분하는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 체험환경 작업형2
해당 건 랜덤포레스트 + 강사님이 최근에 공지 올리신 chat GPT 통해서 진행하는 건이요. train, test = train.align(test, join='left', axis=1)해도 에러가 뜨더라구요. 확인해보니 NaN이 많고, float64에러(?) 발생되어 train, test = train.align(test, join='left', axis=1)밑에 한번 더 test = test.fillna(0)를 해줘야 에러메시지가 없어지던데 어떻게 구성해야되나요? 체험환경 문제조차 못풀고있는 제가 답답하네요.. ㅋㅋㅋ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target = train.pop('TotalCharges')
안녕하세요 인프런과 시나공을 열심히 하고 있는데요지난번에도 질문을 드렸는데 계속 안돼서 다시 질문드립니다 ㅠ한 셀에서 연습중인데요쌤 말씀대로 target = train.pop('TotalCharges') --> 실행하고밑에 겟더미스 실행하면 ---> KeyError: 'TotalCharges'가 나옵니다.. 다른 문제에서도요 똑같이..그래서 저 train.pop부분을 주석처리하고 연습하긴 하는데 이게 맞는건가요??ㅜ 그리고 2유형은 시나공에 나와있는 코드를 모두 한 셀에 적어서 결과파일 만들어서 제출하는거 맞죠??#데이터 전처리 target = train.pop('TotalCharges') print(train.shape, test.shape) train = pd.get_dummies(train) test=pd.get_dummies(test) print(train.shape, test.shape)
-
해결됨자격취득과 실무! 한 방에 경영정보시각화(실기) 태블로
적용과 확인의 차이 문의
실기모의고사 문제3-1번 문제 결과 할인율의 결과값을 도출해내기 위해 IF문을 사용한 다음 결과에서 적용과 확인 버튼 중 아무거나 클릭해도 차이점은 없나요?혹시 적용버튼과 확인버튼을 구분해서 사용해야 하는 경우는 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번질문드립니다..
강의자료랑 비교햇을때 원핫인코딩에서columns = cols 는 해야하나요???안해도 저렇게 값은 나오고 train_oh = pd.get_dummies(train)test_oh = pd.get_dummies(test)print(train.shape, test.shape, train_oh.shape, test_oh.shape) 처음 개념강의에서 그냥 train 썼던거같은데 헷갈리네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기체험환경 예시문제 작업형 강의 언제올라오나요?
실기체험환경 예시문제 작업형 강의 언제올라오나요? 시험일정이 얼마안남아서 미리 공부했으면 합니다.