묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형3번
[기출7회, 작업형3번, 문제 1번]문제: 주어진 조개 데이터 300개 중 앞에서부터 210개는 train 데이터로 만들고, 나머지 90개는 test데이터로 만든다. 강의 해설 :train = df.iloc[:210] test = df.iloc[210:]저의 풀이train = df[:int(len(df)*0.7)] test = df[:int(len(df)*0.3)]저의 풀이로 진행했을 경우 1-1, 1-2번 답은 강의와 동일한데1-3번 오류율 구할때 답 차이가 나네요 ㅠ강의 0.478저의 답 : 0.5 train = df[:int(len(df)*0.7)]test = df[:int(len(df)*0.3)]이렇게 분리하면 안되는걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2
작업2유형에서데이터 전처리 과정중 인코딩을 할때어떨때는 pd.concat([train, test])로 데이터를 합치고 할때가 있고 어떨때는 바로 인코딩하던데 기준이 어떻게 되나요? 좀 헷갈려요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해당 문제 코드 작성 문의
#print(train.shape, test.shape) #print(train.isnull().sum()) #print(test.isnull().sum()) Xtrain = train.drop(['ID', 'Segmentation'], axis = 1) ytrain = train['Segmentation'] Xtest = test.drop(['ID'], axis = 1) test_ID = test['ID'] col_cat = Xtrain.select_dtypes(include = 'object').columns col_num = Xtrain.select_dtypes(exclude = 'object').columns # 수치형 스케일링 from sklearn.preprocessing import MinMaxScaler, OneHotEncoder scaler = MinMaxScaler() Xtrain[col_num] = scaler.fit_transform(Xtrain[col_num]) Xtest[col_num] = scaler.transform(Xtest[col_num]) # 범주형 인코딩 encoder = OneHotEncoder(handle_unknown = 'ignore', sparse_output = False) Xtrain_ohe = encoder.fit_transform(Xtrain[col_cat]) Xtest_ohe = encoder.transform(Xtest[col_cat]) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(Xtrain_ohe, ytrain, test_size = 0.2, random_state = 2002) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_train, y_train) y_pred = model.predict(X_val) y_test = model.predict(Xtest_ohe) submit = pd.DataFrame({'ID' : test_ID, 'y_test' : y_test}) submit.to_csv('0000.csv', index = False) submit2 = pd.read_csv('0000.csv') print(submit2) 이정도 수준으로 코딩 작성했는데 큰 문제 없겠죠? 중급 ~ 고급사이로 인지됩니다 제가 생각하기엔
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜포 회귀/분류구분
제2유형 랜포로 일관되게 풀건데요. 분류 : RandomForestClassifier회귀 : RandomForestRegressor 구분을 어떻게 진행할까요? 문제에서RSME 등과같은 오류율(- E로)끝나는 검증방법 제시하면 회귀로 풀면되고, ROU-AUC / F1등 구분하는 경우 분류로 풀 예정입니다. 추가적으로 ROU-AUC는 predic_proba 해줘야겠네요. ㅎㅎ이렇게 구분하는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 체험환경 작업형2
해당 건 랜덤포레스트 + 강사님이 최근에 공지 올리신 chat GPT 통해서 진행하는 건이요. train, test = train.align(test, join='left', axis=1)해도 에러가 뜨더라구요. 확인해보니 NaN이 많고, float64에러(?) 발생되어 train, test = train.align(test, join='left', axis=1)밑에 한번 더 test = test.fillna(0)를 해줘야 에러메시지가 없어지던데 어떻게 구성해야되나요? 체험환경 문제조차 못풀고있는 제가 답답하네요.. ㅋㅋㅋ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target = train.pop('TotalCharges')
안녕하세요 인프런과 시나공을 열심히 하고 있는데요지난번에도 질문을 드렸는데 계속 안돼서 다시 질문드립니다 ㅠ한 셀에서 연습중인데요쌤 말씀대로 target = train.pop('TotalCharges') --> 실행하고밑에 겟더미스 실행하면 ---> KeyError: 'TotalCharges'가 나옵니다.. 다른 문제에서도요 똑같이..그래서 저 train.pop부분을 주석처리하고 연습하긴 하는데 이게 맞는건가요??ㅜ 그리고 2유형은 시나공에 나와있는 코드를 모두 한 셀에 적어서 결과파일 만들어서 제출하는거 맞죠??#데이터 전처리 target = train.pop('TotalCharges') print(train.shape, test.shape) train = pd.get_dummies(train) test=pd.get_dummies(test) print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번질문드립니다..
강의자료랑 비교햇을때 원핫인코딩에서columns = cols 는 해야하나요???안해도 저렇게 값은 나오고 train_oh = pd.get_dummies(train)test_oh = pd.get_dummies(test)print(train.shape, test.shape, train_oh.shape, test_oh.shape) 처음 개념강의에서 그냥 train 썼던거같은데 헷갈리네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기체험환경 예시문제 작업형 강의 언제올라오나요?
실기체험환경 예시문제 작업형 강의 언제올라오나요? 시험일정이 얼마안남아서 미리 공부했으면 합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6번 제3유형
아래 해설에있는 ob / ex는 수험자가 구하는건가요? 아니면 문제풀이에 제시해서 주는건가요. sort_index().to_list()해당 건 안풀어본거라서요.ob = df['항암약'].value_counts().sort_index().to_list() ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 빅분기놀이터 질문
제가 작업형3에 매우 자신이없고 작업형1도 9회차 유형보고 많이 꺾여서 캐글 빅분기놀이터 작업형1 35개였나요? 그걸 하루에 한번씩 계속 회독중인데 이렇게공부해도 괜찮은걸까요..?? 문제를 외워버리는거같아서요 ㅠ그리고 또 풀긴푸는데 자꾸 좀 멍청하게 푸는듯해서.. 예를 들면 함수나 한줄이면 끝날걸 변수를 계속 만들거나 조건을 몇개씩 만들어서 푸는거같아서요 아니면 표에서 직접 눈으로 푼다던가하는거같아요 이래도 괜찮을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 질문.
판다스5 강의 2:51 에서 아래 코드가 있는데요.여기서 원산지,메뉴 기준으로 그룹핑 하면 정상인데df.groupby(['원산지','메뉴']).agg(['mean','sum'])원산지, 칼로리를 하면 에러가 뜨더라구요. 왜그런거죠? 왜 칼로리를 넣으면 안되는건가요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
불필요한 컬럼 삭제 시
특별한 기준이 있나요 ?평가 지표에 따라 무조건 삭제해도 괜찮은 것인지..만약 중요한 변수라고 생각했으나 삭제하니 평가지표가 오른다거나 하면어떻게 해야 하는지 궁금하네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표(RMSE) 값이 선생님 결과치보다 더 좋은 방향(낮게)으로 나왔는데, 괜찮을까요...?
안녕하세요, 선생님.늦게나마 이번 실기 준비하고 있습니다!항상 감사드려요! 해당 문제를 스스로 풀어 출력된 결과를 선생님의 결과와 비교하는 가운데, 다음과 같은 차이점이 있었습니다. 수치형 변수의 결측치를 mean 값으로 대체유니크 값이 너무 많은 변수(Item_Identifier)를 삭제위의 두 경우 제외 동일한 조건에서 레이블 인코더를 통한 인코딩(train, test 모두 범주형 변수 유니크 값이 동일하여 concat 진행 안함)lgbm 회귀보다 rf 회귀 모델이 RMSE 검증 결과 더 낮은 에러 값을 갖기에 rf 모델 선택결과적으로 선생님과 근소한 차이로 RMSE 값이 조금 더 낮은 모델을 학습시킬 수 있었는데, 혹시 위의 과정 상 문제가 있는 것은 아닐지 걱정됩니다.물론, 전처리 과정이나 변수 선택 등 코딩하는 사람에 따라 다를 수 있겠습니다만, 배우는 과정에서 선생님의 코드가 정석이기에 가급적 따라 배우려고 하는 마음에 오히려 좋은 결과를 의심하게 되네요.번거롭게 해드려 죄송하면서 한편으로 항상 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 다중회귀분석 다중공선성 제거
원핫 인코딩 (pd.get_dummies)를 사용하여 다중공선성을 제거 했을때, from statsmodels.formula.api import olsmodel = ols('매출액 ~ 광고비 + 유형_B + 유형_C', data=df).fit()print(model.summary())강의에서는 B와 C를 보는 경우만 보여주셨는데, 혹시 유형 A,B,C까지 다같이 보고 싶을때,model = ols('매출액 ~ 광고비 + 유형_A+ 유형_B + 유형_C', data=df).fit()이렇게 유형A도 포함시켜서 작성해야 하는지 문의드립니다! 추가로 기출이나 보통 A,B,C 전체 독립변수를 물어보는 경우가 자주 있는지 궁금합니다~!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시 문제 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제가 시험 2주 전에 다 바뀌어서 당황스러운데 특히 3유형이 신유형 같아요 ㅠ 이걸 어떻게 대비해야할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요체험환경 예시문제가 싹 바뀌었어요ㅜㅜ 풀이 영상이 업로드 가능할까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 질문입니다..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있두번째할때가 제껀데 강의자료랑 비교했을때 행하고 열의 갯수가 다른데...행은 전 행drop은 안하고해서 이해가 되도 열은 차이날수가있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 1가지유형으로 풀기 질문드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요질문 두개 드립니다.1) 데이터생성 불러오기 train = pd.read_csv('train_csv') 이런식으로 다 제공이 되는거지요? 2) 2유형 한가지방법으로 풀기의 경우, 원핫인코딩만 하셨는데, 하나만 해줘도되나요? 영상에서는 굳이 스케일링까지 안하셨길래,,, 안해줘도 되는거면 저야 땡큐지만, 성능개선이 필요한 상황이 발생한다면 민맥스 스케일러나 스탠다드 스케일링 해줘야하는건가요? 만약 성능개선을 위해서 스케일링 해야한다면, 시험환경에서 이미 성능 점수까지 확인한 후, 피쳐엔지니어링쪽 이후로 전부 주석처리해놓고 다시 처음부터 데이터 불러오고 EDA하다가 원핫인코딩하기 전까지 의 셀 쪽에 스케일링 진행하고, 나머지셀은 전부 실행하면되는건가요? ㅜㅜ 한마디로 pop하기전 원본데이터 처음부터 불러와서 피쳐엔지니어링 하기전까지의 단계에서 스케일링만 추가해준후 나머지 실행하면 성능개선이 되는건가요? 장황해서 죄송합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 [작업형 1 - 1번] 질문
df['출동시간'] = pd.to_datetime(df['출동시간']) df['도착시간'] = pd.to_datetime(df['도착시간']) df.info() df['걸린시간(분)'] = df['도착시간'] - df['출동시간'] df['걸린시간(분)'] = df['걸린시간(분)'].dt.total_seconds() / 60 df.head(2) result = df.groupby('소방서')['걸린시간(분)'].mean() result # 여기서 result 말고 df 에 넣으면 오류뜨는데 이유를 모르겠음. result 말고 df 넣으면 오류뜨는데 이 기준을 잘 모르겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
책을 구매했는데요.. (시나공 2026)
빅분기 실기 강의와 같이 병행하려고 하는데어떤식으로 같이 공부하는게 효과적일지 궁금합니다..!