묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 짧은 길은 없는걸까요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작년 말에 하고 개인적인 일이 크게 있어서 멘탈터져갖고 응시포기하고, 이번에 또 준비중인데요 확실히 쉽지 않네요. 사람들이 유형2랑 유형 3만 기출 반복 통해서 좀 하면 된다고 하는데, 마음의 여유가 없다보니.. 혹시 2유형이라도 일단 정복하고 싶은데 학습 순서 추천 가능할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 튜닝
하이퍼 파라미터 튜닝 방식은 모든 모델에 대해 공통적으로 적용되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 성능질문
r2랑 rmse 같이 검증해봤는데rmse가 만단위가 나오고 r2는 음수값이 나와서 혼자 풀다가 풀이 영상을 시청하게됐습니다ㅎ 이론을 들었을때 작업형2는 성능평가 좋은쪽(?)으로 점수를 부여한다고 기억했는데모델별 상대적인거고 굳이 더 좋은 성능이 나오도록 튜닝할 필요는 없을까용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 1번 문의
작성 답안 : import pandas as pdimport numpy as nptrain = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/train.csv")test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/test.csv") target = train.pop('Attrition_Flag')train = pd.get_dummies(train)test=pd.get_dummies(test)train.shape, test.shape from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state=0)X_tr.shape, X_val.shape, y_tr.shape, y_val.shape from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier()rf.fit(X_tr, y_tr)pred = rf.predict(X_val) from sklearn.metrics import f1_scoref1_score = f1_score(y_val, pred)print(f1_score) pred = rf.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc_score = roc_auc_score(y_val, pred[:,1])print(roc_auc_score) pred = rf.predict_proba(test)pred submit = pd.DataFrame({'Attrition_Flag':pred[:,1]})submit.to_csv('result.csv',index=False)df = pd.read_csv('result.csv')df.shape 1. 강의 자료에서 검증 데이터 분리시 train.drop을 이용하여 baseline, 인코딩 여러 가징 방법을 적용하여 성능이 우수한 것을 결정하였는데, 시험볼때 원핫 인코딩 하나만 설정해서 진행해도 되는지 문의드립니다. 2. 전처리 시 'CLIENTNUM' 가 오버피팅될 수 있으므로 pop을 활용하여 따로 빼서 분리하였는데,해당 과정은 생략해도 되는지 문의드립니다. 3. 원핫 인코딩 설정시pd.get_dummies(train, columns = cols)가 아닌pd.get_dummies(train)으로 설정해도 되는지 문의드립니다. 3. 시험볼때 f1_score, 정밀도, 재현율 등 여러가지 성능을 확인해봐야 되는지, 아니면 f1_score 하나만 확인해서 진행해도 되는지 문의드립니다. 3. 상위 코드 내용대로 풀어봤는데, 적정한지 검토 부탁드리겠습니다~^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.describe(include='0')
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 인프런과 시나공을 병행중입니다.시나공 교재 제5회 기출 2과목에서 교재대로 train.describe(include='0') 을 쓰면TypeError: data type '' not understood 이렇게 나오고요.그래서 train.describe(include='object')로 쓰니 잘 실행되구요. 그래서 train.describe(include='object') 로 쓰고검증 데이터 분할을 하는데 갑자기 또 train.describe(include='object') 여기가 에러가 뜹니다...그래서 '0'으로 다시 바꿔도 안되구요.. 뭐가 문제일까요....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출 코드 문의 있습니다.
한가지 질문이 하나 더 있습니다. 마지막 결과 제출부문에서 하기와 같이 코딩을 했습니다.'id'와 'income'을 컬럼으로 표현을 하고 제출하는것으로 짰는데요 혹시 감점이 발생할 수 있을까요?# pred = model_rfc.predict_proba(x_test_fin)[:,1]# print(pred)# pd.DataFrame({'ID' : x_test.id, 'income' : pred}).to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.pop ??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 시나공과 인프런 병행하고 있는 생초보입니다. 2과목 문제에서 자꾸train.pop 을 쓰면 해당 칼럼이 없어져서 그 이후부터는 에러만 나옵니다. (train.pop이 문제인지도 확실히 모릅니다. 챗지피티 검색해보앗습니다)KeyError: 'Segmentation' 뭐가 문젠지 모르겠습니다 ㅠㅠ train.shape, test.shape train.head(3) train.info() train.describe() train.describe(include='object') test.describe(include='object') train.isnull().sum().sum() test.isnull().sum().sum() target=train.pop('Segmentation') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)KeyError Traceback (most recent call last) /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3804 try: -> 3805 return self._engine.get_loc(casted_key) 3806 except KeyError as err: index.pyx in pandas._libs.index.IndexEngine.get_loc() index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'Segmentation' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 4 frames <ipython-input-25-73fc94c13b3a> in <cell line: 0>() 15 test.isnull().sum().sum() 16 ---> 17 target=train.pop('Segmentation') 18 print(train.shape, test.shape) 19 train = pd.get_dummies(train) /usr/local/lib/python3.11/dist-packages/pandas/core/frame.py in pop(self, item) 5817 3 monkey NaN 5818 """ -> 5819 return super().pop(item=item) 5820 5821 def _replace_columnwise( /usr/local/lib/python3.11/dist-packages/pandas/core/generic.py in pop(self, item) 945 946 def pop(self, item: Hashable) -> Series | Any: --> 947 result = self[item] 948 del self[item] 949 /usr/local/lib/python3.11/dist-packages/pandas/core/frame.py in __getitem__(self, key) 4100 if self.columns.nlevels > 1: 4101 return self._getitem_multilevel(key) -> 4102 indexer = self.columns.get_loc(key) 4103 if is_integer(indexer): 4104 indexer = [indexer] /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3810 ): 3811 raise InvalidIndexError(key) -> 3812 raise KeyError(key) from err 3813 except TypeError: 3814 # If we have a listlike key, _check_indexing_error will raise KeyError: 'Segmentation'
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
3회 작업형2 문제1 질문
안녕하세요.3회 작업형2 문제1 질문드립니다. 6분 50초쯤 scaler - MinMaxScaler()scaler.fit(x_train3)x_train4 = scaler.transform(x_train3)x_test4 = scaler.transform(x_test3)코드에서 scaler.fit(x_test3)는 따로 해주지 않는 이유가 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형 1
문제는 DE1 ~ DE77 컬럼을 슬라이싱하라고되어있는데, 해설을보면 DE1~DE77 행을 슬라이실하는거아닌가요? 확인부탁드립니다.
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
3회 작업형1 문제2 질문
안녕하세요.양질의 강의를 제공해주신 덕분에 많은 도움을 받고 있습니다. 3회 작업형1 문제2 강의7분 35초~ 45초 구간에서' 평균온도보다 더 큰 도시수 구하기' 코드 질문이 있습니다.문제의 의도는 "전체" 년도의 데이터 중에서 2003년의 평균온도보다 더 큰 도시 수를 구하는게 의도된 바가 아닌지 궁금합니다. df_2003.iloc[ :, 1:] > mean_value 코드로 작성해주셨는데의도된 바라면df.iloc[ :, 1:] > mean_value 로 코드를 바꾸어야할거같은데 이 부분에 대해서 강사님의 생각은 어떠하신지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회시험에서도 numeric_only = True 이슈없겠죠?
10회시험에서도 numeric_only = True 이슈없겠죠?아직 업데이트 전 버전 쓰는거아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 답안 제출할 때
기출6회 작업형1 1번 문제를 영상 시청 전에 혼자 풀어봤는데요몇 가지 코드를 잘 모르겠어서 아래와 같이 print된 결과를 직접 눈으로 확인하여 가장 오래 걸린 시간을 찾고 그걸 수동으로 분으로 변환해서 풀어봤습니다.. 이렇게 눈으로 판단하고 수동으로 답을 구해서 답안을 제출해도 괜찮은지 궁금합니다! 강의를 시청하면서 강사님께서 가르쳐주시는 방법들을 학습할 예정이지만 혹시나 시험에서 갑자기 생각이 나지 않을 경우에 저런 방법을 써도 되는지 궁금해서요..! 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2) 모의고사 2 질문
안녕하세요. 질문이 있습니다. object 컬럼 'neighbourhood'에 대해서...object 형 컬럼의 고유항목들이 train 데이터와 test 데이터 모두 일치하는지 확인한 후 일치하지 않으면train 데이터와 test 데이터를 concat으로 합친 후에 인코딩을 진행하고 다시 분리해주라고 학습했습니다.그런데 이번 수업 에어비엔비 자료에서 'neighbourhood' 항목이 일치하지 않는 것으로 확인되어concat 과정을 진행해 주었는데 수업에서는 이 과정이 없더라구요.관련 질문을 찾아보니 test 데이터의 항목을 train 데이터가 모두 포함하고 있으면 레이블 인코딩은 가능하고 원핫 인코딩은 불가능하다고 하신 것 같은데 이렇게 생각하니 너무 복잡한 것 같아서요.그냥 일치하지 않는 항목이 있으면 무조건 concat을 진행해준다고 생각하면 오히려 편할 것 같은데이렇게 생각하고 문제를 풀어도 오류가 없을지 궁금합니다. 그리고 저는 'neighbourhood' 항목이object형이고value가 200개 이상으로 꽤 크다고 생각했으며price를 예측할 때 크게 의미 있는 컬럼이라는 생각이 들지 않아서 굳이 인코딩하기 보다는 과감하게 삭제를 진행했었는데요.문제를 풀 때 이렇게 자신의 기준으로 컬럼을 삭제해도 괜찮은 건가요? csv 파일로 생성해야 하는 target 컬럼 같은 경우어쩔 때는 데이터 전처리 초반에 다음과 같은 코드(target = train.pop('price'))로 미리 분리를 해두거나이번 수업처럼 검증 데이터를 분리할 때X_train, X_val, y_train, y_val = train_test_split(train.drop('price', axis=1), train['price'], test_size=0.15, random_state=2022)이런 식으로 함수 매개변수로 설정해주시기도 하셨잖아요.방법이 여러 가지가 있어서 그때그때 다른 방법을 보여주신 거라고 생각하면 될까요?그리고 test_size를 보통 20%로 잡으시던데 이번엔 15%로 잡은 이유가 별도로 있으신 건지 궁금합니다. 만약 전처리 할 때 target = train.pop('price')을 통해 미리 타겟을 분리해두면, train 데이터에 타겟 컬럼이 존재하지 않게 되잖아요. 근데 검증 데이터 분리할 때 첫 번째 매개변수로 train 데이터를 두 번째 매개변수로 타겟 값을 넣어줌으로써 학습 및 검증은 타겟값이 정상적으로 활용되는 것이 맞나요? 이 가정이 맞다면 문제가 없지만, 가정이 틀리다면 저 타겟을 왜 분리하는지 이해가 되지 않을 것 같습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 인코딩 관련 문의
1.머신러닝 인코딩 강의 관련하여원핫 인코딩 또는 라벨 인코딩 둘 중 하나를 사용하면 된다고 하는데,train_oh = pd.get_dummies(train) test_oh = pd.get_dummies(test) data = pd.concat([train, test], axis=0) data_oh = pd.get_dummies(data) train_oh = data_oh.iloc[:len(train)].copy() test_oh = data_oh.iloc[len(train):].copy()해당 원핫 인코딩만 적용하면 ValueError: could not convert string to float: 'Private' 해당 오류가 뜨면서cols = ['workclass', 'education', 'marital.status', 'occupation', 'relationship', 'race', 'sex','native.country'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])라벨 인코딩까지 같이 적용해야 오류가 안 뜨는데,혹시 두 가지 같이 적용해야 되는지 문의드립니다. 또한, 머신러닝 (회귀) 강의에서는 인코딩 하는 방법이cols = ['Item_Identifier', 'Item_Fat_Content', 'Item_Type', 'Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type', 'Outlet_Type'] df = pd.concat([train, test]) # 라벨 인코딩 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: df[col] = le.fit_transform(df[col]) # 원핫 인코딩 df = df.drop('Item_Identifier', axis=1) df = pd.get_dummies(df)train, test 개별로 보지않고, 합쳐서 적용을 하는데별도로 분리해서 적용하지 않고 한번에 합쳐서 적용해도 되는지 궁금합니다! 인코딩 부분이 헷갈리는데, 가장 보편적으로 사용되는 인코딩 방법이 어떤것인지 알려주시면 해당 방법으로 주로 학습해보겠습니다!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
소수점 질문
만약 각종 값을 구할 때 소수점이 필요하다면 그냥 model.params로 한번에 확인하고 수기로 제출해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 수치
검증 데이터와 평가지표를 통해 평가했을 때, 평균적으로 어느정도가 제출하기 이상적인 수치인지 질문 드려도 될까요..?? 질문이 이상하긴한데.. 궁금하네요 영상에서 0.6정도도 선생님께서 강의 흐름상 그냥 제출하신 것 같은데 그정도도 마음 놓고 제출해도 될지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제, 문제에서 데이타가 링크로 적혀있어요. 어떻게 불러와야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 모의문제1번부터...data:members.csv 를 사용해서 문제를 풀게 되어 있는데코드에 이렇게 링크로 적혀있는데 어떻게 불러오나요?? import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저는 원핫 인코딩으로 진행했는데 이런 코드로 짜보니 결국에는 마지막 에러가..
결국엔 마지막 에러가 '주구매상품_소형가전'이라고 뜨네요제 코드에서 어디를 수정해야할까요?import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#분류문제(랜포RandomForestClassifier)#print(train.shape),print(test.shape)#결측치 이상치 확인train['환불금액']=train['환불금액'].fillna(0)test['환불금액']=test['환불금액'].fillna(0)train=train.drop('회원ID',axis=1)test=test.drop('회원ID',axis=1)#타겟값 지정target=train.pop('성별')#원핫인코딩train=pd.get_dummies(train)test=pd.get_dummies(test)#데이터분할하기from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)#모델함수 불러와서 에측하기from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scoremodel=RandomForestClassifier(n_estimators=1000,max_depth=7,random_state=2022)model.fit(X_tr, y_tr)pred = model.predict_proba(X_val)#성능평가 roc_aucfrom sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val,pred[:,1]))#실제 test로 예측값구하기pred = model.predict_proba(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 채우는건 0혹은 중앙값? 어떤걸 추천하시는지요?
현재 구름환경 들어와서 2유형 풀어보고있는데요혹시 결측치값은 어떤걸로 채우는걸 가장 추천하실런지요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님~ 답변부탁드립니다 ㅠ저는 원핫인코딩으로 했더니 평가가 850대로 나오는데요
그리고 저는 원핫인코딩으로 했는데 mse가 850점대로 나오네요.. 이러면 안되는거지요? import pandas as pd train=pd.read_csv("churn_train.csv") test=pd.read_csv("churn_test.csv") #데이터전처리 train=train.drop('customerID',axis=1) test=test.drop('customerID',axis=1) #타겟값 설정 target=train.pop("TotalCharges") #원핫인코딩 train=pd.get_dummies(train) test=pd.get_dummies(test) test.head(5) #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val= train_test_split(train, target, test_size= 0.2, random_state=100) #랜포 불러와서 모델링하기 from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor(n_estimators=500,max_depth=5,random_state=2022) model.fit(X_tr, y_tr) pred = model.predict(X_val) #성능평가MAE(Mean Absolute Error) from sklearn.metrics import mean_absolute_error mean_absolute_error(y_val,pred) pred = model.predict(test) result=pd.DataFrame({"pred" : pred}) result.to_csv("111.csv",index=False)