묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업현 제2유형 한번에 풀기
선생님, 제가 아래와 같이 로직을 구현해서 저걸로 뺑뺑이 돌리면서 연습하고있는데요. 궁금한건 답이랑 차이가 조금 나는데범위안에 들어오면 문제없는건가요? 정답과 일부차이가 나는경우, 오답으로 인정하는 부분인지 아니면 부분점수로 정리되는건가요 예를들어, 40점 만점에서 범위가 초과하면 37 / 35점 이렇게 받는기준인가요? 일단 제2유형은 만점받고 가는 개념이라 우려스러워서 문의드립니다. import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/6_2/energy_test.csv") # train.info() # test.info() target = train.pop('Heat_Load') train = pd.get_dummies(train) test = pd.get_dummies(test) train, test = train.align(test, join='left', axis=1) from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(x_tr, y_tr) pred = rf.predict(test) submit = pd.DataFrame({'pred':pred}) submit.to_csv('result.csv', index=False) ans = pd.read_csv('result.csv') print(ans)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 환경 단축키
안녕하세요 선생님 혹시 실기체험에서 해보니깐 단축키가 안먹히던데실기시험장에서는 단축키를 쓸 수 없나요?? (shift+enter, ctrl+/) 그리고 실기시험장에서는 캐글이나 코랩처럼실행셀 바로 밑에 예쁘게 표나 문구로 나오는게 아니고 맨밑에 실행결과에 안예쁘게 나오는거 맞죠..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-11
안녕하세요 선생님캐글 T1-11부터 갑자기 코드 실행이 안됩니다. t-10까지는 셀?도 나눠져 있고 실행이 잘되는데 t-11부터 갑자기 셀이 한개이면서 실행도 안됩니다.. 코드 추가 버튼도 없고..어떻게 해야 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 시계열데이터
안녕하세요 저는교재랑 같이구입해서 공부하는 중입니다.시계열데이터에 대해서 강의내용은 다 학습을 했는데 교재에는 시계열데이터 관련해서 더 많은내용이 있더라구요,,,근데 너무 어려워서 ..지금시험이 20일정도 남은 시점에서 이내용까지 공부해서 완벽하게 익혀야하는지 의문이 들어서요교재 섹션26부터는 대부분 조건문이 2개 이상 넣어서 풀어야하는 문제인데 저는 이번에 파이썬을 처음 접해서.. 응용이 힘드네요기출문제를 봤을때 아직 시계열은 많이 안나왔던데 그래서 고민이 좀 되구요..시계열데이터에서 어디까지 공부해야하는지 조언부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)
예시문제 작업형2를 먼저 푼 뒤에 풀이 영상을 봤습니다.근데 제가 처음에 풀 때는 train, test 데이터의 주구매상품을 unique 찍어보니 다르게 나와서 pd.concat을 통해 데이터를 합친 뒤 라벨 인코딩을 하고 다시 나눠서 진행했습니다.근데 풀이영상에서는 안 합치고 라벨 인코딩을 진행하셨는데 train 테이블 가지고 학습하는데 예측할 테이블보다 유니크 수가 더 많으면 굳이 합칠 필요가 없는 건가요?그리고 합쳐서 진행해도 상관 없는 걸까요? roc_auc_score는 0.62점으로 풀이 영상보다 높게 나오긴 했습니다.
-
미해결파이썬 주식 매매 봇으로 주식시장 자동사냥하기
국내주식 과거 분봉데이터 관련
안녕하세요, 국내주식 과거 분봉데이터를 받을수는 없는것인가요? 한투 사이트를 보면 당일 분봉데이터만 제공하는 것으로 보입니다만, 다른 방법이 있는지 문의드립니다. 분봉데이터를 받아볼수 있다면, 어떤식으로 데이터를 보관?하여 벡테스팅을 하는것이 효율적인지 조언구합니다. 예를들어 SQL 데이터베이스 같은 db를 사용하는게 나을지 등감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 (작업형2)
8회 기출유형 (작업형2) 문제 관련해서 저장할때 오류가 떠서 문의드립니다. import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") train.shape, test.shape cols = train.select_dtypes(include='object').columns cols from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split (train,target,test_size=0.2,random_state=2022) X_tr.shape,X_val.shape,y_tr.shape,y_val.shape from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=2022) model.fit(X_tr,y_tr) pred = model.predict(X_val) from sklearn.metrics import mean_absolute_error mae = mean_absolute_error(y_val,pred) print(mae) pred = model.predict(test) submit = pd.DataFrame({'pred':pred})제일 마지막 pred = model.predict(test) 과정에서ValueError Traceback (most recent call last) <ipython-input-82-67795a42191c> in <cell line: 0>() ----> 1 pred = model.predict(test) 2 submit = pd.DataFrame({'pred':pred}) 5 frames/usr/local/lib/python3.11/dist-packages/pandas/core/generic.py in __array__(self, dtype, copy) 2151 ) -> np.ndarray: 2152 values = self._values -> 2153 arr = np.asarray(values, dtype=dtype) 2154 if ( 2155 astype_is_view(values.dtype, arr.dtype) ValueError: could not convert string to float: 'CUST0769'이런 오류가 뜨길래 검색해보니 object 형태의 컬럼이 있다고 오류가 뜹니다ㅠ전처리 과정에서 Label인코딩을 하였고, 데이터 형태 int로 바뀐것까지 확인하였는데,확인 부탁드리겠습니다ㅠㅠ선생님 강의에서 customer_ID를 삭제(drop)하였는데, 그걸 저는 따로 진행을 안했는데, 혹시 그것 때문인지 문의드립니다!추가로 customer_ID를 삭제 안하고 진행해도 괜찮은지도 알려주시면 감사하겠습니다~!^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 유형
문제에서 어떤방법으로 검정하라고 알려주나요? 예를 들면 '샤피로검정으로 분석하시오' 이런식으로 검정 방법을 명확히 알려주는지 어떠한 상황으로만 가정하는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 짧은 길은 없는걸까요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작년 말에 하고 개인적인 일이 크게 있어서 멘탈터져갖고 응시포기하고, 이번에 또 준비중인데요 확실히 쉽지 않네요. 사람들이 유형2랑 유형 3만 기출 반복 통해서 좀 하면 된다고 하는데, 마음의 여유가 없다보니.. 혹시 2유형이라도 일단 정복하고 싶은데 학습 순서 추천 가능할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 튜닝
하이퍼 파라미터 튜닝 방식은 모든 모델에 대해 공통적으로 적용되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 성능질문
r2랑 rmse 같이 검증해봤는데rmse가 만단위가 나오고 r2는 음수값이 나와서 혼자 풀다가 풀이 영상을 시청하게됐습니다ㅎ 이론을 들었을때 작업형2는 성능평가 좋은쪽(?)으로 점수를 부여한다고 기억했는데모델별 상대적인거고 굳이 더 좋은 성능이 나오도록 튜닝할 필요는 없을까용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 1번 문의
작성 답안 : import pandas as pdimport numpy as nptrain = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/train.csv")test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/test.csv") target = train.pop('Attrition_Flag')train = pd.get_dummies(train)test=pd.get_dummies(test)train.shape, test.shape from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state=0)X_tr.shape, X_val.shape, y_tr.shape, y_val.shape from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier()rf.fit(X_tr, y_tr)pred = rf.predict(X_val) from sklearn.metrics import f1_scoref1_score = f1_score(y_val, pred)print(f1_score) pred = rf.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc_score = roc_auc_score(y_val, pred[:,1])print(roc_auc_score) pred = rf.predict_proba(test)pred submit = pd.DataFrame({'Attrition_Flag':pred[:,1]})submit.to_csv('result.csv',index=False)df = pd.read_csv('result.csv')df.shape 1. 강의 자료에서 검증 데이터 분리시 train.drop을 이용하여 baseline, 인코딩 여러 가징 방법을 적용하여 성능이 우수한 것을 결정하였는데, 시험볼때 원핫 인코딩 하나만 설정해서 진행해도 되는지 문의드립니다. 2. 전처리 시 'CLIENTNUM' 가 오버피팅될 수 있으므로 pop을 활용하여 따로 빼서 분리하였는데,해당 과정은 생략해도 되는지 문의드립니다. 3. 원핫 인코딩 설정시pd.get_dummies(train, columns = cols)가 아닌pd.get_dummies(train)으로 설정해도 되는지 문의드립니다. 3. 시험볼때 f1_score, 정밀도, 재현율 등 여러가지 성능을 확인해봐야 되는지, 아니면 f1_score 하나만 확인해서 진행해도 되는지 문의드립니다. 3. 상위 코드 내용대로 풀어봤는데, 적정한지 검토 부탁드리겠습니다~^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.describe(include='0')
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 인프런과 시나공을 병행중입니다.시나공 교재 제5회 기출 2과목에서 교재대로 train.describe(include='0') 을 쓰면TypeError: data type '' not understood 이렇게 나오고요.그래서 train.describe(include='object')로 쓰니 잘 실행되구요. 그래서 train.describe(include='object') 로 쓰고검증 데이터 분할을 하는데 갑자기 또 train.describe(include='object') 여기가 에러가 뜹니다...그래서 '0'으로 다시 바꿔도 안되구요.. 뭐가 문제일까요....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출 코드 문의 있습니다.
한가지 질문이 하나 더 있습니다. 마지막 결과 제출부문에서 하기와 같이 코딩을 했습니다.'id'와 'income'을 컬럼으로 표현을 하고 제출하는것으로 짰는데요 혹시 감점이 발생할 수 있을까요?# pred = model_rfc.predict_proba(x_test_fin)[:,1]# print(pred)# pd.DataFrame({'ID' : x_test.id, 'income' : pred}).to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.pop ??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 시나공과 인프런 병행하고 있는 생초보입니다. 2과목 문제에서 자꾸train.pop 을 쓰면 해당 칼럼이 없어져서 그 이후부터는 에러만 나옵니다. (train.pop이 문제인지도 확실히 모릅니다. 챗지피티 검색해보앗습니다)KeyError: 'Segmentation' 뭐가 문젠지 모르겠습니다 ㅠㅠ train.shape, test.shape train.head(3) train.info() train.describe() train.describe(include='object') test.describe(include='object') train.isnull().sum().sum() test.isnull().sum().sum() target=train.pop('Segmentation') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)KeyError Traceback (most recent call last) /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3804 try: -> 3805 return self._engine.get_loc(casted_key) 3806 except KeyError as err: index.pyx in pandas._libs.index.IndexEngine.get_loc() index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'Segmentation' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 4 frames <ipython-input-25-73fc94c13b3a> in <cell line: 0>() 15 test.isnull().sum().sum() 16 ---> 17 target=train.pop('Segmentation') 18 print(train.shape, test.shape) 19 train = pd.get_dummies(train) /usr/local/lib/python3.11/dist-packages/pandas/core/frame.py in pop(self, item) 5817 3 monkey NaN 5818 """ -> 5819 return super().pop(item=item) 5820 5821 def _replace_columnwise( /usr/local/lib/python3.11/dist-packages/pandas/core/generic.py in pop(self, item) 945 946 def pop(self, item: Hashable) -> Series | Any: --> 947 result = self[item] 948 del self[item] 949 /usr/local/lib/python3.11/dist-packages/pandas/core/frame.py in __getitem__(self, key) 4100 if self.columns.nlevels > 1: 4101 return self._getitem_multilevel(key) -> 4102 indexer = self.columns.get_loc(key) 4103 if is_integer(indexer): 4104 indexer = [indexer] /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3810 ): 3811 raise InvalidIndexError(key) -> 3812 raise KeyError(key) from err 3813 except TypeError: 3814 # If we have a listlike key, _check_indexing_error will raise KeyError: 'Segmentation'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7회 작업형 1
문제는 DE1 ~ DE77 컬럼을 슬라이싱하라고되어있는데, 해설을보면 DE1~DE77 행을 슬라이실하는거아닌가요? 확인부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10회시험에서도 numeric_only = True 이슈없겠죠?
10회시험에서도 numeric_only = True 이슈없겠죠?아직 업데이트 전 버전 쓰는거아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 답안 제출할 때
기출6회 작업형1 1번 문제를 영상 시청 전에 혼자 풀어봤는데요몇 가지 코드를 잘 모르겠어서 아래와 같이 print된 결과를 직접 눈으로 확인하여 가장 오래 걸린 시간을 찾고 그걸 수동으로 분으로 변환해서 풀어봤습니다.. 이렇게 눈으로 판단하고 수동으로 답을 구해서 답안을 제출해도 괜찮은지 궁금합니다! 강의를 시청하면서 강사님께서 가르쳐주시는 방법들을 학습할 예정이지만 혹시나 시험에서 갑자기 생각이 나지 않을 경우에 저런 방법을 써도 되는지 궁금해서요..! 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2) 모의고사 2 질문
안녕하세요. 질문이 있습니다. object 컬럼 'neighbourhood'에 대해서...object 형 컬럼의 고유항목들이 train 데이터와 test 데이터 모두 일치하는지 확인한 후 일치하지 않으면train 데이터와 test 데이터를 concat으로 합친 후에 인코딩을 진행하고 다시 분리해주라고 학습했습니다.그런데 이번 수업 에어비엔비 자료에서 'neighbourhood' 항목이 일치하지 않는 것으로 확인되어concat 과정을 진행해 주었는데 수업에서는 이 과정이 없더라구요.관련 질문을 찾아보니 test 데이터의 항목을 train 데이터가 모두 포함하고 있으면 레이블 인코딩은 가능하고 원핫 인코딩은 불가능하다고 하신 것 같은데 이렇게 생각하니 너무 복잡한 것 같아서요.그냥 일치하지 않는 항목이 있으면 무조건 concat을 진행해준다고 생각하면 오히려 편할 것 같은데이렇게 생각하고 문제를 풀어도 오류가 없을지 궁금합니다. 그리고 저는 'neighbourhood' 항목이object형이고value가 200개 이상으로 꽤 크다고 생각했으며price를 예측할 때 크게 의미 있는 컬럼이라는 생각이 들지 않아서 굳이 인코딩하기 보다는 과감하게 삭제를 진행했었는데요.문제를 풀 때 이렇게 자신의 기준으로 컬럼을 삭제해도 괜찮은 건가요? csv 파일로 생성해야 하는 target 컬럼 같은 경우어쩔 때는 데이터 전처리 초반에 다음과 같은 코드(target = train.pop('price'))로 미리 분리를 해두거나이번 수업처럼 검증 데이터를 분리할 때X_train, X_val, y_train, y_val = train_test_split(train.drop('price', axis=1), train['price'], test_size=0.15, random_state=2022)이런 식으로 함수 매개변수로 설정해주시기도 하셨잖아요.방법이 여러 가지가 있어서 그때그때 다른 방법을 보여주신 거라고 생각하면 될까요?그리고 test_size를 보통 20%로 잡으시던데 이번엔 15%로 잡은 이유가 별도로 있으신 건지 궁금합니다. 만약 전처리 할 때 target = train.pop('price')을 통해 미리 타겟을 분리해두면, train 데이터에 타겟 컬럼이 존재하지 않게 되잖아요. 근데 검증 데이터 분리할 때 첫 번째 매개변수로 train 데이터를 두 번째 매개변수로 타겟 값을 넣어줌으로써 학습 및 검증은 타겟값이 정상적으로 활용되는 것이 맞나요? 이 가정이 맞다면 문제가 없지만, 가정이 틀리다면 저 타겟을 왜 분리하는지 이해가 되지 않을 것 같습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 인코딩 관련 문의
1.머신러닝 인코딩 강의 관련하여원핫 인코딩 또는 라벨 인코딩 둘 중 하나를 사용하면 된다고 하는데,train_oh = pd.get_dummies(train) test_oh = pd.get_dummies(test) data = pd.concat([train, test], axis=0) data_oh = pd.get_dummies(data) train_oh = data_oh.iloc[:len(train)].copy() test_oh = data_oh.iloc[len(train):].copy()해당 원핫 인코딩만 적용하면 ValueError: could not convert string to float: 'Private' 해당 오류가 뜨면서cols = ['workclass', 'education', 'marital.status', 'occupation', 'relationship', 'race', 'sex','native.country'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])라벨 인코딩까지 같이 적용해야 오류가 안 뜨는데,혹시 두 가지 같이 적용해야 되는지 문의드립니다. 또한, 머신러닝 (회귀) 강의에서는 인코딩 하는 방법이cols = ['Item_Identifier', 'Item_Fat_Content', 'Item_Type', 'Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type', 'Outlet_Type'] df = pd.concat([train, test]) # 라벨 인코딩 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: df[col] = le.fit_transform(df[col]) # 원핫 인코딩 df = df.drop('Item_Identifier', axis=1) df = pd.get_dummies(df)train, test 개별로 보지않고, 합쳐서 적용을 하는데별도로 분리해서 적용하지 않고 한번에 합쳐서 적용해도 되는지 궁금합니다! 인코딩 부분이 헷갈리는데, 가장 보편적으로 사용되는 인코딩 방법이 어떤것인지 알려주시면 해당 방법으로 주로 학습해보겠습니다!^^