묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2
혹시 수치형과 범주형데이터를 분리했다가 합치지 말고,바로 원핫인코딩을 진행해서 해도 괜찮을까요?또, max_depth도 꼭 필요한지, 어디서 적용해야하는지도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 , 라벨인코딩 선택의 기준
안녕하세요. 수강중 문의드립니다전처리 파트 중 인코딩 부분에서,인코딩 했을 때 칼럼수가 너무 많아질 경우원핫 말고 라벨인코더를 사용하는데요시험장 컴퓨팅 환경을 기준으로컬럼이 몇개 오버될경우라벨인코더를 사용하면 좋을지에대해 기준점을 제시해주시면 감사하겠습니다.(현재 200개 언더로는 원핫 쓰고 그이상은 라벨인코더 쓰는 식으로 하고있습니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 코드 점검 한번만 부탁드립니다..
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# print(train.shape, test.shape)# print(train.info())# print(test.isnull().sum())y_train = train.pop('총구매액')# print(train.shape, test.shape)m = train['환불금액'].mean()train['환불금액'] = train['환불금액'].fillna(m)test['환불금액'] = test['환불금액'].fillna(m)# 원핫, 라벨링인코더# print(train.info())# print(train.shape, test.shape)#라벨인코더# cols = ['주구매상품', '주구매지점']# from sklearn.preprocessing import LabelEncoder# le = LabelEncoder()# for col in cols:# train[col] = le.fit_transform(train[col])# test[col] = le.transform(test[col])#원핫print(train.shape, test.shape)data = pd.concat([train,test], axis = 0)data_oh = pd.get_dummies(data)train = data_oh.iloc[:len(train)].copy()test = data_oh.iloc[len(train):].copy()print(train.shape, test.shape) # print(train.head())#스플릿from sklearn.model_selection import train_test_splitX_tr, X_var, y_tr, y_var = train_test_split(train,y_train,test_size = 0.15,random_state = 0)#랜포from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict(X_var)import lightgbm as lgblgbmr = lgb.LGBMRegressor(random_state=0)lgbmr.fit(X_tr, y_tr)pred1 = lgbmr.predict(X_var)from sklearn.metrics import root_mean_squared_errorrmse = root_mean_squared_error(y_var, pred1)print(rmse)#라벨 rf 716.2595627489613#라벨 lgb 667.9290102574973#원핫 rf - 762.9476701424611#원핫 lgb - 652.1802049238468#제출pred = lgbmr.predict(test)submit = pd.DataFrame({'pred' : pred})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv')) 저렇게 4개 비교해서 원핫 lgb로 제출했는데요 옳게 했는지 코드 점검 한번만 부탁드립니다 그리고 질문이 있는데요 실제 시험 들어가면 import pands as pd랑 트레인 테스트 저거 주나요? 외워야하나요? 저 화면 처럼 실제 시험도 저렇게 구성되어있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 이상치 파악
train과 test 데이터 전처리 시, 두 데이터 모두에서 '총구매액' 과 '최대구매액'이 음수이길래 이상치인줄 알고 전처리에 고민을 좀 했습니다.고민하다보니 전액 환불한 경우에는 논리적으로 음수가 맞더라고요. 그래서 별도의 이상치 처리는 안 했습니다. 다만, 제가 궁금한점은 실제 시험에서 이상치가 나왔을 때 대응 방법 (예를 들어, 이상치가 아닌 데이터만 살리는 등) 이 문제처럼 test데이터에서 이상치가 나올 가능성이 있는지와 대응방법 (test데이터의 행은 삭제해서는 안 되는 것으로 알고 있습니다.) 위 두가지가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2
예측 단계에서 다음과 같은 오류가 발생했는데, 이유가 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출3회 작업형1 3번]
ValueError Traceback (most recent call last) /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/range.py in get_loc(self, key) 412 try: --> 413 return self._range.index(new_key) 414 except ValueError as err: ValueError: 3 is not in range The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 3 frames/usr/local/lib/python3.11/dist-packages/pandas/core/indexes/range.py in get_loc(self, key) 413 return self._range.index(new_key) 414 except ValueError as err: --> 415 raise KeyError(key) from err 416 if isinstance(key, Hashable): 417 raise KeyError(key) KeyError: 3기출3회 작업형1 3번 문제를 풀 때, 맨 처음 데이터를 다시 실행시켜주지 않으면 동일한 코드라도 이런 오류가 뜹니다. 매번 처음 데이터를 실행해줘야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 실기 1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요방법 2인 pivot table을 만든 이후에 기존 방법 1의 grouped['차이'] 항목을 만들어 처리하였는데요.방법 2에서는 grouped라는 변수에 pivot table 결과를 안넣으셨는데, pivot table 결과가 어떻게 grouped에 들어간걸까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2:00 질문
대응표본검정 코딩할때, alternative='less'를 넣었는데 뮤d가 < 0 인 대립가설을 기준으로 잡으신 이유가 있을까요 ??귀무가설을 기준으로 뮤d >= 0 으로 잡으면 before가 after보다 크게 나와서 less로 안해도 된다는 의문점이 있습니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
소문제 3번의 equal_var 값이 True임을 어떻게 확인하나요?
두 그룹이 등분산이라고 문제에 나와있지 않은 것 같은데 미리 구한 것인지 궁금합니다. 감사합니다.
-
미해결베개 투자법: 자면서 돈 버는 AI 주식 자동 매매 머신
MCP - Cursor 등록하는 이유
안녕하세요.MCP 서버를 Cursor에 등록하여 개발 연동하는 이유가 뭔가요?? 이미 Chat Prompt에서 디렉터리 내에 접근이 가능한 것으로 보여지는데 추가적으로 연동하는 이유가 궁금합니다. 강의 시점과 버전 차이가 있어서인지 코드도 다소 다른데다, 강사님 화면처럼 Filesystem은 활성화가 안 되네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 (수치형 or 범주형) 선택
안녕하세요. 데이터 전처리 단계에서 저는 수치형 데이터를 넣어서 진행하였습니다. 하지만 수업에서는 범주형 데이터를 선택하여 인코딩을 하셨습니다.이 기준을 어떻게 정한건가요??저는 info()를 통하여 df를 확인해보니 수치형(int,float)이 많아서 num_cols로 만들어서 진행하였습니다.
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
정규화 질문
정규화 할때1번from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()x_train2 = scaler.fit_transform(x_train)x_test2 = scaler.fit_transform(x_test) 2번from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()scaler.fit(x_train)x_train2 = scaler.transform(x_train)x_test2 = scaler.transform(x_test) 풀이방식이 1번 2번 둘다 상관 없을 까요 아니면 어떤게 맞는 풀이 일까요?ㅜㅜ9회 풀이를 보면 표준화는 1번처럼 풀이 됬고나머지 기출은 2번 처럼 풀이가 됬는데 둘다 해보니 값이 달라서 질문드립니다.아니면 min_max정규화 standard 표준화 풀이가 다른 것인지도 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형은 왜 빠져있는건가요?!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요3유형은 기출6회부터 변경돼서 출제된건가요 ? 5회까지는 3유형이 안보여서요... 잘 몰라서 여쭙습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 결측치 처리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 작업형2 번에서 train, test 두 데이터 동일 컬럼에 결측치가 있을경우 숫자면 0 , 문자면 최빈값으로 채우는 방법도 있지만..연습문제 풀다 가끔 train, test 컬럼 수? 뭐가 안맞는다는 오류가떠서..해당 결측치 컬럼은 train과 test에서 제거해버려도 문제가 안될까요?( 결측치 있는 컬럼이 Target이 아니라는 전제하에)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 관련 에러
# 검증 데이터 분리 from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split( X_train, y_train, test_size = 0.2, random_state=0 ) X_tr.shape,X_val.shape,y_tr.shape,y_val.shape # 라이브러리 불러오기 from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트 model = RandomForestClassifier(random_state=2022).fit(X_tr, y_tr) pred = model.predict_proba(X_val) 이렇게 코딩는데 아래 에러가 났거든요해결 못하겠느데 도움 부탁 드리겠습니다 ㅠㅠ --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-60-4020959764> in <cell line: 0>() 3 4 # 랜덤포레스트 ----> 5 model = RandomForestClassifier(random_state=2022).fit(X_tr, y_tr) 6 7 pred = model.predict_proba(X_val) 6 frames/usr/local/lib/python3.11/dist-packages/pandas/core/generic.py in __array__(self, dtype, copy) 2151 ) -> np.ndarray: 2152 values = self._values -> 2153 arr = np.asarray(values, dtype=dtype) 2154 if ( 2155 astype_is_view(values.dtype, arr.dtype) ValueError: could not convert string to float: 'B'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue값 형태?가 다르게 나와요
강의에서는 코드 실행하면 pvalue 값만 나오지만 제가 코랩에서 실행하면 pvalue=np.float64()형태로 나오는데 시험 상황에서 상관 없을까요?? 실기 시험 장소에서는 버전이 낮아서 상관 없으려나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1) 3번 문항 질문있습니다.
강의와 다르게 cond1 , cond2 변수 순서를 바꿔서 출력했더니 값이 다르게 나오는데 이게 어떤 부분에서 문제가 있는걸까요? (또는) 함수에서 낮은 값부터 쓰지 않아서 그런건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의나 교재에서는 넘파이 거의 다루지 않았지만
체험 3유형이 바뀐걸 보니 넘파이의 기본 기능을 좀 익히고 응시하면 대비가 되지 않을까 싶은데요 넘파이에 대한 기본 설명강의 간략하게 가능하실까요아님 자료라도 ㅠㅠ(시나공 교재도 구입했는데 여기에서도 넘파이 예제는 안보여서요)
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
최근에 업데이트하신 7회 작업형3 문제1 영상 수정이 잘못 수정된 것 같습니다!
7회 작업형3 문제1 영상이 수정되지 않고 7회 작업형1 문제1 영상이 수정됐어요...ㅎㅎ그래서 7회 작업형1 문제1에 대한 영상이 없어지고 7회 작업형3 문제1 영상만 2개 있네용.. 여담으로 좋은 강의와 질문에 대한 빠른 답변 제공해주셔서 감사합니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
강사님!작업형 2에서 결측치를 어느 값으로 채우면 좋을지 1에 가까운 것을 선택해서 사용하면 된다고 하셨는데 그걸 판단하는 코드는 어떻게 작성하는지 알 수 있을끼요?