묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 코드
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이렇게 작성해도 감점 없을까요? 영상에 나온 rmse 값보다 훨씬 작습니다. (저는 rmse : 816.38 나옵니다) # 2. 탐색적 분석 / 결측치 채우기 # 환불금액# print(train.info())# print(train.head(3))# print(train.isnull().sum())# print(test.isnull().sum())a = int(train['환불금액'].mean())# print(a)train['환불금액'] = train['환불금액'].fillna(a)test['환불금액'] = test['환불금액'].fillna(a)train = train.drop('주구매상품',axis=1)test = test.drop('주구매상품',axis=1)# print(train.isnull().sum())# print(test.isnull().sum())# 3. 인코딩target = train.pop('총구매액')# print(target)train = pd.get_dummies(train)test = pd.get_dummies(test)# print(train.info())# print(test.info())# 4. 분할from sklearn.model_selection import train_test_splitx_t, x_v, y_t, y_v = train_test_split(train, target, test_size = 0.2, random_state = 0)# 5. 학습from sklearn.ensemble import RandomForestRegressormodel = RandomForestRegressor(random_state = 0)model.fit(x_t, y_t)pred = model.predict(x_v)# 6. 평가 - 816.38from sklearn.metrics import root_mean_squared_errorrmse = root_mean_squared_error(y_v, pred)print(rmse)# 7. 예측pred = model.predict(test)# 8. 제출submit = pd.DataFrame({'pred':pred})submit.to_csv("result.csv", index=False)result = pd.read_csv("result.csv")print(result)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본 t검정 질문입니다.
캐글 3유형 문제 푸는중입니다.stats.ttest_rel(df['bp_pre'], df['bp_post'], alternative='greater')stats.ttest_rel(df['bp_post'], df['bp_pre'], alternative="less") 두 코드의 결과 중통계량은 왜 다를까요? 하나는 양수 하나는 음수입니다.적은 것 보고 적다고하고, 큰 것을 크다고 하면 결과가 같다고 들었던 것 같은데 잘못 알고있는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오브젝트형 데이터가 많은 문제 관련
안녕하세요.오브젝트가 대부분인 데이터인데, 오브젝트를 드랍한 게 인코딩 했을 때보다 점수가 더 좋게 나오는 경우..그냥 드랍해서 모델 학습시켜도 되는 걸까요? 전에 다른 회차에서도 하나만 수치형 데이터인데 그 수치형 데이터만으로 예측한 게 점수가 더 좋게 나왔었어요..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경에서 프린트하면 데이터프레임으로 변경시키는방법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 선생님, 지금까지 코랩이나 주피터에서 연습할때는 프린트 없이 출력하면 데이터테이블 형태로 나와서 보기 편했는데, 체험환경은 프린트를 무조건 넣으면 시리즈로 나와서 보기 불편한데, 이걸 데이터프레임형식으로 보는 방법이 있나요...? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
연습문제? 캐글
안녕하세요책과 강의 구매후 공부중입니다. 책에 챕터3에 연습문제가 있는데요, 해당 문제는 강사님의 깃허브에서 파일이 있더라구요. 그리고 캐글에도 다른 연습문제가 있는거 같은데.. 두 곳에서 문제를 다 풀면 좋지만, 시간 여건상 하나만 선택해야 한다고 했을때, 어느 문제를 풀어보는게 좋을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state 관련 질문
예시문제 작업형 2를 풀다 생긴 질문인데요.train_test_split함수에 들어있는 random_state값이 바뀔때 마다 평가지표의 값이 눈에 띄게 달라지는데 정상인가요? 0일땐 800초반대, 1일땐 1100중반대가 나오는데, 이정도면 꽤나 차이가 나는게 아닌지요?+시험 현장에선 random_state 값을 두세개 넣어보는게 좋을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 제2유형
강사님 말씀하신 아래 방법 외에 train = pd.get_dummies(train)test = pd.get_dummies(test)는 안되는건가요? 이것도 원핫인코딩과 동일한데 확인부탁드립니다. # [선택2] 원핫 인코딩 (카테고리가 다르면 합쳐서 진행 필요함)# df = pd.concat([train, test])# df = pd.get_dummies(df)# # 다시 분리# train = df.iloc[:len(train)]# test = df.iloc[len(train):]# print(train.shape, test.shape)
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
빅분기 실기 시험 6회 기출 유형, 작업형3
chi2_contingency 로 푸셨는데 이게 맞는가요?chisquare는 적합도 검정이라 단일 표본의 관찰 빈도가 기대 빈도와 일치하는지 볼 때 주로 쓰고, chi2_contingency는 두 개 이상의 범주형 변수가 서로 관련이 있는지, 즉 두 변수 간의 독립성을 검정할 때 사용하므로 chisquare가 맞는 거 같은데요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 1-3번 p-value의 경우 반올림 명시
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요p-value 값을 구할때, 반올림하거나 정수를 구하라 이런말 없으면 그냥 카이제곱검정했을 때 나온 소숫점 자리수 전부 다 입력해야하나요? 하나라도 빠지면 틀리는걸까요? 자리수 명시가 명확하지않는경우도 있나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len과 sum
10분 4초에서 합동분산추정량을 구할 때 자유도는 sum을 쓰시고그 전 1번 문제에서 자유도를 구하실 때는 len으로 하셨는데, 차이가 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1유형, 3유형 답안 제출
1유형이랑 3유형에서 소문제가 여러 개 있을 때 답을 하나씩 옮겨적는다고 하면 문제 1-1 답안 적고 1-2 답 확인하러 코드로 넘어가면 1-1 답안 유지되나요 아니면 사라지나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀모델 평가지표
분류모델의 경우 평가값이 0.9언저리면 괜찮은것으로 알고 있는데회귀모델의 경우 평가지표 값이 r2같은것 제외하고는mae,rmse등은 낮은것이 좋은것으로 알고있습니다근데 평균의 10%이하 정도 보통 좋은것으로 알고있는데 어떤값이 좋은지 어떻게 비교할수 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2
혹시 수치형과 범주형데이터를 분리했다가 합치지 말고,바로 원핫인코딩을 진행해서 해도 괜찮을까요?또, max_depth도 꼭 필요한지, 어디서 적용해야하는지도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 , 라벨인코딩 선택의 기준
안녕하세요. 수강중 문의드립니다전처리 파트 중 인코딩 부분에서,인코딩 했을 때 칼럼수가 너무 많아질 경우원핫 말고 라벨인코더를 사용하는데요시험장 컴퓨팅 환경을 기준으로컬럼이 몇개 오버될경우라벨인코더를 사용하면 좋을지에대해 기준점을 제시해주시면 감사하겠습니다.(현재 200개 언더로는 원핫 쓰고 그이상은 라벨인코더 쓰는 식으로 하고있습니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 코드 점검 한번만 부탁드립니다..
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# print(train.shape, test.shape)# print(train.info())# print(test.isnull().sum())y_train = train.pop('총구매액')# print(train.shape, test.shape)m = train['환불금액'].mean()train['환불금액'] = train['환불금액'].fillna(m)test['환불금액'] = test['환불금액'].fillna(m)# 원핫, 라벨링인코더# print(train.info())# print(train.shape, test.shape)#라벨인코더# cols = ['주구매상품', '주구매지점']# from sklearn.preprocessing import LabelEncoder# le = LabelEncoder()# for col in cols:# train[col] = le.fit_transform(train[col])# test[col] = le.transform(test[col])#원핫print(train.shape, test.shape)data = pd.concat([train,test], axis = 0)data_oh = pd.get_dummies(data)train = data_oh.iloc[:len(train)].copy()test = data_oh.iloc[len(train):].copy()print(train.shape, test.shape) # print(train.head())#스플릿from sklearn.model_selection import train_test_splitX_tr, X_var, y_tr, y_var = train_test_split(train,y_train,test_size = 0.15,random_state = 0)#랜포from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict(X_var)import lightgbm as lgblgbmr = lgb.LGBMRegressor(random_state=0)lgbmr.fit(X_tr, y_tr)pred1 = lgbmr.predict(X_var)from sklearn.metrics import root_mean_squared_errorrmse = root_mean_squared_error(y_var, pred1)print(rmse)#라벨 rf 716.2595627489613#라벨 lgb 667.9290102574973#원핫 rf - 762.9476701424611#원핫 lgb - 652.1802049238468#제출pred = lgbmr.predict(test)submit = pd.DataFrame({'pred' : pred})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv')) 저렇게 4개 비교해서 원핫 lgb로 제출했는데요 옳게 했는지 코드 점검 한번만 부탁드립니다 그리고 질문이 있는데요 실제 시험 들어가면 import pands as pd랑 트레인 테스트 저거 주나요? 외워야하나요? 저 화면 처럼 실제 시험도 저렇게 구성되어있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 이상치 파악
train과 test 데이터 전처리 시, 두 데이터 모두에서 '총구매액' 과 '최대구매액'이 음수이길래 이상치인줄 알고 전처리에 고민을 좀 했습니다.고민하다보니 전액 환불한 경우에는 논리적으로 음수가 맞더라고요. 그래서 별도의 이상치 처리는 안 했습니다. 다만, 제가 궁금한점은 실제 시험에서 이상치가 나왔을 때 대응 방법 (예를 들어, 이상치가 아닌 데이터만 살리는 등) 이 문제처럼 test데이터에서 이상치가 나올 가능성이 있는지와 대응방법 (test데이터의 행은 삭제해서는 안 되는 것으로 알고 있습니다.) 위 두가지가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2
예측 단계에서 다음과 같은 오류가 발생했는데, 이유가 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출3회 작업형1 3번]
ValueError Traceback (most recent call last) /usr/local/lib/python3.11/dist-packages/pandas/core/indexes/range.py in get_loc(self, key) 412 try: --> 413 return self._range.index(new_key) 414 except ValueError as err: ValueError: 3 is not in range The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 3 frames/usr/local/lib/python3.11/dist-packages/pandas/core/indexes/range.py in get_loc(self, key) 413 return self._range.index(new_key) 414 except ValueError as err: --> 415 raise KeyError(key) from err 416 if isinstance(key, Hashable): 417 raise KeyError(key) KeyError: 3기출3회 작업형1 3번 문제를 풀 때, 맨 처음 데이터를 다시 실행시켜주지 않으면 동일한 코드라도 이런 오류가 뜹니다. 매번 처음 데이터를 실행해줘야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 실기 1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요방법 2인 pivot table을 만든 이후에 기존 방법 1의 grouped['차이'] 항목을 만들어 처리하였는데요.방법 2에서는 grouped라는 변수에 pivot table 결과를 안넣으셨는데, pivot table 결과가 어떻게 grouped에 들어간걸까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2:00 질문
대응표본검정 코딩할때, alternative='less'를 넣었는데 뮤d가 < 0 인 대립가설을 기준으로 잡으신 이유가 있을까요 ??귀무가설을 기준으로 뮤d >= 0 으로 잡으면 before가 after보다 크게 나와서 less로 안해도 된다는 의문점이 있습니다