묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 선택
강의를 해주시면서XGBoostRandomForesetLGBM위 모델에 대한 설명이 주를 이루고 있는데 해당 모델은 모두 분류,회귀 모두 사용 가능한걸로 알고 있습니다. (제가 이해한 게 맞나요?) 다른 모델들도 포함해서 시험장에 총 2개의 모델로만 활용을 하고싶은데 어떤 모델을 추천하시는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm 실행 시 나오는 경고문구
lightgbm 실행하면 결과값은 나오는데, 그 밑에 경고가 나옵니다.뭐가 잘못된건가요.. 아님 경고 무시고 제출해도 상관 없는건가요# lightgbm from lightgbm import LGBMClassifier model = LGBMClassifier(random_state=0, verbose=-1) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) roc_auc_score: 0.9431438127090301 /usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py:2739: UserWarning: X does not have valid feature names, but LGBMClassifier was fitted with feature names warnings.warn(
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험에 대한 질문드립니다.
인코딩 시 베이직모델, 레이블인코딩, 원핫인코딩 등 여러가지가 있는데 제일 좋은건 전부 비교해서 결과를 따져보고 선택하는거지만 그런거에 자신이 없다고 할때 하나만 선택해서 해도 만점받는데 문제없나요? 만약 문제없다면 어떤걸로 선택해서 인코딩하는게 가장 무난할지 추천부탁드립니다.모델 선택할 때 랜덤포레스트, xgboost 등 여러가지가 있는데 랜덤포레스트 하나만 밀어도 만점받는데 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자료다운로드 csv 파일로 할줄알아야하나요?
수업노트보기에 있는 노트북 링크로만 코딩 연습중인데 csv 파일 받아서 할줄알아야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값의 범위가 헷갈립니다.
이전에 질문에서 p-value 범위에 대해 답변해 주셔서 감사합니다.p-value < 유의수준 : 귀무가설 기각p-value >= 유의수준: 귀무가설 채택 로지스틱 회귀에서 임계값은 범위는pred > 임계값 = Truepred <= 임계값 = False이렇게 이해해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 관련
만약 문제에서'예측결과는 RMSE 평가 지표에 따라 평가함' 이라고 되어있어도, 다른 평가지표를 써도 되는게 맞을까요? 강의에서는 된다고 하셨는데, 감점 사항인지 궁금해서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5. 이원 분산 분석의 질문입니다.
비료 유형에 따른 토마토의 수확량 평균에 차이가 있는가를 검정하기 위한 검정 통계량을 구하시오. 위 문제에서 분명 종속변수는 비료 유형 1개인데ols(수확량 ~ C(비료유형) + C(물주기) + C(비료유형):C(물주기),data=df).fit()으로 풀어야 하는 이유가 궁급합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링
빠르게합격하고싶은데, 스케일링 패쓰해도되죠?전처리 인코딩이랑 결측치 제거만 해줘도충분하죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제
캐글 문제를 풀려고 하는데'Edit My Copy' 이걸 눌러서 문제에 진입하면'문제가 발생하여 이 페이지가 중단되었습니다!'라는 문구가 나오고 새로고침을 여러번 하다보면 기분 좋을 때 한번식 열리는데, 무슨 방법이 있을까요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경 질문
안녕하세요 예시문제 작업형1 강의 듣고 있는데이것저것 연습겸 클릭하고 있는데문제풀이에서 하다가답안 메뉴 다시 갔다가 다시 문제풀이로 돌아오니 코드 작성한게 다 날라갔더라고요..저장버튼이 활성화되지 않던데..저장하려면 어떻게 해야하죠?실제 시험칠때도 문제풀이 저장하는게 가능한지 궁금합니다감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df=~적는것
안녕하세요df['고객만족도'].fillna(m)할때앞에 다시 df['고객만족도'] = ~ 붙이는거랑df.dropna(subset='근속연수')앞에 df = ~ 붙이는게 정확하게 붙이는 이유가 이해가 되지 않습니다..뭔가 작업을 할떄앞에 df ~를 다시 붙여준다고 생각하면 될까요?감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 1
'Attrition_Flag':pred[:,1],마지막에 왜 index 1 열을 가져오는지 이해가 안 돼요.예측하고자 하는 값은 '이탈' 고객인데, 왜 0번째 열이 아닌 1번째 열을 추출하는걸까요?ㅠ이 부분이 헷갈려요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막 유의수준 0.05하에서 검정의 결과에 대한 질문입니다.
'(귀무가설/대립가설)을 기준으로 검정의 결과를 (채택/기각)중 선택하여 입력하시오' 라는 문장그대로 해석하면 될까요? 예를들어귀무가설을 기준으로 검정의 결과를 (채택/기각)중 선택하여 입력하시오-> 귀무가설을 기각할지 채택할지 결정 대립가설을 기준으로 검정의 결과를 (채택/기각)중 선택하여 입력하시오-> 대립가설을 기각할지 채택할지 결정
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀 강의에서 변수형 변수는 c()처리를 했는데
로지스틱 회귀 강의에서 변수형 변수는 c()처리를 했는데 여기서는 별도 처리를 안하는건가요?c()의 의미가 어떻게될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 pred[:,1] 이유가뭔가요?~
머신러닝 pred[:,1] 으로 하는 이유가뭔가요?~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 작업형1 문제 3번datetime
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요6회 기출유형(작업형1) 강의에서 3번 문제를 풀 때 '날짜' 컬럼을 pd.to_datetime을 통해서 풀려면 코드 작성을 어떤 식으로 진행해야 할지 알려주시면 감사하겠습니다 ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 문제4
자료형 삭제할 때방법3로 해도 되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 강의 계획
안녕하세요, 강사님어쩌다 보니 실기 시험 준비 기간이 좀 늦어 졌는데,지금 시험까지 약 10일 정도 밖에 남지 않은 상황인데, 지금부터 시작한다면 어떤식으로 학습하는게 좋을까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 2(ver. 2025) rmse 문의드립니다.
train['환불금액'] = train['환불금액'].fillna(train['환불금액'].median())test['환불금액'] = test['환불금액'].fillna(test['환불금액'].median())train = train.drop('회원ID', axis=1)target = train.pop('총구매액')test_id = test.pop('회원ID')cols = train.select_dtypes(include ='O').columnsdf = pd.concat([train, test])from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() # train[col] = le.fit_transform(train[col]) # test[col] = le.transform(test[col]) df[col] = le.fit_transform(df[col])# df = pd.get_dummies(df[cols])train = df[:len(train)]test = df[len(train):]from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size = 0.2,random_state=0)# from sklearn.ensemble import RandomForestRegressor# rf = RandomForestRegressor(random_state=0, max_depth=5, n_estimators=500)# rf.fit(X_tr,y_tr)# pred = rf.predict(X_val)from xgboost import XGBRegressorxgb = XGBRegressor(random_state=0, max_depth=5, n_estimators=400, learning_rate=0.01)xgb.fit(X_tr, y_tr)pred = xgb.predict(X_val)from sklearn.metrics import mean_squared_error, r2_scoremse = mean_squared_error(y_val, pred)rmse = mse**(1/2)r2 = r2_score(y_val, pred)print(mse, rmse, r2) 이렇게 작성했을때 이렇게 나오는데 잘된게 맞는건지 아닌건지 모르겠습니다. 선생님께서는 레이블 인코딩했을때 rmse가 813.22가 나오셨다는데 왜이렇게 차이가 많이나는지 모르겠습니다. 672765.0076766363 820.2225354601252 0.7020188276193622
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1의 모의문제2번에 문제4번 풀이 질문 드립니다
작업형1의 모의문제2번에 문제4번 질문입니다문제4주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다.행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오 ('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합)에서 두번째 라인의 행단위로 합한다음 그값이 3000 보다 큰 값의 데이타 수를 구하라 것으로 문제풀이는 아래와 같습니다 cols = df.select_dtypes(exclude='object').columnscolsdf = df[cols]df.head()df = df.fillna(0)df = df.Tdf.head()print(sum(df.sum() > 3000))여기서 질문이 문제에서 행단위로 합한다음 그 값이 3000보다 큰 데이타 수를 구하라는 의미는 단순한 워딩만 분석해 보면 아래 처리 이해 됩니다. 즉 , age f1 ... 등등의 행의 합을 구하고 그 값이 3000이 넘는 수가 몇개냐의 의미로 해석되됩니다. 선생님의 문제 풀이가 이해가 안가는데 설명 좀 부탁드립니다, cols = df.select_dtypes(exclude="object").columnscolsdf = df[cols]df = df.fillna(0)df = df.Tdf['tot'] = df.sum(axis=1)print(df['tot'])(df['tot'] > 3000).sum()학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요